DOI：10.3969/j.issn.1002-137X.2007.04.058

基于关键词聚类和节点距离的网页信息抽取

引用

摘要：

大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法.这些方法在某一个网站上可以很好地应用.但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集.而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集.这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取.本文提出了一种新的网页信息抽取方法,该方法基于特定主题的组和节点距离,能够不加区分地对不同的网站页面信息自动抽取.对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中.

关键词：聚类、信息抽取、机器学习、节点距离

所属期刊栏目：34

分类号：TP3(计算技术、计算机技术)

资助基金：广东省科技攻关计划2005B10101033;A10202001;广东省广州市科技攻关项目2004Z2-D0091

在线出版日期：2007-05-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：213-216

英文信息展示

期刊专题