DOI：10.3778/j.issn.1002-8331.2012.30.032

基于正文特征及网页结构的主题网页信息抽取

引用

摘要：

Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础.在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法.在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息.实验证明,这种方法具有很好的准确率及召回率.

关键词：正文特征、标签信息、正文抽取

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金重大项目No.70890080子课题70890083;教育部人文社科研究项目09YJA870005

在线出版日期：2012-12-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：151-156

英文信息展示

期刊专题