10.3969/j.issn.1006-2475.2017.01.002
一种基于噪音过滤包装器的Web新闻抽取方法
从海量Web新闻网页中抽取高纯度新闻,并以结构化的形式存储,是舆情监测、话题更新等研究的基础.本文提出一种基于噪音过滤包装器的方法抽取Web新闻,归纳包装器时,若2页面字符串对比失配,计算其字符串标签路径比,根据阈值α,标记不同符号区分新闻内容和噪音.同时提出了朴素贝叶斯Web新闻标题分类器和时间分类器抽取新闻题目和时间.实验结果表明,本文方法与其他抽取技术相比准确率和鲁棒性有显著的提高,具有重要的实际应用价值.
信息抽取、包装器、新闻网页、ACME算法、字符串标签路径比、朴素贝叶斯分类器
TP391.1(计算技术、计算机技术)
中央高校基本科研业务费专项资金资助项目2015JBM035
2017-05-16(万方平台首次上网日期,不代表论文的发表时间)
共8页
5-12