基于节点类型标注的网页主题信息抽取方法
提出一种基于DOM节点类型标注的网页主题信息抽取的方法.首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法.通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息.将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evemote工具高出0.3%,比YNote工具高出5.01%.
DOM、节点类型标注、主题信息抽取
43
TP391(计算技术、计算机技术)
国家高技术研究发展计划2013AA102405
2016-12-16(万方平台首次上网日期,不代表论文的发表时间)
共5页
31-34,49