10.3969/j.issn.1673-808X.2010.01.014
一种基于数据库去除网页噪音的有效方法
由于网页中大都包含有如广告、版权信息、导航链接等噪音,严重影响了网页数据的自动收集和挖掘.通过一种基于数据库去除网页噪音的有效方法,对网页噪音的处理不用将内容全部放入内存中,而是根据数据库中保存的table和div容器包含内容重复度进行消除噪音操作,一定程度上达到了净化网页的目的.将此方法应用于基于差异频度的类别空间模型的二值分类,结果表明本文提出的网页去噪方法是有效的,并且分类的正确率有了一定的改进.
数据库、网页噪音、类别空间模型
30
TP309.2(计算技术、计算机技术)
广西自然科学基金0991071
2010-05-18(万方平台首次上网日期,不代表论文的发表时间)
共5页
54-58