10.3969/j.issn.1003-3513.2008.03.009
一种基于内容规则的网页去噪算法
提出一种基于内容规则的网页净化算法.包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离.为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素.该算法具有更高的准确度,同时具有很低的时间复杂度.实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果.
网页净化、编辑距离
TP18(自动化基础理论)
国家科技支撑计划课题基金项目"知识组织系统的集成及服务体系研究与实现"项目2006BAH03B03-01的研究成果之一
2008-09-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
51-54