10.3778/j.issn.1002-8331.1405-0052
一种基于结构分析的网页主题区域发现方法
随着互联网的发展,We b数据挖掘在帮助人们获取主题信息方面越来越具有重要意义。本研究基于树结构,将We b网页解析为标签树;在树匹配算法的基础上,提出了数据区域挖掘和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果发现主题区域,去噪后获得主题信息。实验表明该研究结果对新闻、博客类网页具有很好的识别效果。
信息抽取、主题区域、文本结构权重、去噪
TP391(计算技术、计算机技术)
2015-03-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
227-230,259