DOI：10.11896/j.issn.1002-137X.2015.5.022

一种改进的树路径模型在网页聚类中的研究

引用

摘要：

相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤.对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善.传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度.因此,从网页结构相似度入手,提出了一种改进的树路径模型.该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷.实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果.

关键词：信息提取、网页结构、相似度、树路径模型、聚类

所属期刊栏目：42

分类号：TP311.5(计算技术、计算机技术)

资助基金：江苏水利科技项目:“智慧河流”研究及其在六合滁河管理中的应用2013025;河海大学中央高校基本科研业务费项目2009B21614

在线出版日期：2015-06-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：109-113

英文信息展示

期刊专题