期刊专题

10.11896/j.issn.1002-137X.2015.5.022

一种改进的树路径模型在网页聚类中的研究

引用
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤.对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善.传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度.因此,从网页结构相似度入手,提出了一种改进的树路径模型.该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷.实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果.

信息提取、网页结构、相似度、树路径模型、聚类

42

TP311.5(计算技术、计算机技术)

江苏水利科技项目:“智慧河流”研究及其在六合滁河管理中的应用2013025;河海大学中央高校基本科研业务费项目2009B21614

2015-06-04(万方平台首次上网日期,不代表论文的发表时间)

共5页

109-113

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

42

2015,42(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn