10.3772/j.issn.1000-0135.2012.01.006
基于链路压缩树的网页相似度研究
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的.
网页结构、链路相似度、结构相似度、链路压缩树
31
TN9;TP3
国家自然科学基金资助项目70671016
2012-02-27(万方平台首次上网日期,不代表论文的发表时间)
共7页
40-46