10.3321/j.issn:1002-8331.2007.25.051
基于切平面的主题提取算法
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念.为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA).CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合.在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%~52%的主题漂移率,而且可以发现与查询相关的多个主题.
局部密集因子、切平面、超链归纳主题搜索、主题提取、主题漂移
43
TP311(计算技术、计算机技术)
国家部委预研演示验证项目
2007-10-12(万方平台首次上网日期,不代表论文的发表时间)
共4页
172-174,191