10.3321/j.issn:1002-8331.2007.36.053
一种互联网新闻网页的采集分析方法
设计了一种采集分析互联网新闻网页的方法.该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接:区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重.测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求.
链接分析、页面评估、互联网、网页采集、链接识别、链接权重、网页权重分析、新闻网页
43
TP311(计算技术、计算机技术)
国家部委预研项目2006BAH02A10
2008-03-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
169-172