10.3778/j.issn.1002-8331.2010.16.018
基于单类别文档分类的主题爬虫
主题爬虫设计中关于主题的确立可以采用手工设置依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本.针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text.实验结果充分证明了该主题爬虫的可行性.
搜索引擎、主题爬虫、单类别文档分类、信息提取
46
TP311(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 60773083
2010-07-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
63-66