10.11896/j.issn.1002-137X.2015.5.013
面向网页的主题概念挖掘
网页主题挖掘对自然语言处理如网页文本分类、文摘自动生成、信息融合等具有重要意义.挖掘网页主题可以帮助用户更好地理解网页内容.尽管已有一些从普通文本中挖掘概念的工作,但其很少考虑单词所属标签和位置对单词权重的影响,且没有工作给出上述两种影响因子的计算方法.借助WordNet,将网页主题从词语扩展到概念层次,提出了使用词性标注和词义消歧确定网页中单词词义并充分利用标签影响因子和位置影响因子对网页正文文本特征进行权重修正的主题概念挖掘方法,给出了两种影响因子的计算公式.在DMOZ数据集上的实验结果表明,修正权重可以明显提高主题挖掘精度,最高可达到0.95.
词性标注、词义消歧、标签影响因子、位置影响因子、权重修正
42
TP391(计算技术、计算机技术)
国家自然科学青年基金项目20130206051GX;吉林省重点科技攻关项目20130206051GX
2015-06-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
62-66