10.3321/j.issn:1002-0470.2007.08.002
基于词典中词语量化关系的中文文本聚类研究
鉴于词语知识对提高文本聚类性能的价值,提出了一种用线性插值方式把词典词语之间的量化关系和余弦相似度结合起来的文本相似度计算方法.在实现文本聚类之前,基于词典中一个词条和其释义在语义上等价的假设,构建出词条和释义中词语之间的量化关系,并把这种量化关系值作为文本聚类用到的知识.在k-均值聚类算法的框架下,这种以线性插值方式构造的新的相似度,给文本聚类系统性能带来了明显的提高.实验结果说明从词典中获取的词语量化关系对将来的文本聚类研究可能会有潜在的贡献.
文本聚类、词语量化关系、线性插值、k-均值
17
TP3(计算技术、计算机技术)
国家高技术研究发展计划863计划2001AA114210-11;国家自然科学基金60496326
2007-10-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
778-782