DOI：10.11817/j.issn.1672-7207.2016.09.023

几种基于统计的词聚类方法比较

引用

摘要：

基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果、自下而上的词聚类算法.研究结果表明:该词聚类算法执行效率高,聚类效果较好;根据该词聚类模型的结果所构造的基于词类和基于词语的线性插值模型,能较好地缓解统计语言模型中的数据稀疏问题.

关键词：自然语言处理、词聚类、互信息、词相似度

所属期刊栏目：47

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61262035,61562034;江西省自然科学基金资助项目20142BAB207028;江西省科技支撑计划项目20151BBE50082;江西省教育厅科技项目GJJ14335Projects61262035,61562034 supported the National Natural Science Foundation of China;Project20142BAB207028 supported the Natural Science Foundation of Jiangxi Province;Project20151BBE50082 supported the Key Technology Support Program of Jiangxi Province;ProjectsGJJ14335 supported the Scientific Research Foundation of Education Department of Jiangxi Province

在线出版日期：2016-12-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：3079-3084

英文信息展示

期刊专题