基于图的同义词集自动获取方法
同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.
相似词、同义词集、图模型、并列结构、Newman算法、边权值
48
TP18(自动化基础理论)
国家自然科学基金项目60703063,61003206;九十八年度蒋经国国际学术交流基金会奖助项目RG013-D-09
2011-08-09(万方平台首次上网日期,不代表论文的发表时间)
共7页
610-616