DOI：10.3969/j.issn.1007-5321.2009.05.003

中文高频词串的抽取及其在语言模型中的应用

引用

摘要：

为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.

关键词：中文高频词串、字区分度、字串切分度、n元模型、音字转换

所属期刊栏目：32

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家科技支撑计划项目2007BAH05B02-04;高等学校学科创新引智计划项目B08004;BUPT-Nokia合作项目

在线出版日期：2009-12-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：10-14

英文信息展示

期刊专题