10.3969/j.issn.1007-5321.2009.05.003
中文高频词串的抽取及其在语言模型中的应用
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.
中文高频词串、字区分度、字串切分度、n元模型、音字转换
32
TP391.1(计算技术、计算机技术)
国家科技支撑计划项目2007BAH05B02-04;高等学校学科创新引智计划项目B08004;BUPT-Nokia合作项目
2009-12-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
10-14