10.3778/j.issn.1002-8331.2011.19.006
基于外部排序的字串左右熵快速计算方法
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算.提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵.分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算.
自然语言处理、左右熵、统计特征、新词检测
47
TP391(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 61040035;新疆师范大学优秀青年教师科研启动基金项目XJNU1011
2012-01-14(万方平台首次上网日期,不代表论文的发表时间)
共3页
18-20