期刊专题

10.3778/j.issn.1002-8331.2011.19.006

基于外部排序的字串左右熵快速计算方法

引用
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算.提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵.分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算.

自然语言处理、左右熵、统计特征、新词检测

47

TP391(计算技术、计算机技术)

国家自然科学基金the National Natural Science Foundation of China under Grant 61040035;新疆师范大学优秀青年教师科研启动基金项目XJNU1011

2012-01-14(万方平台首次上网日期,不代表论文的发表时间)

共3页

18-20

暂无封面信息
查看本期封面目录

计算机工程与应用

1002-8331

11-2127/TP

47

2011,47(19)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn