期刊专题

10.11896/jsjkx.191100504C

改进的神经语言模型及其在代码提示中的应用

引用
语言模型旨在刻画文本段的发生概率,作为自然语言处理领域中的一类重要模型,近年来其被广泛应用于不同软件分析任务,例如代码提示.为提高模型对代码特征的学习能力,文中提出了一种改进的循环神经网络语言模型——CodeNLM.该模型通过分析词向量形式表示的源代码序列,能够捕获代码规律,实现对序列联合概率分布的估计.考虑到现有模型仅学习代码数据,信息的利用不充分,提出了附加信息引导策略,通过非代码信息的辅助来提高代码规律的刻画能力.针对语言建模任务的特点,提出了节点逐层递增策略,通过优化网络结构来改善信息传递的有效性.实验中,针对9个Java项目共203万行代码,CodeNLM得到的困惑度指标明显优于n-gram类模型和传统神经语言模型,在代码提示应用中得到的平均准确度(MRR指标)较对比方法提高了3.4% ~24.4%.实验结果表明,CodeNLM能有效地实现程序语言建模和代码提示任务,并具有较强的长距离信息学习能力.

软件分析、代码提示、自然语言处理、语言模型、循环神经网络

46

TP311.5(计算技术、计算机技术)

国家安全重大基础研究计划项目613315

2019-12-13(万方平台首次上网日期,不代表论文的发表时间)

共8页

168-175

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

46

2019,46(11)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn