期刊专题

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

引用
[目的]中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大.[方法]基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型.[结果]以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%.在包含罕见词时提高更为明显,F值提高了11.05%.[局限]在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果.[结论]本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果.

机构名识别、循环神经网络、深度学习

G351(情报学、情报工作)

本文系江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”项目编号:2014SJB246、江苏省警官学院“公安学术语自动抽取技术研究”项目编号:2015SJYZQ01和国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”项目编号:71303120的研究成果之一.

2017-03-13(万方平台首次上网日期,不代表论文的发表时间)

36-43

暂无封面信息
查看本期封面目录

现代图书情报技术

2096-3467

10-1478/G2

2016,(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn