基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法
[目的]中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大.[方法]基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型.[结果]以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%.在包含罕见词时提高更为明显,F值提高了11.05%.[局限]在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果.[结论]本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果.
机构名识别、循环神经网络、深度学习
G351(情报学、情报工作)
本文系江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”项目编号:2014SJB246、江苏省警官学院“公安学术语自动抽取技术研究”项目编号:2015SJYZQ01和国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”项目编号:71303120的研究成果之一.
2017-03-13(万方平台首次上网日期,不代表论文的发表时间)
36-43