10.3969/j.issn.1671-1815.2021.29.038
基于MacBERT-BiLSTM-CRF的反恐领域细粒度实体识别
为验证基于深度学习的命名实体识别框架在反恐领域的有效性,参照ACE 2005实体标注规范,制订了细粒度反恐实体标签体系,构建了反恐实体语料集Anti-Terr-Corpus;提出基于MacBERT-BiLSTM-CRF的实体识别模型,通过能减少预训练和微调阶段差异的MacBERT(masked language modeling as correction bidirectional encoder representations from transformers)预训练语言模型获得动态字向量表达,送入双向长短时记忆(bidirectional long short-term memory,BiLSTM)和条件随机场(condi-tional random field,CRF)进行上下文特征编码和解码得到最佳实体标签;替换框架中的预训练语言模型进行对比实验.实验表明该模型可以有效获取反恐新闻中的重要实体.对比BiLSTM-CRF模型,MacBERT的加入提高了24.5%的F1值;保持编码-解码层为BiLSTM-CRF时,加入MacBERT比加入ALBERT(a lite BERT)提高了5.1%的F1值.可见,深度学习有利于反恐领域实体识别,能够利用公开反恐新闻文本为后续反恐形势预判服务,同时有助于反恐领域信息提取、知识图谱构建等基础性任务.
深度学习;预训练语言模型;反恐领域实体识别;细粒度实体识别
21
TP391.1(计算技术、计算机技术)
公安部技术研究计划;国家高技术研究发展计划;中国人民公安大学基本科研业务费项目
2021-11-12(万方平台首次上网日期,不代表论文的发表时间)
共11页
12638-12648