基于增强BiLSTM-CRF模型的推文恶意软件名称识别
针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别.在BiLSTM-CRF模型的基础上,利用BERT模型编码单词语境信息,提升词嵌入的上下文语义质量,增强原有模型的语义消歧能力;同时,借助Self-attention机制学习单词间关系和句子结构特征,利用加权表征帮助单一类别实体的解码,以提升恶意软件名称实体的识别效果.通过构建包含恶意软件名称实体的推文标记数据集进行实验测试,结果表明,提出的方法可以实现更好的性能,其精确率、召回率、F1值分别为86.38%,84.73%,85.55%,相较于基线模型BiLSTM-CRF,F1值提升了12.61%.
恶意软件名称识别、实体消歧、动态词嵌入、类别不均、重要性加权
47
TP391(计算技术、计算机技术)
中国科学院网络测评技术重点实验室开放课题基金NST-18-001
2020-04-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
245-250