10.3969/j.issn.1002-1965.2024.01.019
一种基于数据增强的科技文献关键词提取模型
[研究目的]科技文献关键词提取研究具有重要价值,目前研究中关键词提取方法存在较大误差且只能提取文本中的关键词,难以根据深层语义信息提炼出更符合文本核心主旨的词语.本研究针对关键词提取对上下文隐含语义挖掘不足导致的局限性和重点信息关注不足问题开展研究.[研究方法]提出一种基于数据增强的关键词提取模型(GPT-2 BiLSTM Mul-Attention,GPBA),通过语言模型进行数据增强,并结合BiLSTM+Mul-Attention提取模型进行多特征语义信息融合理解.[研究结论]实验结果表明,基于数据增强的关键词提取模型GPBA总体表现优于其他基线模型,并且能更精确地凝练和提取文本中的关键词.
科技文献、关键词提取模型、数据增强、语义信息、评估指标
43
TP391(计算技术、计算机技术)
国家自然科学基金U1703261
2024-01-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
135-141,120