期刊专题

10.11925/infotech.2096-3467.2022.0530

基于改进多头注意力机制的专利文本摘要生成研究

引用
[目的]解决专利文本摘要生成中专利文本输入结构单一导致的摘要生成单一偏向性问题,以及摘要生成整体上的重复生成、不够简洁流畅、原始信息丢失等问题,提升专利文本摘要生成的质量.[方法]设计基于改进多头注意力机制的专利文本摘要生成模型IMHAM(Improved Multi-Head Attention Mechanism).首先,针对结构单一问题,在专利的文本逻辑结构基础上设计两种基于余弦相似度的算法,选出最重要的专利文档;其次,设计一种具有多头注意力机制的序列至序列结构模型,更好地学习专利文本的特征表达;同时,在编码器层与解码器层增加自注意力层,修改注意力函数,解决重复生成的问题;最后,加入改进的指针网络结构解决原始信息丢失的问题.[结果]在公开的专利文本数据集上,所提模型相较于MedWriter基线模型,评价指标Rouge-1、Rouge-2、Rouge-L分别高出3.3%、2.4%、5.5%.[局限]所提模型更适用于专利这种有多种结构的文档,对于单一的文档结构无法发挥最重要文档算法的选择效果.[结论]对于类似具有多文档结构的文本,所提模型在摘要生成领域的质量提升具有良好的泛化能力,同时生成的摘要具有较好的流畅性.

专利文本、摘要生成、多头注意力、指针网络

7

TP391;G350(计算技术、计算机技术)

2023-09-07(万方平台首次上网日期,不代表论文的发表时间)

共12页

61-72

暂无封面信息
查看本期封面目录

数据分析与知识发现

2096-3467

10-1478/G2

7

2023,7(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn