马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用

引用

摘要：

自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的抽象,通过在自然语言生成中引入先验控制向量,我们可以更好的约束自然语言生成的空间.再通过马尔可夫决策过程的定义,我们可以使用策略梯度算法来直接使用测试使用的BLEU分数来代替交叉熵训练LSTM网络.在多个数据集上的实验显示本文提出的方法相比于普通使用LSTM语言模型的基线系统在BLEU分数上有大约绝对2％～3％的提升.

关键词：自然语言生成;马尔可夫决策过程;先验控制向量;策略梯度算法;深度强化学习

所属期刊栏目：45

分类号：TP18(自动化基础理论)

资助基金：新华社媒体融合生产技术与系统国家重点实验室第一联合创新中心资助SKLMCPTS2020003

在线出版日期：2022-03-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：289-301

英文信息展示

期刊专题