期刊专题

10.19343/j.cnki.11-1302/c.2021.08.012

大数据背景下CPI预测问题的文本挖掘技术设计与应用

引用
本文创新地将半监督交互式关键词提取算法词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)与基于 Transformer 的双向编码表征(Bidirectional Encoder Representation from Transformers,BERT)模型相结合,设计出一种扩展CPI预测种子关键词的文本挖掘技术.采用交互式TF-IDF算法,对原始CPI预测种子关键词汇广度上进行扩展,在此基础上通过BERT"两段式"检索过滤模型深入挖掘文本信息并匹配关键词,实现CPI预测关键词深度上的扩展,从而构建了 CPI预测的关键词库.在此基础上,本文进一步对文本挖掘技术特征扩展前后的关键词建立预测模型进行对比分析.研究表明,相比于传统的关键词提取算法,交互式TF-IDF算法不仅无需借助语料库,而且还允许种子词的输入.同时,BERT模型通过迁移学习的方式对基础模型进行微调,学习特定领域知识,在CPI预测问题中很好地实现了语言表征、语义拓展与人机交互.相对于传统文本挖掘技术,本文设计的文本挖掘技术具有较强的泛化表征能力,在84个CPI预测关键种子词的基础上,扩充后的关键词对CPI具有更高的预测准确度和更充分的解释性.本文针对CPI预测问题设计的文本挖掘技术,也为建立其他宏观经济指标关键词词库提供新的研究思路与参考价值.

关键词提取;CPI预测;文本挖掘技术;交互式TF-IDF算法;BERT模型

38

O212(概率论与数理统计)

对外经济贸易大学惠园优秀青年学者项目"基于大数据背景下的我国宏观经济监测、预测及预警研究"18YQ04

2021-09-15(万方平台首次上网日期,不代表论文的发表时间)

共15页

146-160

相关文献
评论
暂无封面信息
查看本期封面目录

统计研究

1002-4565

11-1302/C

38

2021,38(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn