中文文本蕴含气象灾害事件信息多模型融合抽取方法

引用

摘要：

随着气候变暖加剧,全球极端天气事件频发,重大气象灾害的发生频率与日俱增.研究气候变化与气象灾害发生频率的关系,对于气候变化背景下的防灾减灾具有重要意义.文献资料及泛在网络数据中蕴含了海量的气象灾害时空事件,为此,本文基于自然语言处理技术研发了文本气象灾害时空事件自动抽取方法.①提出了基于专业文献的由粗到精的气象灾害标注语料训练库构建方法.首先针对不同文献资料存在的歧义和不兼容等问题,构建了面向文本事件统一的气象灾害知识体系.然后构建了基于章节结构的粗标注方法,分别针对长文本(现代文)和短文本(文言文)研发了基于Labeled LDA模型及基于TF-IDF和N-gram模型的精细标注语料筛选方法,解决了语料库的快速构建问题;②基于BERT-CNN模型研发了融合上下文语义特征和多粒度的局部语义特征的、面向长短文本一体化处理的气象灾害时空事件自动分类方法;③利用该方法分别从文言文和泛在网络数据中自动抽取了灾害时空事件,其宏F1值分别达到89.09％和80.06％,主要气象灾害时空事件分布与专业统计数据相关性较高;④基于以上结果,重建了我国各历史时期灾害时空演变过程,发现各时期灾害数据量整体呈现出逐步上升趋势,暴雨灾害、洪涝灾害与干旱灾害是影响我国的主要灾种.本方法既可实现网络长文本事件的自动发现,也可实现文言文短文本事件的自动检测,为文本数据便捷应用于气象灾害研究和监测提供了新的技术方法.

关键词：气象灾害、时空事件、知识体系、语料库、文本分类、BERT-CNN模型、事件抽取

所属期刊栏目：24

分类号：TP391;S42;C931

资助基金：中国科学院战略性先导科技专项XDA23100103

在线出版日期：2023-01-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：2342-2355

英文信息展示

期刊专题