10.3963/j.issn.1674-4861.2017.02.007
基于规则的海事自由文本信息抽取方法研究
海事数据的结构化处理是海事安全研究的一个重要步骤.目前,网络上存在着大量的海事相关信息,但多为不同格式的非结构化文档数据,可以采用一种基于规则的海事信息抽取方法,将海事自由文本转化为结构化的数据.通过网络爬虫从海事相关网页中得到待抽取文本数据,根据得到的文本信息定义抽取任务为时间、地点、船名和事故类型4个数据项,再根据抽取任务本身及其常见触发词构建自定义海事词库,用于自由文本的分词和词性标注;通过对大量事故语料的分析总结,编制抽取规则进行海事信息的抽取,形成结构化的海事数据.以长江海事局网站的事故详情为数据源,采用基于规则的抽取方法进行实验.实验结果表明,时间信息抽取的准确率为100%,召回率为91%;地点信息抽取的准确率为94.52%,召回率为69%;船名信息抽取的准确率为97.75%,召回率为86%;事故类型信息抽取的准确率为96.67%,召回率为87%.
信息抽取、海事自由文本、自定义词库、抽取规则
35
U692.4(水路运输技术管理)
交通运输部建设科技项目2015328811180;工信部高技术船舶项目
2017-06-02(万方平台首次上网日期,不代表论文的发表时间)
共8页
40-47