期刊专题

面向食品安全突发事件汉语分词的特征选择及模型优化研究

引用
[目的]在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用.将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中.[方法]分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响.[结果]从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二三字词占46.62%的食品安全突发事件语料中,特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显.[结论]通过对不同特征选择和特征模板及其相互组合的实验,选择出在本文研究的语料库自动分词中最优的特征和特征模板,在5Tag特征标记下配合对应特征模板对目标语料分词的F值达到92.88%.

中文分词、食品安全、条件随机场、特征模板、特征选择

G351(情报学、情报工作)

国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”71303120;2011协同中心项目“面向应急推演平台的海量突发事件知识库与模型库构建研究”JD20150101;江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”项目2014SJB246的研究成果之一

2017-04-18(万方平台首次上网日期,不代表论文的发表时间)

共9页

64-72

暂无封面信息
查看本期封面目录

数据分析与知识发现

1003-3513

11-2856/G2

2017,(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn