用户查询日志中的中文机构名识别

引用

摘要：

[目的]解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题.[方法]提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题.提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别.[结果]该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80％,召回率为86.73％,F值为79.16％,比传统机构名识别方法在日志上的F值提高30％.[局限]语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性.[结论]实验表明该方法应用于用户查询日志中的机构名识别是有效的.

关键词：用户查询日志、中文机构名、语料构建、粘合度、条件随机场

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目“基于本体的专利自动标引研究”61271304;北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”项目KZ201311232037的研究成果之一

在线出版日期：2014-03-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：72-78

英文信息展示

期刊专题