10.13413/j.cnki.jdxblxb.2014.06.25
问答社区问句中多字词表达提取
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和 F 值分别达到84%,52%和0.64,验证了该方法的有效性.
多字词表达、问句理解、互信息、搜索引擎
TP391.1(计算技术、计算机技术)
国家自然科学基金61171159,61271304;北京市教委科技发展计划重点项目暨北京市自然科学基金 B 类重点项目KZ201311232037
2014-12-12(万方平台首次上网日期,不代表论文的发表时间)
共9页
1230-1238