查询专指度特征分析与自动识别
[目的]基于Sogou查询日志构建人工标注集,实现查询专指度的特征分析与自动识别,并对识别效果进行分析与评测.[方法]选取用户查询串基本特征与内容特征进行统计分析,并分别训练决策树、SVM和朴素贝叶斯分类器对专指度进行自动识别.[结果]使用以上特征的识别效果良好,十折交叉检验的宏平均F-measure均高于0.8.[局限]分类特征的选择未考虑用户点击信息;朴素贝叶斯的独立性假设在本实验中是否可以忽略仍需进一步验证.[结论]利用查询串基本特征和内容特征,可以有效识别弱、略和强专指度查询.
查询专指度、决策树、SVM、朴素贝叶斯
G353.1(情报学、情报工作)
本文系国家科技支撑计划课题“文化遗产知识本体构建存储可视化技术研究”项目编号:2012BAH33F03和国家自然科学基金面上项目“基于语言模型的通用实体检索建模及框架实现研究”项目编号:71173164的研究成果之一.
2015-03-20(万方平台首次上网日期,不代表论文的发表时间)
15-23