10.11925/infotech.2096-3467.2018.0449
查询歧义性程度自动标注指标的替代性验证研究
[目的]针对查询歧义性程度的标注问题,通过分析自动标注指标间的相关性及自动标注指标与人工标注指标的一致性,以期获得在一定程度上能替代其他自动标注指标和人工标注的自动标注指标.[方法]分别选取基于文档、用户以及查询词项特征的自动标注指标,依据查询词项对应类目的频率改进一种基于查询词项特征的自动标注指标;利用皮尔逊相关系数与对称AP相关系数分析自动标注结果之间的相关性,利用宏平均F1与宏平均准确率分析自动标注指标与人工标注结果的一致性.[结果]自动标注指标之间相关性较弱;本文改进的自动标注指标与人工标注指标之间一致性最高:宏平均F1值与宏平均准确率分别为0.623与0.707.[局限]限于目录型网站的查询词项覆盖率,部分自动标注指标无法用于所有歧义性查询,导致用于检验替代性的歧义查询数量较少.[结论]自动标注指标之间的替代性较弱;查询词项对应类目的频率能提高基于查询词项特征的自动标注指标间一致性;与已有自动标注指标相比,本文改进的自动标注指标与人工标注结果一致性最高,在一定程度上可替代人工标注.
查询歧义性程度、自动标注、人工标注、替代性、相关性、一致性
3
G354(情报学、情报工作)
国家社会科学基金青年项目“融合用户个性化与实时性意图的查询推荐模型研究”项目15CTQ019的研究成果之一
2019-05-06(万方平台首次上网日期,不代表论文的发表时间)
共11页
79-89