10.11925/infotech.2096-3467.2018.0314
共通语义空间下的跨文献类型文本自动分类研究
[目的]解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题.[方法]选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征,利用领域无关特征,对分属两个集合的领域相关特征构建双向图并进行谱聚类,关联表达类似语义的领域相关特征,产生由聚类特征定义的共通语义空间.[结果]实验结果表明,与传统的文本自动分类方法相比,本文方法的分类性能提高了3.0%-6.9%.[局限]构建共通语义空间时,需要大量与待分类文本属于同领域的语料.[结论]共通语义空间能够对不同文献类型的数字资源进行有效整合.
共通语义空间、文本自动分类、谱聚类、跨领域分类
2
TP391(计算技术、计算机技术)
国家社会科学基金项目“多种类型文本数字资源自动分类研究”项目15BTQ066的研究成果之一
2018-11-20(万方平台首次上网日期,不代表论文的发表时间)
共8页
66-73