10.11925/infotech.2096-3467.2017.1114
基于主题过滤与主题关联的学科主题演化分析
[目的]针对采用LDA模型识别出的主题中往往含有一些无意义的主题,严重影响演化分析的精确性问题,本文提出采用主题过滤和主题关联的方式,构建学科主题在时间序列上的演化路径,并分析主题在内容上的演化情况.[方法]计算主题在所有文献中出现的概率,识别并过滤边缘主题;根据主题中词汇分布的倾向性,识别并过滤无意义的噪音主题.将过滤后的主题作为主题演化分析的主题,通过计算相邻时间段中主题间的JS散度识别相关主题,从而根据主题间的相关关系构建主题演化路径.[结果]以“机器学习”领域的文献为例,构建学科主题演化路径,展示主题间的新生、消亡、继承、分裂和合并5种演化方式,并以微观的“图像识别”为例,验证了方法的有效性.[局限]在构建主题演化路径时,采用人工判断方法设置阈值,具有一定的主观性.[结论]本文方法避免了不重要的边缘主题和无意义的噪音主题对相邻时间段中相关主题识别造成的干扰,提高了所构建的主题演化路径的准确性,能够更为准确地展示学科主题的演化规律.
学科主题演化、主题过滤、LDA主题模型、演化分析
2
TP393(计算技术、计算机技术)
国家社会科学基金重点项目“基于关联数据的学术文献内容语义发布及其应用研究”项目17ATQ001的研究成果之一
2018-03-29(万方平台首次上网日期,不代表论文的发表时间)
共12页
64-75