基于DBLP数据集的作者研究兴趣挖掘
为从DBLP数据集中挖掘出作者研究兴趣,提出了基于DBLP数据集中有效信息的作者研究兴趣挖掘模型,主要是利用了数据集中作者姓名和论文题目进行研究兴趣的挖掘.因为DBLP数据集的元数据以XML格式存储,因此采用SAX解析器对其进行解析.解析出有用信息后,提出了一种基于索引的数据存储方式.由于作者研究兴趣词汇主要来自数据集中论文的题目,因此将题目划分短语后,根据短语的重要度,确定专家的研究兴趣词汇.经实验表明,该系统的运行速度较快,能较好地提取出作者的研究兴趣信息.
研究兴趣挖掘、DBLP数据集、数据存储、格式解析、短语划分
18
TP311(计算技术、计算机技术)
辽宁省教育厅基金项目lnqn202015
2022-11-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
9-11,15