多媒体微博评论信息的主题发现算法研究
[目的]发现微博中图片或视频等多媒体内容的主题特征.[应用背景]多媒体微博的文本内容普遍简短且主题通常蕴含在图片或视频等多媒体内容中,传统的文本挖掘方法不适用于这种多媒体类微博.[方法]通过热点评论扩充该多媒体微博的文本空间,并使用LDA主题模型进行分类推断与主题特征挖掘,使用"主题标签-特征词"的形式表达微博多媒体内容的主题特征.[结果]使用爬虫工具采集的99 823条新浪微博构建训练集,151条热门多媒体微博及其所有评论构建测试集进行实验,构建的分类目录中标签完善,主题标签推断准确率达到88.6%,相关特征词挖掘准确率为76.0%.[结论]实验结果表明本文的算法可以有效且显著地发现多媒体微博的主题特征.
文本挖掘、多媒体、微博、LDA、主题发现
TP391;G35(计算技术、计算机技术)
本文系国家自然科学基金项目"基于演化本体的网络舆情自适应跟踪方法研究"项目编号:71373123和江苏高校哲学社会科学研究重点项目"基于超网络的江苏教育微博舆情多元意见演化模型及应用研究"项目编号:2015ZDIXM007的研究成果之一.
2015-12-30(万方平台首次上网日期,不代表论文的发表时间)
51-59