面向在线社交网络用户生成内容的饮食话题发现研究
[目的]通过大规模文本聚类技术进行话题检测,并自动拣选优质话题.[方法]以新浪微博上与饮食相关的微博内容为数据源,结合文本聚类与深度学习知识进行话题检测.通过匹配微博发布的月份,将微博划分为四季微博;使用向量空间模型和文本聚类方法,对不同季节的微博进行话题检测,获得候选话题;结合深度学习知识,提出主题覆盖率概念,用以自动评价话题质量,去除低质量话题.[结果]基于主题覆盖率的话题筛选结果符合人工拣选预期,抽取获得主题覆盖率高于0.5的优质话题.[局限]话题检测质量的评价主要以定性评价为主.[结论]通过计算主题覆盖率来自动选择优质话题,该方法效率高,通用性强,获得的话题便于理解,较好地揭示了四季中饮食微博的话题分布.
话题检测、用户生成内容、主题覆盖率、饮食挖掘
G353(情报学、情报工作)
本文系国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”项目编号:14BTQ033、国家社会科学基金重点项目“大数据环境下社会舆情与决策支持方法体系研究”项目编号:14AZD084和江苏省普通高校研究生科研创新实践计划项目“基于社交媒体的多粒度电影评论挖掘研究”项目编号:SJLX15_0166的研究成果之一.
2016-12-12(万方平台首次上网日期,不代表论文的发表时间)
70-80