基于地理坐标的微博事件检测与分析
[目的]利用数据挖掘算法,从海量繁杂的微博数据中检测出有价值的事件信息.[方法]针对国内具有代表性的微博网站,通过使用微博网络开放接口高效收集带有地理坐标的微博数据.使用K-means、KNN和决策树三种数据挖掘算法,根据微博数据的发布数、转发数、评论数、用户活跃度和移动强度5个指标构建微博的地理规律性特征.将日常地区性的微博数据特征与该地区微博特征的地理规律性进行比较,从而检测出该区域是否有事件发生.[结果]以2015年4月15日、16日的微博数据作为测试语料,使用文中提出的微博事件检测框架,成功检测到“北京沙尘暴”事件.[局限]在抽取微博地理规律性特征时,采用的样本数据偏少,一定程度上影响了事件检测框架的效果.[结论]基于地理坐标的微博事件检测框架是切实有效的,分析出的事件信息不仅可以帮助用户获取感兴趣的事件资讯,而且可以协助政府部门进行舆情管控和行政决策.
微博、事件检测、可视化分析、地理坐标分析
G354(情报学、情报工作)
本文系国家社会科学基金项目“语义网络环境下面向数字化科研的分布式知识发现研究”项目编号:11BTQ040和华中师范大学中央高校基本科研业务费专项资金项目“基于统计本体学习方法的文本领域本体自动抽取与演化研究”项目编号:CCNU13A05048的研究成果之一.
2016-04-14(万方平台首次上网日期,不代表论文的发表时间)
90-101