10.3778/j.issn.1002-8331.2011.32.006
突发事件热点话题识别系统及关键问题研究
针对突发事件热点话题识别系统,建立了系统实现的整体技术框架,给出了系统四个组成部分的关键问题描述及解决策略,结合新闻报道文本内容和结构的特点和报道源分布性特征,基于VSM文本表示模型和TF-IDF公式,提出了正文裁剪方法和特征权重计算的改进模型,并以地震突发事件新闻报道作为数据源进行模型评估.实验结果表明通过对新闻报道正文的裁剪,只提取标题、导语及相关特征参量等信息即可作为热点话题识别的样本集,且改进的特征权重计算模型与经典模型比较,具有更好地执行效率和适应性更强的文本表示能力.
突发事件、新闻报道、热点话题识别、正文裁剪、文本表示模型
47
TP391(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 91024001,61070142;中央高校基本科研业务费专项资金资助2009RC0210;北京市自然科学基金项目4111002
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
19-22