中文短信文本信息流中多话题的分类抽取

引用

摘要：

[目的]为更有效地在中文短信文本信息流(SMS Text Message Flow,SM_F)中进行多话题的分类提取,提出一种基于SM F特点的话题分类抽取方法SM F HT.[方法]将SM F分割成多个短信文本子集SM_Fi,通过层次的狄利克雷过程信息抽取与TF-IDF相结合,建立短信文本向量集上多个概率分布,采用吉布斯抽样并结合特征词属于临时话题的概率进行SM F话题分类抽取.[结果]实验结果表明,SM F HT在困惑度和对数似然比方面优越于模型CCLDA和CCMix.[局限]在短信文本预处理和特征词的抽取方面,还需进一步优化算法和提高数据质量.[结论]提出的SM_F_HT方法对SM F的多话题分类抽取是有效的.

关键词：短信文本、信息流、话题提取、狄利克雷、吉布斯抽样

分类号：TP391.1(计算技术、计算机技术)

资助基金：本文系国家级星火计划项目“农村民生建设信息反馈平台建设”项目编号:2011GA690190的研究成果之一.

在线出版日期：2014-09-04（万方平台首次上网日期，不代表论文的发表时间）

页码：101-106

英文信息展示

期刊专题