中文短信文本信息流中多话题的分类抽取
[目的]为更有效地在中文短信文本信息流(SMS Text Message Flow,SM_F)中进行多话题的分类提取,提出一种基于SM F特点的话题分类抽取方法SM F HT.[方法]将SM F分割成多个短信文本子集SM_Fi,通过层次的狄利克雷过程信息抽取与TF-IDF相结合,建立短信文本向量集上多个概率分布,采用吉布斯抽样并结合特征词属于临时话题的概率进行SM F话题分类抽取.[结果]实验结果表明,SM F HT在困惑度和对数似然比方面优越于模型CCLDA和CCMix.[局限]在短信文本预处理和特征词的抽取方面,还需进一步优化算法和提高数据质量.[结论]提出的SM_F_HT方法对SM F的多话题分类抽取是有效的.
短信文本、信息流、话题提取、狄利克雷、吉布斯抽样
TP391.1(计算技术、计算机技术)
本文系国家级星火计划项目“农村民生建设信息反馈平台建设”项目编号:2011GA690190的研究成果之一.
2014-09-04(万方平台首次上网日期,不代表论文的发表时间)
101-106