10.3969/j.issn.1672-6332.2011.03.009
一种基于文本语义的网络敏感话题识别方法
网络已成为当今世界重要的信息载体,但是网络信息良莠不齐,对人们的生活造成了很多负面影响,因此,如何正确识别网络中的敏感话题,是当前网络舆情分析与监管的重要任务之一。本文以识别网络论坛中的敏感话题为目标,基于网络论坛文本在结构和表达上表现出的篇幅短、结构不完整、文字口语化等特性,将该类文本表示成基于向量空间模型的文本矩阵,并根据网络敏感话题具有先验知识和态度倾向性等特点,提出了基于倾向性词典的特征提取方法,可有效提高网络敏感话题识别的正确率,最后通过实验验证了这一改进的有效性,证实了本文的研究价值。
话题识别、特征提取、文本倾向性、文本分类
TP393(计算技术、计算机技术)
国家自然科学基金资助项目60921003,60802056,60905018;国家“863计划”资助项目2007AA01Z480;国家科技支撑计划资助项目2011BAK08B02
2012-04-21(万方平台首次上网日期,不代表论文的发表时间)
共5页
33-37