基于文体学的中文UGC作者身份识别研究
网络的开放性和虚拟性给发布信息的作者身份识别造成很大困难,因此探索性地提出通过对网上的用户生成内容(UGC)的写作特点进行分析来识别其作者身份的方法.在传统的文体学研究基础上,结合中文UGC的特点,提取出词汇特征、句法特征、结构特征和内容特征等4类能有效识别不同作者写作风格的特征,然后运用文本分类算法对作者身份进行有效识别.通过实验表明在BBS论坛文本和博客文本这两种典型的中文UGC环境中,本研究采用的方法均得到很好的识别效果.
文体学、用户生成内容、作者识别
TP391(计算技术、计算机技术)
国家自然科学基金项目"我国电子政务标准的产生机制及采纳扩散研究"71103021;北京市哲学社会科学规划项目"北京市G2G电子政务业务协同的动力机制、推进方法与实证研究"项目13JGC085的研究成果之一
2013-10-23(万方平台首次上网日期,不代表论文的发表时间)
共6页
48-53