10.3969/j.issn.1006-2475.2017.10.015
基于词库匹配的网络文本分类及预测
为实现中文文本的准确分类,提出一种基于词库匹配的分类方法.在测试集中采用向量空间模型进行特征表达,用基于词逆向文档频率(TF-IDF)的主成分分析法计算权值,筛选并建立47个行业的索引词库,然后根据与索引词库的余弦相似度判断文本行业类别,建立自回归积分滑动平均(ARIMA)模型,预测其未来10天发展趋势.实验结果表明,索引词库的平均分类效果指标F值为85.6%,预测模型的平均相对误差为3.41%,证明该分类方法是有效的.
文本分类、向量空间模型、主成分分析法、余弦相似度、自回归积分滑动平均模型
TP391.9(计算技术、计算机技术)
2017-11-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
72-75