期刊专题

10.3778/j.issn.1002-8331.1912-0372

基于语义的档案数据智能分类方法研究

引用
随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长.如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题.现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息.此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性.面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析.采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联.针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类.在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性.

LDA特征表示、文本聚类、FastText文本分类、档案管理

57

TP391(计算技术、计算机技术)

北京市科技计划Z171100004417023

2021-03-25(万方平台首次上网日期,不代表论文的发表时间)

共7页

247-253

暂无封面信息
查看本期封面目录

计算机工程与应用

1002-8331

11-2127/TP

57

2021,57(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn