10.3969/j.issn.1003-9767.2021.18.044
企业内网文件爬取与检索系统的设计与实现
为了有效满足企业内分布式文件存储的检索需求,本文系统通过FTP、SMB和SSH协议建立到FTP服务器、Windows共享文件夹的连接,利用分布式任务调度中心定期或手动执行文件爬取任务,同时对文件的标题、内容等进行分析,建立整合的文件索引库.其中,存储文件的MD5摘要作为文件版本变动的判别依据.在系统前端为用户提供了简洁强大的文件检索入口,用户输入关键字即可获得分布在各处的文件并可以在线浏览或下载.该系统能够显著提高企业用户检索文档的效率和获得信息的能力.
企业内网;文件爬取;文件检索;分布式任务调度;MD5摘要
33
TP311.13(计算技术、计算机技术)
地区调度业务联系及处置辅助机器人研究项目J2021094
2022-03-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
149-153