期刊专题

10.3321/j.issn:1000-436x.2007.12.028

大规模语料的频繁模式快速发现算法

引用
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度.实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M.

频繁模式、语料划分、重复串

28

TP391(计算技术、计算机技术)

国家重点基础研究发展计划973计划2004CB318109;2007CB311100

2008-04-21(万方平台首次上网日期,不代表论文的发表时间)

共6页

161-166

暂无封面信息
查看本期封面目录

通信学报

1000-436X

11-2102/TN

28

2007,28(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn