DOI：10.3321/j.issn:1000-436x.2007.12.028

大规模语料的频繁模式快速发现算法

引用

摘要：

提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度.实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M.

关键词：频繁模式、语料划分、重复串

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划973计划2004CB318109;2007CB311100

在线出版日期：2008-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：161-166

英文信息展示

期刊专题