10.3321/j.issn:1000-436x.2007.12.028
大规模语料的频繁模式快速发现算法
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度.实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M.
频繁模式、语料划分、重复串
28
TP391(计算技术、计算机技术)
国家重点基础研究发展计划973计划2004CB318109;2007CB311100
2008-04-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
161-166