10.3969/j.issn.1002-137X.2012.06.035
ESSK:一种计算点击流相似度的新方法
用户点击流信息被广泛应用于Web使用信息挖掘中.点击流相似度常用于用户会话分类和聚类.SSK(String Subsequence Kernel)最初被用于计算字符串相似度,后被引入计算点击流相似度,并成为目前常用方法之一.SSK选择两个字符串所有长度为k的子序列生成特征空间.单一k的选择往往存在特征数不足的问题,从而难以获得足够精确的点击流相似度.因此,提出一种新的点击流相似度计算方法ESSK( Extended String Subsequence Kernel ).ESSK采用所有子序列生成特征空间以解决SSK存在的问题.同时提出一种高效计算ESSK的算法,以降低计算复杂度.实验表明,ESSK比SSK更精确,比其它方法具有更高的区分度,因此更适合点击流相似度分析和应用.
点击流相似度、算法设计、计算复杂度
39
TP301(计算技术、计算机技术)
国家自然科学基金10871091;教育部人文社科基金10YJC870020,10YJC630283
2012-07-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
147-150