基于广义超曲面树的相似性搜索算法
相似性搜索是数据挖掘的主要领域之一.它在数据库中检索出相似的数据,发现数据间的相似性.它可以应用于图像数据库、空间数据库和时间序列分析.对于欧氏空间(一种特殊的度量空间),相似性搜索算法中基于R-tree的方法,在低维时是高效的,当维数增加时,R-tre e的方法将退化为线性扫描.该现象被称为维数灾难(dimensionality curse),主要原因是存在数据重复.当数据量很大且维数很高时,距离计算和I/O操作将非常费时.提出了度量空间上新的空间分割方法和索引结构rgh-tree,利用数据库的数据对象与很少几个固定参考对象的距离信息进行数据分割和分布,产生一个各节点没有数据重复的平衡树.另外,在rgh-tree的基础上提出了相应的相似性搜索算法,该算法具有较小的I/O代价和距离计算次数,平均复杂性近似为o(n0.58).解决了目前算法存在的一些问题.
算法、相似性搜索、度量空间、数据库
13
TP311(计算技术、计算机技术)
国家自然科学基金69873014;国家高技术研究发展计划863计划20 01AA415410;国家重点基础研究发展计划973计划G1999032704;高等学校博士学科点专项科研项目2000021303;黑龙江省自然科学基金F00-11
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
1969-1976