10.11896/j.issn.1002-137X.2018.01.015
基于Spark的点排序识别聚类结构算法
点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息.但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集.随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法.测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要.
大数据、Spark、OPTICS算法、密度聚类
45
TP181(自动化基础理论)
国家自然科学基金项目61309014,61379114,61472056;教育部人文社科规划基金项目15XJA630003;重庆市基础与前沿研究计划cstc2013jcyjA40063,cstc2014jcyjA40049;重庆市教委科学技术研究项目KJ1500416
2018-04-04(万方平台首次上网日期,不代表论文的发表时间)
共7页
97-102,107