加权抽样对相似性学习算法的改进效果研究
当今诸多聚类算法需要通过计算样本间距离来得到样本相似性.因此对这类算法而言,距离的计算方法尤为重要.对部分现有距离度量学习或相似性学习算法进行研究后可以发现,多数算法在选择学习样本的过程中,都采用了重复随机抽样的方式.这一抽样方式使所有训练节点都有均等概率用于度量或相似性学习,但因样本位置不同,对分类算法而言样本的分类难度也不同.如果能针对较难分类的样本进行着重学习,并适当减少对易分类点的学习时间,便能提高学习过程的效率性,减少学习过程的时间.节约时间成本,在大数据时代有不容忽视的意义.
相似性度量、距离度量、加权抽样、机器学习、k-NN、Boosting
41
TP181(自动化基础理论)
国家自然科学基金项目61202370;上海市教委科研重点创新项目12ZZ151;上海市浦江人才计划项目11PJ1404300;上海海事大学2013年研究生学术新人培育计划工学GK2013077
2014-08-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
387-390,405