10.7544/issn1000-1239.2020.20190731
并行对称矩阵三对角化算法在GPU集群上的有效实现
对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI (message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA (compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行-列通信域间的全局数据通信设计为完全并行的点-点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵-向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性.
对称矩阵三对角化、MPI+CUDA、点-点数据通信、计算密集度、CUDA流、可扩展性
57
TP301(计算技术、计算机技术)
国家重点研发计划项目;中国科学院战略性先导科技专项C类
2020-12-23(万方平台首次上网日期,不代表论文的发表时间)
共13页
2635-2647