期刊专题

10.7544/issn1000-1239.2020.20190731

并行对称矩阵三对角化算法在GPU集群上的有效实现

引用
对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI (message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA (compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行-列通信域间的全局数据通信设计为完全并行的点-点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵-向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性.

对称矩阵三对角化、MPI+CUDA、点-点数据通信、计算密集度、CUDA流、可扩展性

57

TP301(计算技术、计算机技术)

国家重点研发计划项目;中国科学院战略性先导科技专项C类

2020-12-23(万方平台首次上网日期,不代表论文的发表时间)

共13页

2635-2647

暂无封面信息
查看本期封面目录

计算机研究与发展

1000-1239

11-1777/TP

57

2020,57(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn