10.3969/j.issn.1002-137X.2009.03.005
并行复算:一种面向高性能计算的新的容错方法
Checkpointing是高性能计算领域最常用的容错技术.但是,当处理器数目变大时,这种技术的性能迅速恶化.提出一种在并行计算中容忍单进程故障的新方法:并行复算.这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错.还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序.最后通过实验对该方法进行评估.结果显示,当处理器数目变大时,并行复算的开销低于checkpointing,其优化方法能提供优于并行复算的性能.
高性能计算、容错、并行复算
36
TP3;U4
国家自然科学基金项目60621003和60603081
2009-04-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
21-25