10.3778/j.issn.1002-8331.2011.21.005
使用时间冗余保证处理器的可靠性
在SOR模型的基础上提出了BRO-SOC(Backward Recovery Oriented Sphere Of Correctness)框架.在该框架的指导下提出了DoubleRun容错处理器方案.DoubleRun使用确定性重播(Deterministic Replay)技术保证处理器的可靠性.由于Double-Run将故障的检测边界设置在BRO-SOC框架的SOC2一级,因此只需对L1 cache进行适当扩展即可容忍处理器流水线中的瞬态故障,由于它不需改动现有的处理器流水线,故相比于其他方案对处理器流水线的性能影响更小.利用SPEC2000的部分程序测试了DoubleRun的无故障性能.为将DoubleRun与其他容错方案(DCC、Slipstream)作横向比较而提出了衡量指标TAC(Time and Area Cost).实验结果表明,DoubleRun在提供全故障覆盖率的情况下仅增加了6.9%的面积开销和89.8%的时间开销,其TAC虽然比Slipstream大7%但却可以提供全面的故障覆盖率,其故障覆盖能力与DCC相同但TAC却比后者小14%.
瞬态故障、软错误、确定性重播、处理器可靠性、时间冗余、面向向后恢复的正确域(BRO-SOC)
47
TP391(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 60921062,60873014
2012-01-14(万方平台首次上网日期,不代表论文的发表时间)
共7页
17-22,72