DOI：10.3969/j.issn.1674-098X.2016.09.099

大规模高通量计算系统的可靠性设计研究年度报告

引用

摘要：

高通量计算系统由海量的计算节点、存储节点通过网络互连而成.由于规模巨大,系统的可靠性成为一个非常严重的问题,部件失效已经成为一种常态,系统设计必须考虑容错的问题.我们需要建立新的高通量计算系统的可靠性保障框架,来适应高通量计算中不同层次的可靠性需求,研究从芯片级到系统级跨层次的可靠计算技术.围绕该目标,该研究从高通量处理芯片的故障检测和容错设计方法,高通量计算系统的失效检测和恢复方法和从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合(5S)支撑环境3方面展开研究.截至2013年各项工作按照任务书原定计划正在稳步推进,部分工作取得阶段性成果.在(1)针对NBTI老化故障的在线预测技术;(2)深度学习等系统故障预测技术;(3)寄存器故障诊断;(4)片上网络通信隔离技术等技术点上取得了突破,共发表录用了IEEE Transactions论文6篇,其他期刊论文1篇.从研究点覆盖来看,部署到研究点已经全部覆盖了任务书规定的所有研究计划,并对某些研究点进行了细化.

关键词：可靠性设计、故障检测、深度学习、在线预测、通信隔离

分类号：TP3;P4

在线出版日期：2016-08-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共1页

页码：169

英文信息展示

期刊专题