Near-threshold voltage (NTV) computing enables transistor voltage scaling to continue with Moore's Law projection and dramatically improves power and energy efficiency. Nevertheless, reducing the supply voltage to near-threshold level significantly increases the possibility of exposing on-chip caches to dynamic faults. Most fault-tolerant schemes sacrifice cache capacity, increase access latency, and are incapable of adapting to the dynamic changes of program behavior. To this end, we plan to explore the following research tasks in this proposal: (1) reconfiguration schemes for high associativity caches to tolerant hard errors, which recovers performance degradation due to capacity loss;(2) error-correction codes based on data storage features to tolerant soft errors, which ensures reliability while alleviating the cost of extra delay and capacity overhead; and (3) application behavior awared fault tolerant cache design, that investigates defining reliability from software perspective, prescribing cache blocks into different reliability levels, and mapping data to dedicated block(s) to match its reliability demand. If successful, the reliability issues of cache designed using near-threshold voltage technology will be significantly improved, and the performance loss caused by fault-tolerance mechanisms will be reduced. As the outcome of this research, we aim to publish 6 to 8 high-quality papers via international conferences and domestic/foreign journals, and apply for 1 to 2 patents.
近阈值电压技术是解决后摩尔定律时代“功耗墙”问题的有效手段之一,然而电压的降低使得高速缓存的可靠性和成品率面临严峻挑战。现有容错方案追求可靠性的同时不但牺牲高速缓存容量、增加访问延迟,而且缺乏灵活性、无法适应程序行为的动态变化。针对上述问题,本课题深入探索如下三方面的内容:针对硬错误研究逻辑高相联度高速缓存重构技术,保证可靠性的同时弥补容错机制牺牲容量所带来的性能损失;针对软错误研究基于数据存储特征的校验技术,设计分级校验保证可靠性并通过消除冗余减少容错的时空开销;针对单一容错级别无法满足不同应用程序可靠性需求的问题,研究软件定义容错能力的高速缓存结构,根据程序行为预测可靠性需求,设计支持多容错级别的高速缓存结构,提供灵活、动态的容错支持。本课题将极大改善近阈值电压技术面临的可靠性问题,并减少容错带来的性能损失。课题预期在国内外期刊和国际会议上发表6-8篇高水平论文,并申请2-3项专利。
Dennard定律的终结使得计算机系统,特别是数据中心,面临了巨大的能耗和利用率问题,解决这个功耗墙和利用率墙的问题一种可能的解决方案是暗硅技术,但这会导致性能下降。另一种解决方案是近阈值电压计算(NTC),将晶体管电压下降到阈值附近,在功耗和性能之间提供更灵活的折衷。但是,将电源电压降至接近阈值水平会显着增加片上高速缓存的错误率。现有容错方案往往会牺牲缓存容量并增加了访问延迟。针对上述问题,课题完成了如下的研究工作(1)提出软硬件协同的高速缓存容错方案,各自利用软件和硬件错误的特点来进行高速缓存的容错。我们首次提出了运用高相联度高速缓存来进行故障单元的重映射,通过增加相联度来保证高速缓存的性能,通过重映射保证了可靠性。(2)基于应用程序内部不同数据区域和不同的应用程序之间对存储错误的容忍度有很大的不同这一特性,课题提出了基于应用程序特性的异构容错高速缓存。把程序数据区域按照对错误的敏感度进行分类,将高速缓存划分成具有不同容错能力的区域,通过系统级的页面着色技术把对错误敏感程度不同的数据映射到具有不同容错能力的高速缓存区域中。(3)提出一种基于数据存储特征的压缩校验策略,分析程序的数据冗余特征,针对频繁出现的全0型数据,重复值型和相邻数相近值的三种数据分别压缩。为了合理利用压缩节省的存储空间提高空间利用率,提出了支持多个标签的高速缓存结构。最后,针对压缩的数据进行校验,减小冗余信息和相应的校验位的存储空间。本课题极大改善了近阈值电压技术面临的可靠性问题,减少了容错带来的性能损失。项目发表学术论文19篇,申请了16项国家专利,已授权10项,培养博士、硕士研究生共9名,很好地完成了申请报告的各项研究内容,达到了预定目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于概率-区间混合模型的汽车乘员约束系统可靠性优化设计
考虑故障处理过程信息系统连通性和准确性的配电网可靠性评估
Ordinal space projection learning via neighbor classes representation
扩散相关光谱组织血流检测及其临床应用
Fabrication of Au network by low-degree solid state dewetting: Continuous plasmon resonance over visible to infrared region
SiC MOS器件近界面氧化物缺陷与阈值电压漂移抑制技术研究
极低功耗近/亚阈值数字电路的时序可靠性技术研究
支持高速缓存一致的片上网络关键技术研究
基于多值自旋磁存储器的高速缓存结构及调度技术研究