Song Wang1,3, Bing Yu1 , Wenwu Xiao1 , Fujun Bai1 , Xiaodong Long1 , Liang Bai1 , Xuerong Jia1 , Fengguo Zuo1 , Jie Tan1 , Yixin Guo1 , Peng Sun2 , Jun Zhou2 , Qiong Zhan2 , Sheng Hu2 , Yu Zhou2 , Yi Kang3 , Qiwei Ren1 and Xiping Jiang1,4* 1Xi'an UniIC Semiconductors, Xi'an, China. 2Wuhan Xinxin Semiconductor Manufacturing Co., Ltd., Wuhan, China. 3University of Science and Technology of China, Hefei, China. 4Institute of Microelectronics of the Chinese Academy of Sciences, China. (* [email protected])
人工智能(AI)和图形处理单元(GPU)技术的快速发展增加了对并行处理的需求,从而提高了对内存带宽的需求。图形双数据率内存(如GDDR6【1, K. D. Hwang et al., 2018, IEEE ISSCC】)通过高频芯片外信号传输,以及高带宽内存(如HBM2E/HBM3【2, D. U. Lee et al., 2020, IEEE ISSCC】【3, M. J. Park et al., 2022, IEEE ISSCC】)通过微凸块(μbump)和TSV技术,已成为开发高带宽DRAM的主要解决方案。然而,GDDR面临能效和热管理问题,因为其接口功耗显著。HBM中的μbump成为电气和热障壁,并使更高层堆叠变得困难【4, C. H. Tsai et al., 2020, IEEE VLSI】【5, F. J. Bai et al., 2020, IEEE IEDM】。
堆叠嵌入式DRAM(SeDRAM)作为首个基于混合键合(HB)的3D集成方案,在之前的工作中实现了逻辑芯片和DRAM芯片之间的异构架构【5, F. J. Bai et al., 2020, IEEE IEDM】。本文开发了具有多层阵列的SeDRAM,采用低温HB和细间距mini-TSV堆叠技术。我们成功演示了一个更强大的SeDRAM平台。它包括一个2048 IO接口,每1Gbit以541 Mbps运行,提供135 GBps/Gbit的带宽和0.66 pJ/bit的功率效率。投影了堆叠更多DRAM阵列层的可行性,用于更高带宽内存的应用。
SeDRAM结构概述。图1展示了具有多层阵列的SeDRAM结构。DRAM2(底部)和DRAM1阵列(顶部)通过HB和mini-TSV面到背键合。图2展示了12英寸晶圆照片和SeDRAM芯片布局。通过可重复的1Gbit内存单元构建的多层阵列SeDRAM的多种配置,可以实现从1Gbit到64 Gbits的广泛密度范围,仅受光刻掩膜最大曝光尺寸的限制。
堆叠两个DRAM晶圆的关键工艺。堆叠两个DRAM晶圆的关键工艺如图3所示。首先,DRAM1面键合到载片晶圆,然后,通过背面研磨和化学机械抛光(CMP)工艺,将DRAM1的衬底Si研磨到几μm厚度。其次,在DRAM1的减薄衬底Si中进行mini-TSV和HB工艺。第三,在另一个已制造的DRAM2上进行用于键合Cu垫的金属互连工艺。此后,将两个处理的DRAM1和DRAM2晶圆通过混合键合面到背键合。最后,移除载片晶圆,并使用顶层金属层工艺形成探针垫。
细间距mini-TSV和HB。图4展示了SeDRAM的横截面TEM图像。HB通孔密度为110,000/mm²,间距为3μm,每通孔电阻小于0.5ohm,这有助于宽IO数据接口,比HBM中使用的μbump方法密集几百倍。mini-TSV的间距小至1.5μm。而且,mini-TSV还实现了高宽高比。在SeDRAM中,首次使用HB结合mini-TSV实现了多层阵列堆叠,为更高层堆叠铺平了道路。
X-test。X-test IP集成到每个阵列芯片中,具有简单易用的接口。如图5(a)所示,X-test可以完成自身阵列芯片的正常测试和修复(即DC测试、修剪测试、核心时序测试、保持测试、阵列单元修复和分类)。而且,因为两个阵列芯片的读写数据线(RWDL)通过RDL和TSV连接在一起,X-test可以在不使用外部垫的情况下测试这些RDL和TSV的连接,通过在上层和下层阵列芯片之间传输数据,如图5(b)所示。例如,下层芯片中的x-test将数据写入下层阵列芯片并读取数据到RWDL。然后,上层阵列芯片中的x-test将RWDL数据写入上层阵列芯片。接下来,上层中的x-test读取上层阵列中的数据,并将数据与预期值比较,从而通过RWDL确认TSV的质量。
电气特性。图6展示了TSV在HTS 1000小时后的累积失效图。最大电阻偏移被抑制到0.78%。当在TSV链和衬底之间施加29V电压时,泄漏电流低至20pA,变化可忽略不计。图7展示了SeDRAM访问时间shmoo图结果。制造的多层堆叠SeDRAM在1.1V和1.2V工作电压下分别实现526 Mbps和541 Mbps,对应于每Gbit 132 GB/s和135 GB/s的带宽。图8展示了SeDRAM的改进带宽和每比特增强能效。SeDRAM的每Gbit带宽为135 GBps/Gbit,比HBM3高约27.7倍。而且,SeDRAM实现的0.66 pJ/b能效比HBM3提高了高达83%。
表I 高带宽内存总结。
快速进步带来的需求。人工智能(AI)和图形处理单元(GPU)技术的快速发展增加了对并行处理的需求,从而提高了对内存带宽的需求。
现有解决方案的局限性。图形双数据率内存(如GDDR6【1, K. D. Hwang et al., 2018, IEEE ISSCC】)通过高频芯片外信号传输,以及高带宽内存(如HBM2E/HBM3【2, D. U. Lee et al., 2020, IEEE ISSCC】【3, M. J. Park et al., 2022, IEEE ISSCC】)通过微凸块(μbump)和TSV技术,已成为开发高带宽DRAM的主要解决方案。然而,GDDR面临能效和热管理问题,因为其接口功耗显著。HBM中的μbump成为电气和热障壁,并使更高层堆叠变得困难【4, C. H. Tsai et al., 2020, IEEE VLSI】【5, F. J. Bai et al., 2020, IEEE IEDM】。
SeDRAM的引入。堆叠嵌入式DRAM(SeDRAM)作为首个基于混合键合(HB)的3D集成方案,在之前的工作中实现了逻辑芯片和DRAM芯片之间的异构架构【5, F. J. Bai et al., 2020, IEEE IEDM】。
本文创新。本文开发了具有多层阵列的SeDRAM,采用低温HB和细间距mini-TSV堆叠技术。我们成功演示了一个更强大的SeDRAM平台。它包括一个2048 IO接口,每1Gbit以541 Mbps运行,提供135 GBps/Gbit的带宽和0.66 pJ/bit的功率效率。投影了堆叠更多DRAM阵列层的可行性,用于更高带宽内存的应用。
数据集名称、规模及用途:论文未明确提及特定数据集;焦点在于SeDRAM产品的制造和测试,使用多层阵列结构,密度范围从1Gbit到64 Gbits,用于高带宽内存应用。
模型架构关键参数:SeDRAM采用多层阵列堆叠,包含DRAM1(顶部)和DRAM2(底部),通过HB和mini-TSV连接;接口为2048 I/O,每Gbit 541 Mbps;HB通孔密度110,000/mm²,间距3μm,电阻<0.5ohm/ea;mini-TSV间距1.5μm,高宽高比。
硬件配置:使用12英寸晶圆;DRAM晶圆堆叠,包括载片晶圆;TSV链和衬底测试电压29V;无明确GPU/CPU型号,但涉及AI/GPU相关应用;连接通过细间距HB和mini-TSV实现面到背键合。
软件配置:集成X-test IP用于测试和修复;无明确代码实现/语言/依赖库/OS细节,但涉及DC测试、修剪测试、核心时序测试、保持测试、阵列单元修复和分类,以及TSV质量判断通过RWDL数据传输。
多层结构菊花链测试:多层结构中的菊花链包含超过一万个TSV和键合,被测试并证明了良好的键合、堆叠质量和可靠性(源自Results and Discussion)。
LPDDR4/4X产品性能:制造的SeDRAM产品具有2048 I/O,每Gbit 541 Mbps,实现135 GBps带宽和0.66 pJ/bit功率效率,比HBM3带宽提高27.7倍,能效提高83%(源自Results and Discussion和Fig.8)。
X-test功能:X-test实现正常测试和TSV质量判断,通过上层和下层阵列之间的数据传输确认连接质量,无需外部垫(源自Structure and Process B和Fig.5(a)(b))。
TSV可靠性测试:TSV在HTS 1000小时后的累积失效图显示最大电阻偏移0.78%;在29V电压下,泄漏电流低至20pA,变化可忽略(源自Electrical Characterization和Fig.6)。
访问时间性能:SeDRAM在1.1V和1.2V下分别实现526 Mbps和541 Mbps,对应132 GB/s和135 GB/s带宽(源自Electrical Characterization和Fig.7)。
带宽和能效比较:SeDRAM的135 GBps/Gbit带宽比HBM3高27.7倍,0.66 pJ/b能效提高83%(源自Electrical Characterization和Fig.8)。
高带宽内存总结:表I总结了各种高带宽内存的性能比较(源自Table I)。
使用低温HB和mini-TSV堆叠技术的多层结构实现了优秀的电气和可靠性结果。晶圆级面到背集成使用细间距mini-TSV和HB实现了多层阵列芯片堆叠和更高带宽。具有多层的SeDRAM提供了高达135 GBps/Gbit的带宽和0.66 pJ/b的能效,分别比HBM3提高了27.7倍和83%。我们还提出了x-test,不仅可以实现正常测试,还可以通过交互测试完成TSV质量判断。最重要的是,键合和mini-TSV间距以及堆叠数量的可扩展性为未来的高带宽内存提供了有趣的可能性。