A 135 GBps/Gbit 0.66 pJ/bit Stacked Embedded DRAM with Multilayer Arrays by Fine Pitch Hybrid Bonding and Mini-TSV

Song Wang1,3, Bing Yu1 , Wenwu Xiao1 , Fujun Bai1 , Xiaodong Long1 , Liang Bai1 , Xuerong Jia1 , Fengguo Zuo1 , Jie Tan1 , Yixin Guo1 , Peng Sun2 , Jun Zhou2 , Qiong Zhan2 , Sheng Hu2 , Yu Zhou2 , Yi Kang3 , Qiwei Ren1 and Xiping Jiang1,4* 1Xi'an UniIC Semiconductors, Xi'an, China. 2Wuhan Xinxin Semiconductor Manufacturing Co., Ltd., Wuhan, China. 3University of Science and Technology of China, Hefei, China. 4Institute of Microelectronics of the Chinese Academy of Sciences, China. (* [email protected])

主要贡献

人工智能(AI)和图形处理单元(GPU)技术的快速发展增加了对并行处理的需求,从而提高了对内存带宽的需求。图形双数据率内存(如GDDR6【1, K. D. Hwang et al., 2018, IEEE ISSCC】)通过高频芯片外信号传输,以及高带宽内存(如HBM2E/HBM3【2, D. U. Lee et al., 2020, IEEE ISSCC】【3, M. J. Park et al., 2022, IEEE ISSCC】)通过微凸块(μbump)和TSV技术,已成为开发高带宽DRAM的主要解决方案。然而,GDDR面临能效和热管理问题,因为其接口功耗显著。HBM中的μbump成为电气和热障壁,并使更高层堆叠变得困难【4, C. H. Tsai et al., 2020, IEEE VLSI】【5, F. J. Bai et al., 2020, IEEE IEDM】。

堆叠嵌入式DRAM(SeDRAM)作为首个基于混合键合(HB)的3D集成方案,在之前的工作中实现了逻辑芯片和DRAM芯片之间的异构架构【5, F. J. Bai et al., 2020, IEEE IEDM】。本文开发了具有多层阵列的SeDRAM,采用低温HB和细间距mini-TSV堆叠技术。我们成功演示了一个更强大的SeDRAM平台。它包括一个2048 IO接口,每1Gbit以541 Mbps运行,提供135 GBps/Gbit的带宽和0.66 pJ/bit的功率效率。投影了堆叠更多DRAM阵列层的可行性,用于更高带宽内存的应用。

方法细节

SeDRAM结构概述。图1展示了具有多层阵列的SeDRAM结构。DRAM2(底部)和DRAM1阵列(顶部)通过HB和mini-TSV面到背键合。图2展示了12英寸晶圆照片和SeDRAM芯片布局。通过可重复的1Gbit内存单元构建的多层阵列SeDRAM的多种配置,可以实现从1Gbit到64 Gbits的广泛密度范围,仅受光刻掩膜最大曝光尺寸的限制。

Fig. 1 SeDRAM的多层阵列示意图
Fig. 1 SeDRAM的多层阵列示意图

Fig. 2 SeDRAM的多层阵列晶圆照片和布局
Fig. 2 SeDRAM的多层阵列晶圆照片和布局

未标注图片
未标注图片

堆叠两个DRAM晶圆的关键工艺。堆叠两个DRAM晶圆的关键工艺如图3所示。首先,DRAM1面键合到载片晶圆,然后,通过背面研磨和化学机械抛光(CMP)工艺,将DRAM1的衬底Si研磨到几μm厚度。其次,在DRAM1的减薄衬底Si中进行mini-TSV和HB工艺。第三,在另一个已制造的DRAM2上进行用于键合Cu垫的金属互连工艺。此后,将两个处理的DRAM1和DRAM2晶圆通过混合键合面到背键合。最后,移除载片晶圆,并使用顶层金属层工艺形成探针垫。

Fig. 3 SeDRAM的工艺流程
Fig. 3 SeDRAM的工艺流程

细间距mini-TSV和HB。图4展示了SeDRAM的横截面TEM图像。HB通孔密度为110,000/mm²,间距为3μm,每通孔电阻小于0.5ohm,这有助于宽IO数据接口,比HBM中使用的μbump方法密集几百倍。mini-TSV的间距小至1.5μm。而且,mini-TSV还实现了高宽高比。在SeDRAM中,首次使用HB结合mini-TSV实现了多层阵列堆叠,为更高层堆叠铺平了道路。

Fig. 4 SeDRAM的横截面TEM图像
Fig. 4 SeDRAM的横截面TEM图像

X-test。X-test IP集成到每个阵列芯片中,具有简单易用的接口。如图5(a)所示,X-test可以完成自身阵列芯片的正常测试和修复(即DC测试、修剪测试、核心时序测试、保持测试、阵列单元修复和分类)。而且,因为两个阵列芯片的读写数据线(RWDL)通过RDL和TSV连接在一起,X-test可以在不使用外部垫的情况下测试这些RDL和TSV的连接,通过在上层和下层阵列芯片之间传输数据,如图5(b)所示。例如,下层芯片中的x-test将数据写入下层阵列芯片并读取数据到RWDL。然后,上层阵列芯片中的x-test将RWDL数据写入上层阵列芯片。接下来,上层中的x-test读取上层阵列中的数据,并将数据与预期值比较,从而通过RWDL确认TSV的质量。

Fig. 5 X-test概念:(a) 正常模式的自测试和 (b) 通过RWDL TSV的交互测试
Fig. 5 X-test概念:(a) 正常模式的自测试和 (b) 通过RWDL TSV的交互测试

电气特性。图6展示了TSV在HTS 1000小时后的累积失效图。最大电阻偏移被抑制到0.78%。当在TSV链和衬底之间施加29V电压时,泄漏电流低至20pA,变化可忽略不计。图7展示了SeDRAM访问时间shmoo图结果。制造的多层堆叠SeDRAM在1.1V和1.2V工作电压下分别实现526 Mbps和541 Mbps,对应于每Gbit 132 GB/s和135 GB/s的带宽。图8展示了SeDRAM的改进带宽和每比特增强能效。SeDRAM的每Gbit带宽为135 GBps/Gbit,比HBM3高约27.7倍。而且,SeDRAM实现的0.66 pJ/b能效比HBM3提高了高达83%。

Fig. 6 HTS 1000小时后TSV的累积图
Fig. 6 HTS 1000小时后TSV的累积图

Fig. 7 测量的SeDRAM访问时间shmoo
Fig. 7 测量的SeDRAM访问时间shmoo
(注:此图片与Fig.5共享文件,但上下文为Fig.7)

Fig. 8 芯片带宽和能效
Fig. 8 芯片带宽和能效

表I 高带宽内存总结。

Table I 高带宽内存总结
Table I 高带宽内存总结

背景知识/关键Observation/设计原则

快速进步带来的需求。人工智能(AI)和图形处理单元(GPU)技术的快速发展增加了对并行处理的需求,从而提高了对内存带宽的需求。

现有解决方案的局限性。图形双数据率内存(如GDDR6【1, K. D. Hwang et al., 2018, IEEE ISSCC】)通过高频芯片外信号传输,以及高带宽内存(如HBM2E/HBM3【2, D. U. Lee et al., 2020, IEEE ISSCC】【3, M. J. Park et al., 2022, IEEE ISSCC】)通过微凸块(μbump)和TSV技术,已成为开发高带宽DRAM的主要解决方案。然而,GDDR面临能效和热管理问题,因为其接口功耗显著。HBM中的μbump成为电气和热障壁,并使更高层堆叠变得困难【4, C. H. Tsai et al., 2020, IEEE VLSI】【5, F. J. Bai et al., 2020, IEEE IEDM】。

SeDRAM的引入。堆叠嵌入式DRAM(SeDRAM)作为首个基于混合键合(HB)的3D集成方案,在之前的工作中实现了逻辑芯片和DRAM芯片之间的异构架构【5, F. J. Bai et al., 2020, IEEE IEDM】。

本文创新。本文开发了具有多层阵列的SeDRAM,采用低温HB和细间距mini-TSV堆叠技术。我们成功演示了一个更强大的SeDRAM平台。它包括一个2048 IO接口,每1Gbit以541 Mbps运行,提供135 GBps/Gbit的带宽和0.66 pJ/bit的功率效率。投影了堆叠更多DRAM阵列层的可行性,用于更高带宽内存的应用。

实验环境

实验结果

结论

使用低温HB和mini-TSV堆叠技术的多层结构实现了优秀的电气和可靠性结果。晶圆级面到背集成使用细间距mini-TSV和HB实现了多层阵列芯片堆叠和更高带宽。具有多层的SeDRAM提供了高达135 GBps/Gbit的带宽和0.66 pJ/b的能效,分别比HBM3提高了27.7倍和83%。我们还提出了x-test,不仅可以实现正常测试,还可以通过交互测试完成TSV质量判断。最重要的是,键合和mini-TSV间距以及堆叠数量的可扩展性为未来的高带宽内存提供了有趣的可能性。