在本篇中,我们将介绍《An isolated symmetrical 2T2R cell enabling high precision and high density for RRAM-based in-memory computing》这篇文献,它提出了一种对称式的2T2R忆阻器结构,通过引入隔离晶体管解决了传统2T2R忆阻器非对称结构带来的权重感知问题,结合工艺优化,实现了42.2%的集成度提升和8.8fJ/op的能效,下面是详细介绍。
一、文章基础信息基期刊信息
本篇文章由北京大学集成电路学院和北京邮电大学信息光子学与光通信国家重点实验室共同完成,于2024年4月23日发表在SCIENCE CHINA Information Sciences上。
SCIENCE CHINA是一个系列期刊,包含数学、物理、化学、生命科学、地球科学、技术科学、信息科学等多个学科领域,目前被SCI、EI和SCOPUS等国际数据库收录,最新影响因子为7.3,位于JCR Q1区,网站http://scis.scichina.com。本文所发表在的Information Sciences(信息科学)是其系列期刊之一,由中国科学院主管,中国科学院和国家自然科学基金委员会共同主办,与 Springer 共同出版,目前被SCOPUS、中国科学引文数据库(CSCD)、中国科技论文统计源期刊、北大核心、中国科技论文与引文数据库(CSTPC)等收录。
二、传统模拟存算RRAM架构及其问题
在模拟存算领域,RRAM因其独特的非易失性、高密度集成和模拟电导调制能力而备受关注,被认为是构建高效能神经网络加速器的有力竞争者。传统的RRAM架构主要包括1T1R、2T2R以及Crossbar结构,它们各有优缺点,适用于不同的应用场景。
(1)1T1R结构
1T1R结构是最基本的RRAM单元,由一个晶体管(T)和一个RRAM器件(R)串联组成,如图1所示[2]。晶体管作为选通器件,控制RRAM的读写操作,并防止阵列中未选中的单元受到干扰。这种结构的优势在于其简单性和高集成密度,可以通过缩小晶体管和RRAM器件的尺寸来实现更高的存储容量。然而1T1R单元只能通过调节RRAM器件的电导值来表示权重,而电导值本质上是非负的,这意味着1T1R单元只能表示无符号权重。这限制了其在需要处理负权重的神经网络应用中的适用性,例如在某些低权重位宽的卷积神经网络(CNN)和循环神经网络(RNN)中,负权重对于网络的性能至关重要。
图1 (a)直流扫描期间1T1R结构和操作示意图;(b)单个1T1R结构的等效电路[2]
(2)2T2R结构
为了解决1T1R结构无法表示有符号权重的问题,研究人员提出了2T2R结构,如图2所示[3]。该结构包含两个晶体管(T1,T2)和两个RRAM器件(R1,R2),通过将两个RRAM器件的电导值相减来表示权重,即W=G1−G2,其中W表示权重,G1和G2分别表示两个RRAM器件的电导。通过控制两个RRAM器件的电导状态,可以实现正、负和零权重的表示。例如,当G1>G2时,权重为正;当G1<G2时,权重为负;当G1=G2时,权重为零。相比于1T1R结构,2T2R结构在表示有符号权重方面具有明显的优势,使其更适用于神经网络加速器等需要处理正负权重的应用场景。这种结构提供了更高的灵活性和功能性,能够更准确地模拟生物神经元之间的连接强度。
图2 2T2R阵列及单个2T2R结构示意图[3]
(3)Crossbar结构
Crossbar结构是一种二维阵列结构,由水平和垂直的金属线(字线和位线)交叉组成,每个交叉点放置一个RRAM器件,如图3所示[4]。这种结构可以实现高密度的存储和并行计算。通过在选定的字线和位线上施加电压,可以对特定交叉点的RRAM器件进行读写操作。由于RRAM器件的非易失性,Crossbar阵列可以在断电后仍然保持数据,这使得其非常适合于构建非易失性存储器。此外,相比于传统的磁阻式随机存取存储器(MRAM),RRAM的高阻态和低阻态之间的差异通常可以达到几个数量级(10-1000倍),这意味着不需要像MRAM存储器那样使用灵敏电流放大器(PCSA)来进行微小电流放大,使得RRAM在构建大规模存储阵列时实现了更高的能效并避免了额外的开销。
图3 Crossbar结构示意图[4]
三、文章创新点介绍
如下图所示是传统的CS-2T2R和RS-2T2R电路方案,他们都是基于2个晶体管和2个阻变存储单元(RRAM)的存内计算架构,用于存储神经网络中的带符号权重,但它们在权重映射方式上有所不同:CS-2T2R采用列映射方案,将同一列神经元的权重存储在同一列的2T2R单元中;而RS-2T2R采用行映射方案,将同一行神经元的权重存储在同一行的2T2R单元中。尽管RS-2T2R方案在电路开销、功耗和输出电流大小方面相比CS-2T2R具有一定优势,例如它无需外围减法器,功耗和热量产生都更小,但存在由于非对称的电路结构和偏置方案导致权重感测不对称(AWS)的问题,具体表现为读取存储单元的权重时,正负权重会出现偏差,进而影响存内计算的精度。而本文作者提出的IS-2T2R结构,通过引入深N阱隔离和优化电路的对称性,旨在解决这一问题,并提高计算精度。
图4 传统2T2R方案:(a)列映射方案;(b)行映射方案
在传统的RS-2T2R结构中,不同的晶体管宽长比(W/L)会对神经网络的识别准确率产生影响,并且揭示了当W/L较小时,识别准确率会显著下降这一问题。下图比较了VGG11、VGG19、ResNet18和GoogLeNet四种网络在不同W/L参数下的CIFAR-10数据集识别准确率。可以看到,当W/L为3时,四种网络的识别准确率都出现了明显下降,这表明传统的RS-2T2R结构在较小的W/L下存在严重的性能问题,而这个问题很可能与AWS有关。
具体到RS-2T2R电路中,AWS的产生主要源于两个晶体管的源极偏置电压以及电流通路电阻的不一致。在RS-2T2R结构中,用于存储正负权重的两个晶体管,它们的源极一个连接到RRAM单元,另一个通过SL接地,导致在读取过程中,即使两个RRAM单元存储了相同的权重值,由于一个晶体管的栅源电压Vgs固定,而另一个晶体管的栅源电压Vgs随着RRAM单元的电导变化而变化,两个晶体管的实际工作状态并不对称,产生不同的电流。此外,电路中不可避免地存在寄生效应,也会进一步加剧这种不对称性。最终,AWS会导致实际读取到的权重值偏离其真实值,降低存内计算的精度,影响神经网络等应用的性能,产生如下图所示的结果。
图5 传统CS-2T2R方案下的精度评估
为了解决传统2T2R结构中的AWS问题,文章提出了一种改进的隔离对称2T2R(Isolated Symmetrical 2T2R, IS-2T2R)结构,包含两种设计。该结构的核心在于引入了深N阱(DNW)隔离技术,并基于标准CMOS 40nm工艺上实现,用以消除电路中的非对称性。通过引入DNW隔离,作者能够在一个隔离的N阱中放置一个NMOS晶体管,并设计一个对称的电路结构,使得两个晶体管(W+和W-)的源极都连接到RRAM单元,从而消除了源极偏置电压的不同。此外,这种结构还优化了晶体管的尺寸,在不影响精度的同时,将集成密度提高了42.2%。下图展示了IS-2T2R结构的电路示意图,展示了通过引入DNW所实现的电路隔离。设计I通过WL控制单元,设计I通过BL信号控制单元。通过这一系列的改进,IS-2T2R结构有效地解决了AWS问题,提高了权重感测的准确性和存内计算的精度。
图6 设计I的bitcell示意图(a)和电路结构示意图(b);设计II的bitcell示意图(d)和电路结构示意图(e);设计I和设计II的工作波形图(c)和(f)。
文章RRAM单元TEM图如下所示。
图7 文章RRAM单元TEM图
最后,作者列举了本文设计的性能评估结果,如下图所示,可以看到IS-2T2R不受W/L的影响,仍然能保持比较理想的精度。
图8 本文方案评估
文章所提出设计的性能测试结果汇总如下表所示,可以看到,本文方案对比传统的两种2T2R方式具备优势。
表1 文章方案性能评估
四、总结与展望
本文主要介绍的[1]专注于解决2T2R RRAM单元的AWS问题,通过引入隔离晶体管实现了更稳定存储、更高集成度、更高计算精度的模拟RRAM存算,这些设计有利于实现存内计算芯片的高密度集成以及在片上部署更大规模的神经网络。
基于2T2R RRAM单元开展的研究内容多种多样,除本文之外,笔者在此简单汇总一些其它基于2T2R RRAM单元展开的工作供读者参考:
[5]将2T2R单元配置成两个1T1R单元进行读写操作,或者将其用作TCAM单元执行类脑计算任务,使2T2R单元可以在不同模式下工作,例如传统存储模式、存内计算模式和类脑计算模式,提高计算单元的利用率和灵活性;
图9 bitcell单元结构
[6]通过施加不同数量的脉冲来调整2T2R单元的电导,模拟突触权重的更新,加速BNN的训练过程,并降低功耗;
图10 bitcell结构及其权重更新规则
[7]通过电压模式操作,利用2T2R单元的电阻状态执行超维向量的计算,提高超维计算的效率、降低功耗;
图11 利用2T2R单元构建解码器的架构图
[8]通过设计输入相关感测控制机制,优化电压模式存内计算的性能,提高计算的能效和鲁棒性。
图12 计算宏结构
希望本文能对RRAM或其他类型非易失性存储器的模拟存算研究者带来启发。
参考资料
- Ling Y, Wang Z, Yang Y, et al. An isolated symmetrical 2T2R cell enabling high precision and high density for RRAM-based in-memory computing[J]. Science China Information Sciences, 2024, 67(5): 152402.
- Z. -R. Wang et al., "Functionally Complete Boolean Logic in 1T1R Resistive Random Access Memory," in IEEE Electron Device Letters, vol. 38, no. 2, pp. 179-182, 2017.
- Q. Liu et al., "33.2 A Fully Integrated Analog ReRAM Based 78.4TOPS/W Compute-In-Memory Chip with Fully Parallel MAC Computing," 2020 IEEE International Solid-State Circuits Conference - (ISSCC), San Francisco, CA, USA, 2020, pp. 500-502.
- Yu, Shimeng. 2016. Resistive Random Access Memory (RRAM) : From Devices to Array Architectures. Cham, Switzerland: Springer.
- Chen Y, Lu L, Kim B, et al. Reconfigurable 2T2R ReRAM architecture for versatile data storage and computing in-memory[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2020, 28(12): 2636-2649.
- Zhou Z, Huang P, Xiang Y C, et al. A new hardware implementation approach of BNNs based on nonlinear 2T2R synaptic cell[C]//2018 IEEE International Electron Devices Meeting (IEDM). IEEE, 2018: 20.7. 1-20.7. 4.
- Li Z, Bao R, Zhang W, et al. 2T2R RRAM-Based In-Memory Hyperdimensional Computing Encoder for Spatio-Temporal Signal Processing[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2024.
- Wang L, Ye W, Dou C, et al. Efficient and robust nonvolatile computing-in-memory based on voltage division in 2T2R RRAM with input-dependent sensing control[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2021, 68(5): 1640-1644.