超導(dǎo)RSFQ計(jì)算機(jī)

2017-02-14 by:CAE仿真在線來(lái)源:互聯(lián)網(wǎng)

來(lái)源:《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》2016年第3期《專欄》

作者:唐光明

引言

2015年,國(guó)產(chǎn)超級(jí)計(jì)算機(jī)“天河二號(hào)”以理論峰值計(jì)算速度54902.4TFlop/s、實(shí)際峰值運(yùn)算速度33862.7TFlop/s第六次蟬聯(lián)世界超級(jí)計(jì)算機(jī)500強(qiáng)第一名,當(dāng)之無(wú)愧成為全球最快的超級(jí)計(jì)算機(jī)。它是由312萬(wàn)個(gè)計(jì)算核心構(gòu)成,功耗為17808.00 kW,峰值運(yùn)算時(shí)能耗比為1.9GFlops/W。2015年,最省電的超級(jí)計(jì)算機(jī)是日本理化所信息中心的菖蒲(Shobu)集群,其能耗比為7.03GFlops/W。我們?nèi)绻矛F(xiàn)在的半導(dǎo)體集成電路技術(shù),即使在不斷改進(jìn)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)和制造工藝技術(shù)的情況下,要想制造出滿足“大數(shù)據(jù)”時(shí)代需要的能耗比為50 GFlops/W的E級(jí)計(jì)算機(jī)也將十分困難。其中面臨的最大挑戰(zhàn)就是難以忍受的巨額耗電量和由此帶來(lái)的散熱問題。因此,各國(guó)研究者們都在開始尋找可替代半導(dǎo)體的新器件。

2015年,是超導(dǎo)現(xiàn)象被發(fā)現(xiàn)104周年和約瑟夫森效應(yīng)被發(fā)現(xiàn)53周年。超導(dǎo)高速單磁通量子(Rapid Single-Flux-Quantum, RSFQ)電路因其具有超高運(yùn)算速度和超低功耗的特性而受到研究者們關(guān)注?？陀^地講,因超導(dǎo)自身特性,使其應(yīng)用局限于只追求超高運(yùn)算速度和超低功耗的特殊應(yīng)用領(lǐng)域。因?yàn)殡y以實(shí)現(xiàn)大容量存儲(chǔ)器和單位面積上約瑟夫森結(jié)較高集成密度,致使該技術(shù)永遠(yuǎn)不可能成為主流數(shù)字集成電路技術(shù)。雖然一直有工業(yè)界的參與和政府的大力支持,但是至今為止仍沒能制造出一臺(tái)完整的超導(dǎo)計(jì)算機(jī)。

在本文中,我們首先介紹RSFQ數(shù)字電路的基本特征、意義和應(yīng)用前景,然后了解以前幾個(gè)超導(dǎo)計(jì)算機(jī)項(xiàng)目及研究現(xiàn)狀,最后展望超導(dǎo)RSFQ計(jì)算機(jī)未來(lái)的發(fā)展方向及其面臨的挑戰(zhàn)。

超導(dǎo)RSFQ電路技術(shù)及其EDA工具

超導(dǎo)RSFQ電路中的基本構(gòu)成器件為約瑟夫森結(jié)(Josephson Junction, JJ),通過在兩個(gè)超導(dǎo)體之間加一層厚度約為2~3nm的絕緣層形成。由于隧道效應(yīng),會(huì)有約瑟夫森電流經(jīng)過兩個(gè)超導(dǎo)體。約瑟夫森結(jié)可以由電流控制工作狀態(tài),能夠在幾個(gè)皮秒內(nèi)改變狀態(tài)并產(chǎn)生一個(gè)單磁通量子(Single-Flux-Quantum, SFQ)脈沖。在RSFQ數(shù)字電路中,使用的是脈沖邏輯(pulse logic):出現(xiàn)SFQ脈沖時(shí)代表邏輯值“1”,否則為邏輯值“0”。表1比較了日本不同超導(dǎo)RSFQ數(shù)字集成電路制造工藝的性能。從中可以看出,超導(dǎo)芯片能夠達(dá)到傳統(tǒng)CMOS工藝無(wú)法達(dá)到的工作頻率。

超導(dǎo)RSFQ計(jì)算機(jī)manufacturing圖片1
與半導(dǎo)體芯片設(shè)計(jì)方法類似,設(shè)計(jì)超導(dǎo)芯片時(shí)必須要使用集成電路設(shè)計(jì)軟件。2006~2012年,日本名古屋大學(xué)計(jì)算機(jī)系高木直史教授(2010年調(diào)入京都大學(xué)計(jì)算機(jī)系)主持的“高性能低功耗單磁通量子處理器”項(xiàng)目中,研究人員使用SKILL語(yǔ)言編程調(diào)用Cadence提供的各種接口實(shí)現(xiàn)了超導(dǎo)RSFQ大規(guī)模集成電路設(shè)計(jì)的電子自動(dòng)化。與CMOS芯片設(shè)計(jì)不同,在RSFQ芯片設(shè)計(jì)中,根據(jù)不同的時(shí)鐘供給方式,需要準(zhǔn)確計(jì)算每個(gè)數(shù)據(jù)和時(shí)鐘到達(dá)每個(gè)邏輯門的時(shí)間,并使其滿足每個(gè)邏輯門的保持時(shí)間和建立時(shí)間要求,以此保證每個(gè)邏輯門能正常工作。但在大規(guī)模RSFQ數(shù)字集成電路設(shè)計(jì)中,計(jì)算這兩個(gè)時(shí)間需要花費(fèi)大量時(shí)間。為了縮短設(shè)計(jì)周期,高木研究室的研究人員設(shè)計(jì)了自動(dòng)計(jì)算這兩個(gè)時(shí)間的工具箱,這大大縮短了現(xiàn)在日本的RSFQ大規(guī)模集成電路設(shè)計(jì)周期。

2002年國(guó)際超導(dǎo)產(chǎn)業(yè)技術(shù)研究所超導(dǎo)工學(xué)研究所(SRL)、情報(bào)通信研究機(jī)構(gòu)(NICT)(神戶)、名古屋大學(xué)和橫濱國(guó)立大學(xué)共同開發(fā)了適用于工藝STP2的CONNECT單元庫(kù)。該單元庫(kù)包含200多個(gè)邏輯門和傳輸線。每個(gè)CONNECT單元都由數(shù)字層、模擬層和版圖構(gòu)成。每個(gè)單元的數(shù)字層用Verilog HDL虛擬硬件語(yǔ)言描述了單元的數(shù)字行為,主要定義在不同偏置電壓條件下單元的保持時(shí)間和延遲時(shí)間等;模擬層定義單元的模擬電路模型,主要包括電感、電阻、電容、約瑟夫森結(jié)等參數(shù),并負(fù)責(zé)從數(shù)字層提取各種時(shí)間參數(shù)以完成低頻功能時(shí)序仿真;根據(jù)STP2工藝將模擬層定義的各種電路模型參數(shù)以相應(yīng)厚度、長(zhǎng)度和寬度物理實(shí)現(xiàn)到不同層就得到了單元的版圖。后來(lái)在CONNECT單元庫(kù)的基礎(chǔ)上又開發(fā)出了適用于ADP2工藝標(biāo)準(zhǔn)的ADP單元庫(kù)。這樣,我們就可利用EDA工具將計(jì)算機(jī)體系結(jié)構(gòu)人員設(shè)計(jì)的RSFQ邏輯電路進(jìn)行布線布局形成大規(guī)模集成電路并進(jìn)行設(shè)計(jì)規(guī)則檢查(DRC)和電氣規(guī)則檢查(ERC),局部修改后通過檢查就可以生成GDSII版圖文件交付日本產(chǎn)綜研(AIST)進(jìn)行RSFQ芯片制造。芯片被制造完成后再送到名古屋大學(xué)藤卷研究室由田中雅光帶領(lǐng)的小組進(jìn)行高頻測(cè)試。

在美國(guó),紐約州立大學(xué)石溪分校(SBU)開發(fā)了適用于HYPRES 4.5kA/cm^2 1.5μm 4層鈮工藝的單元庫(kù)SBU VHDL單元庫(kù)?，F(xiàn)在還沒有適用于MIT林肯實(shí)驗(yàn)室10層鈮工藝單元庫(kù)的相關(guān)報(bào)道。

超導(dǎo)RSFQ計(jì)算機(jī)的發(fā)展

1972~1983年,IBM首次嘗試使用約瑟夫森結(jié)制造超導(dǎo)計(jì)算機(jī)。在這個(gè)項(xiàng)目中,研究人員使用鉛合金制造約瑟夫森結(jié),導(dǎo)致電路熱周期特性不穩(wěn)定;以及采用與CMOS電路類似的工作邏輯,需要另加交流電完成復(fù)位,從而使超導(dǎo)數(shù)字電路喪失了在速度上的優(yōu)勢(shì)。

繼IBM項(xiàng)目失敗15年之后,RSFQ電路理論奠基人紐約州立大學(xué)石溪分校教授利哈廖夫(K. K. Likharev)領(lǐng)導(dǎo)了混合技術(shù)多線程(HTMT)體系結(jié)構(gòu)超導(dǎo)計(jì)算機(jī)項(xiàng)目(1996~2000)。當(dāng)時(shí)的制造工藝僅僅只能實(shí)現(xiàn)幾千個(gè)約瑟夫森結(jié)的集成度,無(wú)法滿足HTMT中每個(gè)處理器芯片需要幾百萬(wàn)個(gè)約瑟夫森結(jié)的要求。最后,由幾萬(wàn)個(gè)處理器構(gòu)成的HTMT超導(dǎo)計(jì)算機(jī)系統(tǒng)以沒有制造出一個(gè)芯片而告終。

有了以上兩個(gè)項(xiàng)目失敗的經(jīng)驗(yàn)教訓(xùn)后,美國(guó)人開始從實(shí)際出發(fā),結(jié)合工藝水平,研制8位并行處理器FLUX-1。雖然美國(guó)人并沒有打算將此處理器應(yīng)用到任何地方,但最后該項(xiàng)目并沒有成功演示一個(gè)完整的并行超導(dǎo)RSFQ處理器。

由于受到約瑟夫森結(jié)集成度的限制,日本主要集中研制8位串行結(jié)構(gòu)處理器。但是實(shí)際應(yīng)用中真正需要的是32位或64位處理器。2012年日本發(fā)展了ADP2制造工藝,可以在1cm^2的芯片上集成105個(gè)約瑟夫森結(jié)的同時(shí)并開發(fā)了超導(dǎo)無(wú)源傳輸線PTL,使32位RSFQ處理器的實(shí)現(xiàn)成為可能。所以,現(xiàn)在日本名古屋大學(xué)(負(fù)責(zé)芯片物理實(shí)現(xiàn)和測(cè)試)、京都大學(xué)(負(fù)責(zé)計(jì)算機(jī)體系結(jié)構(gòu)和硬件算法)、橫濱國(guó)立大學(xué)(負(fù)責(zé)存儲(chǔ)器)和AIST(負(fù)責(zé)芯片制造)開始共同研制32位串-并體系結(jié)構(gòu)處理器,并且已經(jīng)成功演示基于4位串-并體系結(jié)構(gòu)的32位ALU。該成果已經(jīng)于2016年1月在IEEE Transactions on Applied Superconductivity 26卷第一期上發(fā)表。4位串-并體系結(jié)構(gòu)32×32位乘法器也被設(shè)計(jì)完成,該成果將于2016年6月被發(fā)表在IEICE Transactions on Electronics E99-C卷第6期上。美國(guó)仍繼續(xù)研制并行體系結(jié)構(gòu)32位/64位處理器。直到2015年,只有日本成功演示了完整的8位串行處理器CORE1。

8位串行體系結(jié)構(gòu)微處理器

2002~2007年,日本名古屋大學(xué)、橫濱國(guó)立大學(xué)、東北大學(xué)、SRL、NICT(神戶)共同開展CORE1處理器項(xiàng)目。雖然功能簡(jiǎn)單,但CORE1仍是至今唯一被成功演示且功能完整的處理器。

CORE1α(ver.5)是第一個(gè)被成功演示的RSFQ處理器。它包含4999個(gè)約瑟夫森結(jié),工作時(shí)鐘為15GHz,功耗為1.6mW,性能為167MIPS(每秒百萬(wàn)條指令)。在CORE1α(ver. 6)中使用了超導(dǎo)無(wú)源傳輸線 PTL技術(shù),包含6319個(gè)約瑟夫森結(jié),工作時(shí)鐘為18GHz,功耗為2.1mW,性能提高到240MIPS。后來(lái)又發(fā)展出CORE1α(ver. 10),CORE1β,CORE1γ(ver.2)等幾個(gè)版本,圖1所示的CORE1γ(ver.4)是CORE1的最后一個(gè)版本,包含22302個(gè)約瑟夫森結(jié),面積為6.36×6.20mm^2,性能為666 MOPS(峰值),擁有四級(jí)流水線,工作時(shí)鐘頻率25GHz,功耗為6.56mW。

超導(dǎo)RSFQ計(jì)算機(jī)manufacturing圖片2

高性能低功耗超級(jí)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)

1997~2001年,日本科技廳確立RSFQ電路基礎(chǔ)技術(shù)研究項(xiàng)目,SRL、AIST、富士通、日立、日本電氣公司(NEC)、NICT、東北大學(xué)、橫濱國(guó)立大學(xué)、名古屋大學(xué)等開展對(duì)相關(guān)技術(shù)的研究。2002~2006年國(guó)立研究開發(fā)法人新能源產(chǎn)業(yè)技術(shù)綜合開發(fā)機(jī)構(gòu)(New Energy and Industrial Technology Development Organization, NEDO)確立RSFQ數(shù)字電路設(shè)計(jì)技術(shù)研究項(xiàng)目。

從2006年秋開始,以用RSFQ電路來(lái)開發(fā)高性能低功耗計(jì)算機(jī)為目標(biāo),JST-CREST確立了“計(jì)算機(jī)系統(tǒng)超低功耗技術(shù)革新和融合技術(shù)”研究領(lǐng)域的“高性能低功耗單磁通量子處理器”項(xiàng)目,對(duì)相關(guān)基礎(chǔ)技術(shù)進(jìn)行深入研究。領(lǐng)導(dǎo)者為名古屋大學(xué)計(jì)算機(jī)系高木直史教授,參與研究的單位有:九州大學(xué)計(jì)算機(jī)系村上和彰研究室、名古屋大學(xué)量子工學(xué)系藤卷朗研究室、橫濱國(guó)立大學(xué)吉川信行研究室、SRL日高睦夫研究小組。

該項(xiàng)目開始時(shí),SRL和NEC已經(jīng)擁有了成熟的2μm超導(dǎo)集成電路工藝,并正在此基礎(chǔ)上進(jìn)行1μm工藝的研究。在2μm工藝中,基于元件庫(kù)的設(shè)計(jì)技術(shù)已經(jīng)成熟,擁有了完備的基本邏輯單元庫(kù),且正在開展JTL自動(dòng)布線工具的研發(fā)。雖然可以開發(fā)Nb六層的器件,但是沒有任何針對(duì)1μm工藝的設(shè)計(jì)與開發(fā)環(huán)境。

超導(dǎo)RSFQ計(jì)算機(jī)manufacturing圖片3
在該項(xiàng)目中,研究者提出可用“大規(guī)?？芍貥?gòu)數(shù)據(jù)通路(LS-RDP)”(見圖2)作為一種未來(lái)RSFQ電路實(shí)現(xiàn)超級(jí)計(jì)算機(jī)的體系結(jié)構(gòu)。在LS-RDP中,由數(shù)千個(gè)浮單元(FPU)互聯(lián)構(gòu)成一個(gè)可重構(gòu)的網(wǎng)絡(luò)(Operand Routing Network, ORN),并將這種大規(guī)模具有計(jì)算機(jī)功能的加速器加入處理器中。LS-RDF具有可重構(gòu)功能,大多數(shù)FPU采用并行流水線結(jié)構(gòu),具有數(shù)據(jù)依賴關(guān)系的命令均可以被直接執(zhí)行。在此RSFQ電路中,只要ORN的重構(gòu)被完成,LS-RDP內(nèi)部的數(shù)據(jù)流向就被確定,各個(gè)FPU處理后的數(shù)據(jù)依次被傳輸直至運(yùn)算完成,且計(jì)劃用RSFQ電路實(shí)現(xiàn)LS-RDP中數(shù)據(jù)讀取的“流緩沖”。整個(gè)項(xiàng)目中的處理器、主存儲(chǔ)器等均采用半導(dǎo)體器件。為了在將來(lái)能完全實(shí)現(xiàn)超導(dǎo)RSFQ計(jì)算機(jī)系統(tǒng),日本當(dāng)前正在進(jìn)行32位串-并體系結(jié)處理器的研制。

32位串-并體系結(jié)構(gòu)計(jì)算機(jī)

由日本科學(xué)振興機(jī)構(gòu)(JST)戰(zhàn)略創(chuàng)造研究推進(jìn)事業(yè)先端低碳技術(shù)開發(fā)項(xiàng)目下支持的“Superconductor Electronic System Combined with Optics and Spintronics (2011~2017)”項(xiàng)目計(jì)劃研制一個(gè)超導(dǎo)RSFQ計(jì)算機(jī)系統(tǒng)。名古屋大學(xué)藤卷朗主持此項(xiàng)目,參與單位有NICT、橫濱國(guó)立大學(xué)、京都大學(xué)和AIST。此項(xiàng)目中的核心單元為一個(gè)采用MIPS32指令系統(tǒng)的RSFQ微處理器,由京都大學(xué)高木研究室負(fù)責(zé)此處理器的體系結(jié)構(gòu)和硬件算法研制工作。該研究小組采用串-并體系結(jié)構(gòu),現(xiàn)在已經(jīng)完成ALU和乘法器研制工作。之所以采用串-并體系結(jié)構(gòu),是因?yàn)榇薪Y(jié)構(gòu)處理32位數(shù)據(jù)速度太慢,不能采用;也不能采用并行體系結(jié)構(gòu),因?yàn)楝F(xiàn)在日本最先進(jìn)的ADP2工藝只能在1cm^2芯片上集成10萬(wàn)個(gè)約瑟夫森結(jié),而負(fù)責(zé)美國(guó)C3超導(dǎo)RSFQ計(jì)算機(jī)項(xiàng)目中計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)的SBU研究小組設(shè)計(jì)的32位并行算術(shù)邏輯單元需要36073個(gè)約瑟夫森結(jié),32×32位并行乘法器需要75811個(gè)約瑟夫森結(jié),這致使無(wú)法在一個(gè)芯片上實(shí)現(xiàn)32位處理器。因?yàn)?程序計(jì)數(shù)器(PC)、指令存儲(chǔ)器(IM)、數(shù)據(jù)存儲(chǔ)器(DM)和控制器(Controller)等也是處理器必不可少的部件。美國(guó)C3計(jì)劃中約瑟夫森結(jié)設(shè)計(jì)復(fù)雜度為107,需要每平方厘米高達(dá)106個(gè)約瑟夫森結(jié)集成密度。但就目前HYPERS和MIT林肯實(shí)驗(yàn)室公開的數(shù)據(jù)來(lái)看,還沒有達(dá)到這一目標(biāo)。

在算術(shù)邏輯單元設(shè)計(jì)過程中,為了能發(fā)現(xiàn)只須消耗硬件資源較少就可達(dá)到最快速度的體系結(jié)構(gòu)。我們通過一系列研究發(fā)現(xiàn),即使將來(lái)約瑟夫森結(jié)的集成度增加了,也不一定會(huì)采用并行體系結(jié)構(gòu)。因?yàn)?在32/64位處理器中,隨著電路規(guī)模增加,單元器件增多致使時(shí)鐘信號(hào)要使用大量有源分支元件Splitter,加之流水線級(jí)數(shù)加深,從而導(dǎo)致其處理數(shù)據(jù)的時(shí)間延遲急劇增加。所以在RSFQ數(shù)字電路中,并行體系結(jié)構(gòu)并不一定有效,串-并體系結(jié)構(gòu)可能是一種比較好的解決方案。

超導(dǎo)RSFQ計(jì)算機(jī)manufacturing圖片4
為了驗(yàn)證上面的結(jié)論,我們選取了硬件資源消耗較少,計(jì)算速度最快(當(dāng)工作頻率在35GHz以上時(shí))的基于4位串-并體系結(jié)構(gòu)的算術(shù)邏輯單元進(jìn)行仿真、DRC和ERC,然后生成GDSII二進(jìn)制文件送到AIST進(jìn)行流片,最后到名古屋大學(xué)藤卷研究室進(jìn)行高頻測(cè)試。測(cè)試結(jié)果顯示:該算術(shù)邏輯單元可執(zhí)行MIPS32的所有算術(shù)/邏輯指令,工作頻率為50GHz,功耗為1.01毫瓦,面積為3.09×1.66mm^2,消耗資源為3481個(gè)約瑟夫森結(jié)。圖3(a)~(c)分別顯示了封裝后的芯片以及電子顯微鏡下芯片內(nèi)部的RSFQ電路。

64位并行體系結(jié)構(gòu)計(jì)算機(jī)

2005年,美國(guó)國(guó)防部情報(bào)高級(jí)研究計(jì)劃署(IARPA)制定了超導(dǎo)RSFQ數(shù)字集成電路的發(fā)展綱要,2013~2018年開始實(shí)施Cryogenic Computing Complexity(C3)項(xiàng)目第一階段的研究,主要研制超導(dǎo)存儲(chǔ)器和邏輯電路關(guān)鍵技術(shù),并以此尋求開發(fā)、驗(yàn)證超導(dǎo)RSFQ數(shù)字電路在超級(jí)計(jì)算領(lǐng)域的潛力。

該項(xiàng)目最終的目標(biāo)是分三個(gè)階段實(shí)現(xiàn)超導(dǎo)計(jì)算機(jī)系統(tǒng)。該計(jì)算機(jī)系統(tǒng)工作時(shí)鐘頻率為10GHz,吞吐量達(dá)1013bit-op/s,主存儲(chǔ)器228字節(jié),緩存為215字節(jié),I/O速度為109 bit/s。處理器為64位ARM或Intel Atom核,指令集采分別用ARM或簡(jiǎn)單x86指令系統(tǒng)算術(shù)邏輯單元,只能處理一個(gè)64位整數(shù),無(wú)浮點(diǎn)運(yùn)算能力。整個(gè)邏輯電路的約瑟夫森結(jié)復(fù)雜度達(dá)107,需要流片工藝106JJs /cm^2。MIT林肯實(shí)驗(yàn)室負(fù)責(zé)芯片制造,他們的目標(biāo)是2015年在單位面積上集成105個(gè)約瑟夫森結(jié),到2020年約瑟夫森結(jié)集成度達(dá)106。SBU負(fù)責(zé)計(jì)算機(jī)體系結(jié)構(gòu)和邏輯電路設(shè)計(jì),目前已完成32位并行算術(shù)邏輯單元和32×32位并行乘法器的設(shè)計(jì)與仿真工作。IBM,Northrop Grumman也參與了這個(gè)項(xiàng)目。

未來(lái)面臨的挑戰(zhàn)

RSFQ數(shù)字集成電路雖然擁有超低功耗和超高速度的優(yōu)點(diǎn),但由于這是一項(xiàng)全新的技術(shù),也面臨許多有待解決的問題:

溫度引起的延遲抖動(dòng):使用超導(dǎo)約瑟夫森結(jié)構(gòu)成的RSFQ數(shù)字電路邏輯門沒有固定的傳輸延遲,當(dāng)工作環(huán)境有熱波動(dòng)時(shí),RSFQ數(shù)字電路邏輯門的傳輸延遲隨之就會(huì)產(chǎn)生抖動(dòng)。這種現(xiàn)象在超高速和高寬帶數(shù)據(jù)通路的處理器中尤其容易發(fā)生。因此,我們?cè)谠O(shè)計(jì)RSFQ數(shù)字集成電路時(shí),必須要提供高可靠性的時(shí)鐘同步技術(shù)。
磁通捕獲效應(yīng):當(dāng)磁通被捕獲或被凍結(jié)時(shí),RSFQ數(shù)字電路的性能將被降低,從而導(dǎo)致操作故障。這種現(xiàn)象容易發(fā)生在從常態(tài)到超導(dǎo)態(tài)的轉(zhuǎn)變過程中。為了使磁通捕獲效應(yīng)最小化,我們既需要采用雙層金屬鉬(Mu)屏蔽地球磁場(chǎng),也需要在超導(dǎo)芯片版圖的接地層和面積較大的超導(dǎo)薄膜層上構(gòu)建磁通阱(trap)或塹(moat)結(jié)構(gòu),從而使已被凍結(jié)的磁通遠(yuǎn)離正處于工作狀態(tài)的RSFQ數(shù)字電路。
難以接受的延遲開銷:在RSFQ大規(guī)模數(shù)字集成電路中,較大規(guī)模的扇出(fan-out)會(huì)造成較大的延遲開銷。尤其是使用了“準(zhǔn)備好”信號(hào)的異步并行流水線結(jié)構(gòu)中, 由于邏輯門數(shù)量增大,延遲開銷就會(huì)被相應(yīng)增加。因?yàn)樵谶@類電路中,需要大量使用將信號(hào)一分為二的有源分支元件Splitter,這使我們必須要額外增加大量約瑟夫森傳輸線JTL將這些Splitter級(jí)聯(lián)起來(lái),從而導(dǎo)致整個(gè)電路的延遲開銷被大大增加。因此,我們?cè)谠O(shè)計(jì)RSFQ大規(guī)模數(shù)字集成電路時(shí),體系結(jié)構(gòu)和邏輯電路設(shè)計(jì)階段的工作尤為重要,需要不斷優(yōu)化設(shè)計(jì),最大限度地減少電路的扇出規(guī)模,從而使整個(gè)電路的延遲開銷最小化。
靜態(tài)功耗:在RSFQ數(shù)字電路中,偏置電阻的靜態(tài)功耗最大。這在RSFQ大規(guī)模數(shù)字集成電路中是一個(gè)不容忽視的問題。目前,美國(guó)HYPRES的奧列格·穆漢諾夫(Oleg A. Mukhanov)正在開展對(duì)能量有效RSFQ(Energy-Efficient RSFQ)數(shù)字電路的研究,以期待解決RSFQ數(shù)字電路中靜態(tài)功耗的問題。
RSFQ超大規(guī)模數(shù)字集成電路EDA工具:我們雖然可以利用JSim(免費(fèi)約瑟夫森結(jié)電路仿真器)、PSCAN’96(約瑟夫森結(jié)電路仿真器)、SPICE3(約瑟夫森結(jié)電路仿真器)、WRspice(約瑟夫森結(jié)電路仿真器)、InductEx(免費(fèi)3D電感修改器)、SONNE(3D電磁仿真器)、HFSS(3D電磁仿真器)、LASI(免費(fèi)IC版圖工具)等工具來(lái)仿真和評(píng)估RSFQ數(shù)字電路,但是這些工具無(wú)法完成LSI和VLSI級(jí)RSFQ數(shù)字電路的仿真和評(píng)估。本文中提到的EDA軟件要求體系結(jié)構(gòu)和硬件算法設(shè)計(jì)人員完成后端設(shè)計(jì),這就增加了設(shè)計(jì)周期。2009年,由南非開發(fā)的商業(yè)EDA軟件NioCAD是一款類似Cadence的集成開發(fā)環(huán)境,不過它現(xiàn)在仍處于發(fā)展階段,仍有待繼續(xù)完善其功能。
存儲(chǔ)器:RSFQ數(shù)字電路領(lǐng)域面臨的最大挑戰(zhàn)可能就是存儲(chǔ)器。因?yàn)榇鎯?chǔ)器的性能直接制約整個(gè)處理器以及整個(gè)計(jì)算機(jī)系統(tǒng)的性能,為此需要提供低延時(shí)、高吞吐量尋址能力的片內(nèi)和片外存儲(chǔ)器。目前,研究者們正在研究約瑟夫森磁阻隨機(jī)存取存儲(chǔ)器(Josephson Magnetoresistive Random-Access Memory, JMRAM)和重新出現(xiàn)渦旋轉(zhuǎn)換存儲(chǔ)器(re-emergence of vortex transition memory)。在沒有出現(xiàn)高性能的超導(dǎo)存儲(chǔ)器之前,日本研究者使用數(shù)據(jù)延遲單元DFF(Data/Delay Flip-Flop)來(lái)作為片內(nèi)存儲(chǔ)器。其優(yōu)點(diǎn)是實(shí)現(xiàn)容易,但其缺點(diǎn)是占用面積大,消耗硬件資源多。為了驗(yàn)證程序計(jì)數(shù)器、控制器和存儲(chǔ)器等部件的功能,以便在以后要設(shè)計(jì)的32位串-并處理器中應(yīng)用,在近期設(shè)計(jì)的8位增強(qiáng)版CORE e4中增加了32個(gè)8位數(shù)據(jù)存儲(chǔ)器和32個(gè)8位指令存儲(chǔ)器,它們占用的面積和約瑟夫森結(jié)數(shù)量幾乎占了整個(gè)芯片的50%。

總結(jié)

較目前的半導(dǎo)體CMOS數(shù)字集成電路,超導(dǎo)RSFQ數(shù)字集成電路在功耗和速度兩方面都有絕對(duì)優(yōu)勢(shì)。但是受超導(dǎo)自身性能影響,其工作環(huán)境要求在零下270攝氏度(~4.2K),而且還要增加雙層金屬鉬屏蔽地球磁場(chǎng)。這就意味著用超導(dǎo)RSFQ數(shù)字集成電路制成的設(shè)備還需要附加冷凍和屏蔽裝置。因此,此技術(shù)不能應(yīng)用于便攜式設(shè)備和手持嵌入式設(shè)備中;更由于超導(dǎo)存儲(chǔ)器和約瑟夫森結(jié)高集成度難以實(shí)現(xiàn),所以RSFQ電路技術(shù)不能替代CMOS電路技術(shù)而成為主流數(shù)字集成電路技術(shù),僅局限于只追求超高速運(yùn)算速度和超低功耗而可以忽略其缺點(diǎn)的應(yīng)用。

從科學(xué)技術(shù)發(fā)展的歷史長(zhǎng)河來(lái)看,雖然超導(dǎo)RSFQ數(shù)字集成電路還存在許多需要解決的問題,但對(duì)需要超高速運(yùn)算速度和超低功耗的應(yīng)用仍具有吸引力。

致謝:

作者衷心感謝中科院計(jì)算所黃博文工程師的編輯工作,幫助作者將近60頁(yè)的原始文檔縮減到僅為18頁(yè)的文稿。感謝中國(guó)科學(xué)院計(jì)算技術(shù)研究所所長(zhǎng)孫凝暉研究員和先進(jìn)計(jì)算機(jī)系統(tǒng)研究中心副主任包云崗研究員給予的支持。正因?yàn)橛辛怂麄兊膸椭?本文才能與大家見面。作者的研究得到了ALCA-JST資助,CRAVITY制造了作者設(shè)計(jì)的芯片,京都大學(xué)高木研究室和名古屋大學(xué)藤卷研究室為作者開展工作提供了良好的條件,在此也一并表示感謝。

作者:

超導(dǎo)RSFQ計(jì)算機(jī)前沿制造技術(shù)圖片5
唐光明