博通于HotChip2024做了一個關于《An AI Compute
ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures》的報告。 如下圖所示是傳統鏈路在不同傳輸速率下傳輸損耗,可以看到,當Serdes遷移到200Gbps速率時,電IO將限制整體傳輸帶寬和容量,這就要求開發與ASIC共封裝的光互連。 博通采用Co-Packaged Optics
(CPO)的目的是,通過構建光互連在成本、功耗可靠性和延遲方面比現有光模塊有實質性的改進,同時通過構建高密度光互連,實現高達1Tb /s/mm的雙工連接,以支持下一代擴展光帶寬密度。 博通之前已經推出第一代25.6T CPO switch產品,目前正在認證和升級第二代51.2T CPO switch產品。之前已經今年各個展會上成功演示AI ASIC + CPO功能,即CPO + 2.5D封裝。 對于第一代產品TH4-Humboldt最主要的特點是:25.6T Ethernet Switch,一半是光CPO,一半是電,包含四個3.2T光引擎。每個光引擎是32x100Gbps DR,將PIC bonded到SiGe EIC。 對于第二代產品TH5-Bailly最主要的特點是:51.2T Ethernet Switch,全部是光CPO連接,包含8個6.4T光引擎。每個光引擎是64x100Gbps FR4,不同的是將PIC bonded到CMOS EIC。 整個鏈路是通過光纖連接,光纖與光芯片通過FAU連接,收發共16個,單獨一根MPO激光器是外置,如下圖所示。 光引擎芯片主要包括,集成TIA和DRV的7nm CMOS EIC電芯片,高密度光纖接口,集成調制器和探測器的SiPh PIC光芯片以及FOWLP先進封裝。本次采用wafer級的FOWLP先進封裝,采用雙側粘合,有助于提高PIC和EIC bonding的可擴展性,如下圖所示。 工藝具體流程如下: 第一/二步:制作EIC芯片及銅柱,晶圓級測試后,進行背面減薄和分離。在第一基板上制作與EIC連接的橋接引路,將EIC貼到基板上后將其掩埋。注意,EIC是沒有做TSV,在EIC旁邊做了連通到下面的TMV。 第三步:RDL。在磨平的上表面制作routing電路,包含EIC和PIC所需供電,制作u PAD后貼到第二基板上。 第四步,C4。去掉第一基板后,在該表面制作C4 bump。并貼到第三基板。 第五步,制作PIC芯片,在光芯片表面做Cu Pillar,并減薄,將其貼到去掉第二基板的芯片上,回流,解離,粘貼lens,測試光電芯片OE性能。這里有意思的是,光芯片的光口耦合用的是lens? 第六步,將整個器件貼到PCB上,與光纖耦合,填充固定,添加散熱,最后進行CPO測試。 經過所有步驟的八個光學引擎粘合到基板后的橫截面圖如下所示,尤其是TMV處的CuP細節。 最終51.2T TH5-Bailly測試53GBaud PAM4眼圖如下,平均輸出功率-1.7dbm,OMA -1.2dbm,ER 5.4dB,而TDECQ達到1.07。 將其與LPO和可插拔光模塊進行對比,基于Bailly CPO光互連技術可以節省30%功耗。 當前光互連技術的演進分為如下四個階段: 1)傳統分立III-V器件,受限于工程制造的可擴展性。 2)硅光switch CPO,可以認為是模塊集成,尤其基于CPO技術,是初步探索。 3)Switch CPO,這是當前的階段,實現光口與switch
ASIC共封裝,達到50Tbps傳輸容量。 4)GPU CPO,這是未來路徑,將光口與GPU進行互聯,達到6.4Tbps傳輸容量。 博通對未來進行規劃,認為可以實現512 個GPU通過CPO技術全互聯,如下圖所示。這里信息量很大,真敢想。它將Si Interposer, O/E chiplets 和HBM全部通過CoWoS進行封裝,HBM經過堆疊之后通過Si Interposer與ASIC聯通,它們與OE芯片通過大基板互聯,這屬于多個不同die的2.5D封裝。每個光引擎仍采用6.4Tbps I/O帶寬。物理上,可以實現512
GPU單行連接,光鏈路實現5m-30m傳輸距離。邏輯上,每個GPU通過CPO與所有64個switch連通。 因為光學遠離高功耗GPU,可以實現更可靠和更高成本效益。在單元測試中,確認OC芯片是好的情況下貼到整體封裝管殼上,可以達到高制造良率。它們計劃是2025年實現12.8Tpbs收發容量,而到2028年達到102.4Tpbs。 最后其提了一下BiDi架構,可以在相同GPU數量和傳輸容量下獲得更低的成本效益。 |
|
來自: 5cob11i1r1swtv > 《失效分析》