今日頭條
AI芯片,新變化
如果您希望可以時常見面,歡迎標星收藏哦~
大型語言模型加大了可持續計算和異構集成的壓力;數據管理成為關鍵的區別因素。
領先的人工智能系統設計正在從構建盡可能最快的人工智能處理器轉向采用一種更加平衡的方法,包括高度專業化的異構計算元素、更快的數據移動和顯著降低的功率。
這一轉變的一部分圍繞著采用 2.5D/3.5D 封裝的芯片,這可以針對不同的工作負載和數據類型實現更大的定制化,并提高每瓦性能。除此之外,領先的芯片制造商還利用最近的Hot Chips 24會議展示了新穎的微架構、預取和分支預測方面的改進、更快的內存訪問以及更智能的片上和片外數據管理。
由于當今電網的限制,政府機構和公用事業公司要求芯片制造商減少處理大型語言模型所需的能源,而芯片制造商正對此作出反應。他們還利用這些異構架構在超大規模和邊緣數據中心挖掘新機遇。
這些新設計還瞄準了 NVIDIA 在 AI 領域的近乎壟斷地位,因為廉價 GPU 和基于 CUDA 的模型大量涌現。沒有哪種通用處理器能像定制加速器那樣節能,而且今年 Hot Chips 上展示的大多數多芯片架構都不是單一類型的芯片,而是包含多種類型的處理器、更廣泛的內存和 I/O 配置以限制瓶頸,以及更高效的數據管理。
當然,NVIDIA 非常清楚這些競爭威脅,而且該公司肯定不會停滯不前。其新款 Blackwell 芯片將 GPU 與 CPU 和 DPU 結合在一起,其量化方案除了具有處理更大規模數據模型所需的極快訓練能力外,還為低精度 AI 打開了大門。
NVIDIA GPU 架構總監 Raymond Wong 在 Hot Chips 24 演講中表示:“與通用計算不同,人工智能和加速計算是一個全棧問題,需要從頭開始重新審視軟件和計算。問題的規模和我們所需的性能需要一種新方法,從上到下和從下到上尋找解決方案,涵蓋硬件、系統軟件、加速庫、平臺和應用程序框架……我們必須學會如何優化芯片、網絡和基礎設施。”
NVIDIA 未來仍有大量的擴張機會,但未來它將在許多方面面臨更激烈的競爭。
數據中心的變化
今年處理器設計的一大變化是更加注重數據管理。有了人工智能,它不再只是構建大量冗余處理單元并盡可能快地運行它們。越來越多的目標是智能地對數據進行優先級排序——數據越來越多,數據類型也越來越多——但這種方法并不新鮮。事實上,它可以追溯到 1980 年,當時英特爾推出了 8087 浮點協處理器。Arm 在 2011 年通過其 big.LITTLE 雙核處理器擴展了這一概念,較小的核心針對計算密集度較低的作業,較大的核心則用于需要時。
此后,這一策略通過更復雜的分區和優先級劃分不斷完善,但這種策略通常與大型數據中心中運行的 AI 芯片無關。大多數 AI 訓練都在那里進行,而且訓練可能會在那里繼續駐留一段時間,因為開發大型語言模型并反復查詢它們需要大量的計算能力。不過,并非每個計算周期都是處理密集型的,生成式 AI 模型確實需要像今天這樣頻繁地查詢。
甚至連 IBM 也已將重點從每秒萬億次運算 轉向每瓦性能 (即每秒皮焦耳)。IBM 聲稱其大型計算機處理了全球 70% 的金融交易,但 IBM 也已將重點從每秒萬億次運算 轉向每瓦性能 (即每秒皮焦耳)。這一點尤其值得注意,因為與大型系統公司不同(目前約占所有前沿芯片設計的 45%),IBM 將其系統出售給終端客戶,而不僅僅是將計算作為一種服務。
IBM 的新款 Telum 處理器包含用于 I/O 加速的數據處理單元 (基本上就是將數據匯集到要處理和存儲的位置)以及創新的緩存。總共包含 8 個以 5.5 GHz 運行的內核、10 個 36 兆字節的 L2 緩存和一個新的加速器芯片。
IBM 杰出工程師 Chris Berry 表示:“DPU 被業界廣泛用于高效處理大量數據。大型機處理大量數據。一臺完全配置的 IBM z16 每天能夠處理 250 億筆加密交易。這比 Google 搜索、Facebook 帖子和推文每天的加密交易量總和還要多。這種規模需要的 I/O 功能遠遠超出了典型計算系統所能提供的范圍。它需要自定義 I/O 協議來最大限度地減少延遲,支持數千個操作系統實例的虛擬化,并可以隨時處理數以萬計的 I/O 請求。”
新芯片的八核中央計算綜合體功耗降低了 15%,部分原因是分支預測功能更強大。過去幾年,這一直是 Hot Chips 大會的主題,更準確的分支預測和更快的預取錯誤恢復可以提高性能。但 DPU 的加入更進一步,充當數據的智能交通警察。Berry 指出,DPU 直接安裝在處理器芯片上,可以將 I/O 管理所需的功耗降低 70%。此外,加速器芯片的 32 個內核中的每一個都配備了 2MB 暫存器,他將其描述為“簡單地存放數據以備后用”,每瓦性能的改進值得關注。
英特爾還推出了用于 AI 訓練的下一代加速器芯片 Gaudi 3,該芯片具有 4 個深度學習核心 、8 個 HBM2e 堆棧、一個可配置而非可編程的矩陣乘法引擎。此外,它還具有 64 個張量處理核心和一個內存子系統,其中包括 L2 和 L3 緩存和 HBM 的統一內存空間、近內存計算以及一個集成軟件套件,允許客戶插入自定義 TPC 內核,并支持 PyTorch。它還通過中介層橋連接兩個計算芯片。
英特爾在設備內管理數據的方法在概念上與 IBM 類似。英特爾使用同步管理器將工作分派給指定單元,并使用運行時驅動程序通過配置同步管理器來設置工作依賴關系。這種方法可以最大限度地提高系統內的資源利用率,并通過使用中斷管理器異步傳遞事件來避免任何瓶頸。
英特爾首席 AI 性能架構師 Roman Kaplan 表示:“每個深度學習核心都包含 2 個 MME、16 個張量處理核心和 24 兆字節緩存。芯片的主要主力是 MME。它執行所有可以轉換為矩陣乘法的運算。這是一個可配置的(而非可編程的)引擎,這意味著您不需要在該引擎上運行任何代碼。有一組固定的寄存器控制該單元的操作,根據這些值,該單元就可以正常工作。每個 MME 單元基本上都是一個大型輸出固定脈動陣列。”
AMD 的 MI300X 芯片面向 AI 系統,基于由 12 個芯片組成的分布式 AI 系統,具有 4 個 I/O 芯片和 8 個加速器芯片,同樣可以將數據傳輸到最佳處理位置。AMD 高級研究員兼 Instinct 首席 SoC 架構師 Alan Smith 表示:“生成式 AI 模型性能需要內存容量和帶寬。因此,我們將 MI300X 的規模作為目標,以滿足這一需求,并實現單片設計無法實現的集成度。MI300X 采用第四代 Infinity 結構、PCI Express Gen 5、HBM3 和 CDMA3 架構,可在計算、內存和 I/O 子系統之間實現平衡擴展。”
邊緣變化
過去,AI 處理領域主要分為超大規模數據中心的訓練和小型設備的推理。由于移動大量數據的成本以及獲取查詢結果所需的時間,訓練和推理都越來越多地轉向邊緣。雖然 LLM 不斷擴展,但它們并不是唯一被訓練的 AI 模型。可以使用不太密集的計算基礎設施來訓練更小、更特定領域的模型,并且可以在帶電池的設備上進行推理。
這為使用小芯片的異構設計開辟了一個全新的市場,并非所有小芯片都將由同一家公司或代工廠開發。HBM 是這個方向的第一個巨大成功,但小芯片正在被設計用于一系列不同的應用程序,類似于過去幾十年軟 IP 的使用方式。與數據中心 AI 芯片一樣,管理數據移動和內存是關鍵。
英特爾的 Lunar Lake 是該芯片制造商針對移動和桌面計算的答案。英特爾 CPU SoC 硬件架構負責人 Arik Gihon 指出了該芯片的四個主要目標——能效、核心性能、改進的圖形和整體性能,最高可達 120 TOPS。英特爾的方法是分離邏輯,使用 2.5D 配置的計算塊和平臺控制器塊,并帶有封裝內存。
“Lunar Lake 由兩個主要模塊組成,”Gihon 說道。“一個是計算模塊,另一個是平臺控制器芯片。計算模塊采用臺積電 N3B 制造,PCB 采用臺積電 N6 制造。基礎芯片采用英特爾 1227 制造,它們通過 Foveros 技術連接。我們還引入了封裝內存,它有兩大優勢。一是功率。由于互連少,它使我們能夠專門針對低功耗優化 PHY,以及專門針對封裝內存的優化。二是主板上的占用空間,最大可達 250 平方毫米。 ”
與此同時,高通也按照同樣的思路開發了定制的 Oryon SoC。它包括三個 CPU 集群,每個集群有四個核心。其中兩個專注于性能,一個專注于能效。在許多演示中,最引人注目的是微架構,它基本上就是指令在硬件上的執行方式。與更大的系統一樣,數據在何處處理和存儲是許多此類設計的核心。
高通公司工程高級副總裁 Gerard Williams 表示:“ 有八個基本解碼器,它們正在為執行單元、加載存儲單元和矢量執行單元準備指令。指令本身進入重新排序緩沖區。它大約有 600 個條目,這讓您大致了解機器在飛行過程中要管理多少條指令。從退出的角度來看,這臺機器每個周期可以退出八條指令。”
高通芯片中特別值得注意的是內存管理單元。“它由一個非常大的統一二級轉換緩沖區支持,這主要是為了處理大量數據,”威廉姆斯說。“它旨在處理所有虛擬化結構、安全層,但這個結構遠大于 8 千個條目,這是非常不常見的。它旨在將轉換延遲降至最低。”
會議上的許多演講者都是熟悉的名字,但也有一些新人。例如,FuriosaAI 是一家總部位于韓國的初創公司,正在開發用于邊緣的 AI 芯片。該公司開發了一種所謂的張量收縮處理器,用于可持續的 AI 計算。
“雖然訓練是關于人工智能模型的,但推理是關于服務和部署的,”聯合創始人兼首席執行官 June Paik 表示。“我們在 2021 年的原始設計針對 BERT 規模的模型進行了優化。然而,隨著 GPT3 等基礎模型的出現,我們很快在設計上做出了重大轉變——該模型比 BERT 大五倍。盡管這些龐大的模型主要處于研究階段,但我們對它們的潛力充滿信心。我們相信人們會傾向于最強大的人工智能模型,因為更智能的模型會帶來更大的好處。我們還相信,隨著這些應用的擴展,效率將變得更加重要。因此,我們著手將 RNGD打造為最高效的推理芯片。”
其架構的核心是快速地將數據來回移動到內存,該架構面向邊緣數據中心。該公司聲稱內存帶寬為 1.5 TB/秒。RNGD 還擁有兩個 HBM3 堆棧和 256 MB SRAM,以及 48 GB 內存容量。
結論
AI 剛剛開始發揮作用,但未來仍面臨挑戰。首先,AI 必須是可持續的,大型芯片公司非常理解這一點,Hot Chips 24 上展示的芯片架構就是明證。但芯片只是解決方案的一部分。
可持續性還需要更高效的軟件、微架構的改進,以便減少大型語言模型查詢的發生頻率,以及越來越精確的響應,以便 LLM 響應值得信賴。此外,它還需要以芯片的形式更緊密地集成專用處理元件,這些芯片能夠更快、更高效地處理不同類型的數據。
底線是:人工智能不會消失,但要充分發揮其潛力,需要整個半導體生態系統的努力。
半導體精品公眾號推薦
專注半導體領域更多原創內容
關注全球半導體產業動向與趨勢
今天是《半導體行業觀察》為您分享的第3878內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小伙伴哦
上一條:國家衛健委:白露時節這樣做好健康防護
下一條:返回列表
聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多企業信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險,需謹慎。