來源:technews(臺)
英特爾這家世界第一半導體大廠,過去幾十年來,都習慣靠製程技術優勢與龐大產能「輾壓」競爭對手,時過境遷,隨著專業晶圓代工商業模式崛起,現在反倒變成「雙A」 (AMD、蘋果)看似勢不可擋、發展迅猛。
基於不同產品發展策略和客戶需求,AMD走向小晶片Chiplet大玩「包水餃」,蘋果卻走向截然不同的單一巨無霸晶片:蘋果M1 Max在432平方毫米麵積內,塞了多達570億電晶體,而標準設計功耗依據外界預估,卻僅區區90W。
這是一個怎樣的概念?直接比較一下英特爾、AMD、Nvidia近期有確認晶粒面積的產品:
這裡會特別提及執行頻率與儲存器寬度,主要是這兩者都跟芯片面積息息相關,時鐘頻率越高、儲存器匯流排越寬,無論外部封裝還是晶粒本身,都更不利縮小面積。
總之,據已知測試資料,M1 Max GPU的確展現足以匹敵AMD與Nvidia高階GPU的潛力,無愧巨大的電晶體數量與「佔地甚廣」的GPU面積。請各位再複習一次M1 Max的功能單元佈局,這裡暗藏巨大的伏筆。
▲ 蘋果M1 Max(面積432平方毫米,5納米制程)
不過「恐龍化」處理器在計算機工業歷史並非稀有物種,其實隨處可見,讓我們先從1990年代初期開始講起,也請大家先把M1 Max的432平方毫米記在心裡,接著改變心情,用逛美術館的心態,慢慢欣賞這些半導體產業的高科技藝術品。
「單晶片」並不是天經地義
今天「一顆晶粒=起碼一個處理器核心」似乎是常識中的常識,但很久以前不是如此。
距今超過30年前的古老年代,那時半導體制程和晶片設計工具都難以支撐巨大的單晶片處理器。日後被AMD併購的NexGen(K6起源),創業時首款386相容處理器,是「8顆」晶片產物。
以IBM Power1初代RIOS-1為例,由「10顆」晶片構成,製程是1.0μm (相當於1千奈米),電晶體總數690萬,晶粒面積總計1,284平方毫米,管腳數量1,464個,後繼Power2也是「8顆」晶片的怪物(0.72μm,2,300萬電晶體,1,284平方毫米)。1992年1月RSC(RISC Single Chip),是IBM Power家族首顆單晶片實作(0.8μm,100萬電晶體,226.48平方毫米,訊號腳位201只)。從以下這些不可思議的數字,尤其是做成多晶片浪費的電晶體和訊號腳位,就可瞭解能否設計成單晶片會這麼重要。
▲ IBM Power1 RIOS-1(總面積1,284平方毫米,1.0μm製程)
再回頭看當時跟IBM Power2爭奪效能王者的DEC Alpha。打從一開始Alpha就是單晶片,初代Alpha 21064(EV4)的晶粒面積只有233.52平方毫米(0.75μm,168萬電晶體),後面又縮小至186平方毫米(0.675μm),時鐘頻率更上看200MHz,不難想見當時Alpha獨領風騷的風光程度。
▲ DEC Alpha 21064(面積233.52平方毫米,0.75μm製程)。
桌機處理器也有肥胖的妖怪
同場加映1990年代中期的個人電腦處理器,個人電腦市場因Windows 95作業系統急速成長的關鍵時刻,奠定「主流桌機處理器的晶粒面積約100平方毫米」標準。
可多少看出指令集架構複雜度和「毫無規則可尋的程度」,對電晶體數量和晶粒面積的影響。像PowerPC 601就比初代Pentium擁有更高時鐘頻率、1.5倍指令執行能力與兩倍容量的L1Cache儲存器。英特爾當時表示,相較同等級RISC處理器,Pentium有約30%電晶體都「貢獻」給x86指令集的相容性,結果就反映至PowerPC 601兩倍多晶粒面積(16.7×17.6mm=294平方毫米)。
▲ 英特爾初代Pentium(面積294平方毫米,0.80μm製程)。
爬文至此,相信眼尖的讀者絕不會放過某顆看起來製程最先進、也最大顆的怪物:IBM PowerPC 615。
這顆處理器採用當時最先進的0.35μm製程(英特爾晚了IBM近一年),晶粒面積330平方毫米,同時支援64位元PowerPC、32位元PowerPC和當時還是32位元的x86指令集,併兼容英特爾Pentium腳位(應是Socket 5)。最有意思的部分,在IBM是透過「硬塞」x86核心,直接實現相容性,擺明想將PowerPC推動x86處理器戰場。
換句話說,這是歷史第一個完全出於IBM之手的x86核心微架構。曾出現原型樣品的PowerPC 615是可怕的巨無霸晶片,IBM宣稱「一人吃,兩人補」看起來不像喊假的,電晶體數量初略估計突破1千萬。IBM至今尚未公佈晶粒圖,實在很可惜。
很不幸的是,微軟拒絕支援這顆神奇的混血妖怪,也導致對應的作業系統,只有特化版MINIX 和自家OS/2。或許也考慮到PowerPC 615價格與耗電量將高不可攀,主機板相容性也很可能是一大問號,IBM索性放棄PowerPC 615,讓世人無緣見識IBM親手打造的x86處理器核心究竟有多厲害。但論「巨無霸」桌機處理器,就不得不談談從未正式量產的Cyrix 6×86 ″M1″初期試產版,比PowerPC 615還誇張,但主因並非太多電晶體,而是製程嚴重落後才使其如此臃腫。
伺服器市場崛起的x86陣營與衰老的RISC諸神
今日一提到「大晶片」,一般人會馬上想到的,不外乎高階伺服器處理器或旗艦級GPU。1995年11月1日和世人正式見面的英特爾Pentium Pro,不僅替x86敲開伺服器天堂大門,更替RISC諸神敲響黃昏喪鐘。
Pentium Pro採用多晶片封裝(MCM,Multi-Chip Module),包含一顆處理器核心與第二級Cache儲存器,分別用不同製程的核心與Cache,配出六種產品規格,也理所當然是當時最高檔也最先進的x86處理器,心臟P6微架構也讓英特爾維持近四年的技術優勢。
▲ 英特爾Pentium Pro 1MB L2(總面積680平方毫米,0.35μm製程)。
覺得英特爾Pentium Pro不夠大顆?就得搬出Cyrix 6×86「M1」了,最初量產前測試版竟多達394平方毫米(0.65μm,三層金屬導線),比初代Pentium還大,預估製造成本高達340美元,根本就貴到保證虧錢,所以實際上市的量產版改成五層導線的IBM CMOS-5S製程(同PowerPC 620),才縮小到225平方毫米,但還是比英特爾AMD同期產品肥大許多,也意味更低的利潤。
總而言之,隨著個人電腦市場的快速發展與對低端電腦的需求,所有x86處理器廠商在20世紀末期,都很嚴格控制晶片「體重」,唯一例外是整合2MB第二級Cache、面積385平方毫米的英特爾Pentium III Xeon「Cascade 2M」。對x86處理器發展史和英特爾自己,這顆都意義重大,建立起「英特爾(與其他處理器廠商)的最重要業務,不是生產處理器核心,而是Cache儲存器」的刻板印象。
▲ 英特爾Pentium III Xeon「Cascade 2M」(面積385平方毫米,0.18μm製程)。
順便一題,AMD在K7時期曾計劃推出內建2MB L2 Cache的Mustang(野馬),目標也是伺服器市場,但因K8即將到來而取消,否則也很可能是顆不小的晶片。
再瞧瞧20世紀末期的主流x86處理器廠商「御三家」,「空照圖」最顯眼的那顆,皆為同系列的第一版。
不可思議的巨大L1 Cache儲存器:HP PA-RISC家族
說到1990年代高階伺服器市場叱吒風雲的「RISC諸神」(IBM Power、Sun / Fujitsu SPARC、DEC Alpha、SGI MIPS、HP PA-RISC),最不出風頭的HP PA-RISC,容量大到不可思議的L1 Cache儲存器,值得特別拿出來跟各位分享。
1991年PA-7000就內建分別多達256kB的第一級指令與資料Cache,1992年PA-7100更是驚世駭俗的「1MB指令和2MB資料」,把第一級當成第二級甚至第三級來做,後繼家族成員幾乎都如法炮製。
照理說,越接近處理器運算核心的Cache,須盡其所能縮短延遲,所以容量不能太大,讓多層Cache儲存器形同某座「金字塔」,不禁讓人不得不好奇HP的考慮點,難道HP-UX作業系統常用的應用程式,是隻要一碰到系統主儲存器,效能就會馬上火燒摩天樓的那種?
▲ HP PA-7100 (面積196平方毫米,0.8μm製程)。
被Itanium「不徹底取代」的HP PA-RISC家族,除了很神奇的PA-7100LC(沒有L1資料,L1指令只有1kB,完全靠外部L2)和整合8MB L2的PA-7300LC,清一色都是超大型L1的詭異存在,晶粒面積也略大於同期的「RISC同儕」。但這和踏入21世紀後的「恐龍」相比,還是完全小巫見大巫。
就讓我們再次回顧20世紀末期的RISC諸神家族最大那顆。當然,這裡只挑單晶粒產品。各位也能從比較表感受到不同廠商「底力」的差距。
但英特爾與HP聯手開發IA-64指令集與Itanium處理器,企圖一統RISC與高階伺服器江山,卻意外引爆21世紀初期「巨獸化」。如果你是鋼彈迷,說當時是「宇宙世紀0087」,或聽過什麼是ZZ Gundam還是S Gundam,大概也猜得到筆者想表達的意思了。真糟糕,這年頭寫個專欄還會不小心暴露大家的年紀。
64位元普及化的影響
如果說引起第一次世界大戰的背後因素來自工業革命影響,那21世紀初期引爆巨大化泛用處理器的根源,就是64位元普及了。1990年代,64位元清一色都是RISC諸神的專利,也成為x86難以越過的天險。
你也許會覺得納悶:64位元跟CPU肥大化根本八竿子打不著,但假若有某間「半導體業界第一大廠」想趁機打垮「RISC諸神」,一口氣吃下所有高階伺服器市場,企圖仰仗Cache儲存器的技術優勢,殲滅所有競爭對手,那又是另一回事。
微軟暗助下,AMD推動x86-64更逼出英特爾的底力,不管IA-64指令集的Itanium和x86指令集的Xeon,英特爾陸續創造無數彷彿「Cache儲存器不用錢」的世界奇觀,讓晶粒面積突然一飛沖天,令人歎為觀止。
「Itanic」觀光郵輪的歡樂旅程
最後,這艘載滿眾多放棄自有研製處理器伺服器大廠的觀光郵輪還是沉沒了,還拖Alpha、PA-RISC與MIPS一同殉情,只留下超大型Cache儲存器的經驗,讓英特爾x86處理器繼續發揚光大到今天。
指令集為電腦「語言」,軟體與硬體間的介面,眾所皆知,80×86是很糟糕的設計,不限於撰寫教科書的計算機結構大師和眾多競爭者的批評,連創造80×86的生父英特爾也不很欣賞這先天不足又後天失調的子嗣。1980年代如雨後春筍一個個鑽出泥土的RISC(精簡指令集電腦)和企圖將複雜度從硬體轉移到軟體的VLIW(超長指令集),風潮也影響到渴望進軍伺服器市場的英特爾。
併購1980年代VLIW技術先驅Multiflow和Cydrome的HP,1989年啟動VLIW化PA-RISC指令集(沒錯,就是前面提到那票L1Cache大到誇張的家族)研發案,1994年和英特爾一拍既合,目標取代x86的IA-64指令集與相對應的Itanium處理器,就此展開。
以下就是英特爾對IA-64的原始期待:不只在2002年,就在伺服器市場橫掃所有RISC家族、市場規模達300億美元,更要進入桌上型市場,2005年就徹底取代80×86。現在看來不可思議,當時卻著毋庸議,不可質疑。世人普遍看好英特爾的原因也很簡單:相比其他廠商,英特爾更有充沛的研發資源穩定推出新產品。
Itanium先以高階伺服器為市場切入點,英特爾理所當然找來一堆人幫忙站臺造勢,且宣稱享有比當時RISC體系(MIPS、Alpha、SPARC、PA-RISC、Power) 更廣泛的業界支援。
但預定1998年上市的初代Itanium處理器「Merced」,卻因英特爾與HP合作模式的種種問題(為了保密而在辦公室設「隔離防火牆」之類),拖延至2001年才出現。光從失控的芯片面積和耗電量,各位就可輕易看出此專案失控的程度有多嚴重。更諷刺的是,操刀Merced設計的團隊,還位於英特爾加州Santa Clara總部。
▲ 英特爾Itanium「Merced」(面積300平方毫米,180納米制程,4MB第三級Cache儲存器)。
Itanium隨即被外界揶揄為「Itanic」,比喻為當年撞上冰山沉沒的Titanic郵輪,直到2002年,前HP團隊負責的Itanium 2才勉強站穩腳跟,原訂2005年卻延誤到2006年的雙核心Itanium 2「Montecito」,讓英特爾寄以厚望的旗艦處理器,總算有勉強跟當時王者IBM Power5+一拼的能耐。
但Itanium處理器需要特別大的Cache儲存器,並非單純要「善用晶圓空間」,而是IA-64指令集的諸多特性,使程式碼體積是x86指令集3.7~4.8倍,意味需要更巨大的儲存器頻寬,Cache儲存器的容量就對提升效能頗具立竿見影之效。以「實際算第一個上市產品」的Itanium 2「McKinley」來說,就包含3MB的第三級Cache儲存器。
▲ Itanium 2「McKinley」(面積421平方毫米,180納米制程,3MB第三級Cache儲存器)。
這還不打緊,英特爾和HP繼續再接再厲,130納米制程微縮款Madison 6M加倍到6MB。
▲ Itanium 2「Madison 6M」(面積374平方毫米,130納米制程,6MB第三級Cache儲存器)。
英特爾和HP並未停下腳步,很快又推出容量增加50%的Madison 9M,面積「重回」400平方毫米水準。
▲ Itanium 2「Madison 9M」(面積432平方毫米,130納米制程,9MB第三級Cache儲存器)。
更可怕的要來了:雙核Itanium 2「Montecito」,每個核心各自擁有12MB第三級Cache,總量高達24MB,整顆處理器的電晶體總量達17億2千萬歷史新高,充分反應至596平方毫米的驚人尺寸。同時期的90納米制程AMD雙核Opteron(Rev F,2MB第三級Cache) 也不過230平方毫米。
▲ Itanium 2「Montecito」(面積596平方毫米,90納米制程,24MB第三級Cache儲存器)。
英特爾和HP就衝Cache儲存器「賽豬公」衝上癮了,應由昔日DEC Alpha研發團隊操刀的四核心Itanium 9300「Tukwila」,讓芯片面積直逼700平方毫米大關。
▲ Itanium 9300「Tukwila」(面積698.75平方毫米,65納米制程,24MB第三級Cache儲存器)。
但這顆曾寄予厚望、整合Itanium和Xeon系統平臺架構的象徵,姍姍來遲至2010年,而「兄弟登山,各自努力」的英特爾x86處理器研發團隊,分別在2006年和2008年推出Xeon MP 「Tulsa」(雙核,16MB L3)和「Dunnington」(六核,9MB L2,16MB L3),也完成8核心Nehalem-EX Beckton,同樣具備24MB第三級Cache,並擁有更多核心、更先進的45納米制程、同等級的648平方毫米,意味進攻高階伺服器市場不再是Itanium的專利。
▲ Xeon 6500 / 7500 Nehalem-EX(Beckton,面積648平方毫米,45納米制程,24MB第三級Cache儲存器)。
微軟緊接在2005年「追隨」HP終止Itanium工作站專用的Windows作業系統還不打緊,2010年宣佈「快速發展的x86伺服器,同樣也可做到高階伺服器的延展性與穩定性,因此停止發展Itanium版本Windows作業系統與相關應用程式」。
這刀極度致命,註定Itanium終究只是「HP御用」的高階RISC處理器,絕無憑藉Windows作業系統的親民性、逐步延伸到中低階市場的契機,更不可能激增出貨量,頂多使其成為英特爾站穩高階伺服器市場的精神象徵,與優先匯入先進技術(像高可靠性與大型化的Cache儲存器) 的驗證載具。併購Sun的甲骨文2011年「錦上添花」再補一刀,搞到跟HP對簿公堂,讓Itanium生態圈陷入無可挽救的絕境。
所以2012年,由DEC Alpha團隊負責、集歷代技術大成的8核心Itanium 9500「Poulson」,就成為英特爾「欽定64位元真命天子」的絕響,2017年的Itanium 9700「Kittson」僅換湯不換藥、連製程都不升級的小改版(晶粒照片也如同一個模子刻出來,看不出明顯差別),存在目的僅為了維持現有高階伺服器客戶的保證供貨期。
▲ Itanium 9500「Poulson」(面積544平方毫米,32納米制程,32MB第三級Cache儲存器)。
當英特爾x86處理器的鐘擺(Tick Tock)巨輪順暢運轉時,輾壓的不只AMD與苟延殘喘的RISC諸神,更包含自家Itanium。2011年4月Xeon E7-x8xx系列「Westmere-EX」,帶來10核心與30MB第三級Cache,替這場勞民傷財的「內戰」劃下悲慘的休止符。
▲ Xeon E7-x8xx「Westmere-EX」(面積513平方毫米,32納米制程,30MB第三級Cache儲存器)。
看到這裡,想必各位會好奇這時候的AMD到底在幹麼。事實上,可能基於研發資源有限,伺服器、桌機和筆電須共用晶粒的關係,AMD從來沒有動過「把晶片搞大」的腦筋。自從Zen時代來臨,大玩Chiplet「包水餃」的AMD就更沒有這樣做的動機和理由了。
以下同場加映「鐘擺期」(2011~2017年),發揮絕對製程優勢,徹底壓垮AMD的英特爾x86巨獸。
後來我們也都知道,物極必反,英特爾大晶片策略被AMD多晶片Chiplet反將一軍,搞到英特爾也得東施效顰類似路線。前陣子英特爾執行長Pat Gelsinger直言「英特爾十年來的錯誤政策導致今日結果,並指出問題不會一夕之間解決」,筆者滿好奇是否包含鐘擺時代的巨獸就是了。
「RISC諸神」也沒閒著,聽說還有「CISC精靈」?
基於商業層面考慮,設定將「一統RISC伺服器江湖」的Itanium「不得不」消滅Alpha、PA-RISC與MIPS,且因一連串陰錯陽差,連自己都消滅了,讓英特爾重回集中全力研發x86處理器老路。但IBM、Sun與Fujitsu可不吃英特爾那套(好吧,Fujitsu一度劈腿做出Prime Quest),繼續打造自家高效能處理器,並在「增肥」方面功力不遑多讓。
檢視這些「殘黨」21世紀的豐功偉業前,我們絕不能錯過「藍色巨人」IBM那顆在計算機工業史上極具盛名的「首顆原生雙核心伺服器處理器」Power4,開掛「SMT(同時多執行緒)與整合型儲存器控制器」的後繼者Power5,以及直衝5GHz時鐘頻率大關的Power6。
1999年底披露、2001年上市的Power4(代號Regatta),不僅相容IBM所有商用RISC指令集(RS/6000、AS/400、PowerPC),也有大量個人電腦無緣一親芳澤的尖端技術,說這不是被英特爾逼出來的絕對騙人。
Regatta字面原意為「兩艘並行的船隻」,實際卻包含多個意涵,除了代表IBM在Unix伺服器市場的兩大競爭對手Sun和HP,意指Power4雙核心。另外,IBM將四顆Power4晶片和四顆32MBCache儲存器封裝成一顆多晶片封裝模組(MCM),就可實現8處理器核心和多達128MB的第三級Cache。
姑且不論半導體制程發展,AMD一向跟IBM走得很近早就不是新聞(包含Lisa Su,AMD高層滿滿一票老IBM人),筆者當時就常開玩笑說為何AMD總是跟著IBM屁股走,時過境遷,似乎印證筆者的玩笑話似乎所言不虛。
▲ IBM Power4「Regatta」(面積412平方毫米,180納米制程,2.82MBL2 Cache儲存器)。
接著就是告訴全世界「SMT(同時多執行緒) 結合整合式儲存器控制器究竟有多可怕」的IBM Power5「Squadron」(戰鬥部隊)。讓IBM在2004年夏天高階伺服器市場上演前無古人後無來者的「效能大屠殺」。Power6更是讓IBM「逆風而行」展開追求超高時鐘頻率的追逐戰。
- TPC-C:16顆Power5的p5-570,足以抗衡「64顆」英特爾Itanium 2的HP Integrity SuperDome。
- SAP SD-2 Tier:8顆Power5勝過「32顆」Itanium 2和「36顆」Sun UltraSPARC IV。
- SPEC CPU 2000:Power5一舉創下浮點專案的歷史新高,單核心效能更是英特爾Itanium 2的「兩倍」。
- 更扯的還在後面:2004年11月p5-595(32顆Power5),創下TPC-C世界紀錄,效能相當於「二、三、四名總和」,和同級產品相比,不是人家兩倍三倍,就是四倍五倍,甚至快要六倍。
簡而言之,就是「一個核心打對方兩個還有剩」概念。剛從DEC Alpha繼承CPU效能王冠的IBM Power,就是這麼厲害。所以也請各位讀者原諒筆者對蘋果M1的表現竟如此無感,論這種橫掃千軍的「王者氣質」,現在的蘋果還差遠了。
▲ IBM Power5「Squadron」(面積389平方毫米,130納米制程,3.75MB L2 Cache儲存器)。
因此IBM Power也成為RISC諸神中,唯一能跟x86雙雄激戰到最後一刻的那位,即使論純粹的理論運算效能,IBM也漸漸無力抗衡x86雙雄的壓倒性核心數量優勢,僅能仰仗極完整的軟硬體解決方案、高不可攀的高階功能與眾多老客戶對藍色巨人的長期信賴。
這就不得不提IBM的某項獨門絕技:和處理器核心「送做堆」的超高容量eDRAM(嵌入式DRAM),這也是IBM自從Power7之後的「晶粒增肥器」。一般來說,我們都知道一個SRAM儲存位元需要6個電晶體(也有4個電晶體的特殊設計),而DRAM只要一個,後者更容易實做出更高容量(缺點是存取延遲)。但天底下沒有白吃的午餐,把邏輯製程的處理器核心和DRAM做在一起,無論電路設計和製程工序,都帶來更麻煩的艱鉅挑戰。
這就剛好是IBM的特長,不限於高階伺服器的Power,從2004年的世界最快超級電腦IBM BlueGene / L採用的特化版雙核PowerPC 440,就內建4MB的eDRAM為第三級Cache儲存器。家用遊戲機領域,亦不缺eDRAM的身影,Sony PlayStation 2的繪圖核心Graphics Synthesizer(GS),塞入4MB eDRAM。PlayStation Portable(PSP)用了4MB,微軟Xbox 360用了10MB。任天堂Wii U則高達32MB。以上全數出自IBM的傑作。
在此也談談IBM從Power9開始的另一項特技:兩個處理器核心(SMT4)可組成一個大核(SMT8),視不同應用情境,推出不同核心總數的產品。
講了這麼多,也差不多該好好端詳IBM Power家族的「相撲力士」。
但IBM高階伺服器處理器並不只有RISC的Power,還有歷史更悠久、如計算機工業歷史縮影的CISC大型主機(Mainframe),源自1964年「人類歷史上最大型商業產品開發計劃S/360」的Z系列處理器,只是沒有Power如此風光。
對IBM來說,這些「始祖精靈」後代對公司營收的重要性,還遠高於「看起來比較先進」的RISC先驅者,更罔論IBM有太多尖端科技,尤其涉及高可靠性和虛擬化的關鍵環節,還幾乎千篇一律,清一色從Z系列「下放」到Power。
所以趁這個機會,瞧瞧數十年來支撐無數金融保險業永不停機服務的心臟。這些年試圖將核心帳務系統遷出IBM大型主機「擁抱開放系統」的銀行IT升級案,好像也沒聽過幾個有好下場。
讓我們將目光轉向IBM最新型的z15。系統由兩種晶粒面積同為696平方毫米的巨無霸主晶片構成:12核中央處理器(CP,Central Processor)和嵌入960MB eDRAM的系統控制器(SC,System Controller),一個z15機箱包含四個CP和一個SC,總計有超過「2.4GB」的海量Cache儲存器容量。
換言之,由五個z15機箱組成的最大系統組態,包含240個處理器核心和12GB eDRAM,另外還有40TB主儲存器、60個PCIe Gen4 x16、192張I/O擴充卡與384個傳輸通道的擴充能力。以上種種誇張的規格,都是維持每個月公司薪資轉帳日時,銀行核心帳務系統能正常穩定運作的硬體根基。
從z15誇張到極點、將eDRAM揮灑到淋漓盡致的Cache儲存器階層,就不難想見System Z大型主機在IBM如同「皇冠上的寶石」之地位。
都寫到這步了,也請各位勉為其難陪筆者回頭看看近年z系列中央處理器。雖然z14和z15的中央處理器擁有相近製程和相同晶粒面積,但IBM卻借使用eDRAM實作L2 Cache儲存器,擠出更多電晶體空間,容納多出的兩個核心與倍增的第三級Cache儲存器。
說到大型主機,除了本家IBM,現在市場還有日本Fujitsu的GS(Global Server)21系列,但指令集相容性僅IBM ESA/390(31位元),並不包括64位元的z架構,所以跳過不談。
論打造巨無霸晶片,RISC諸神另一個苟延殘喘……呃,碩果僅存的SPARC陣營,Fujitsu和併購Sun的甲骨文,和IBM相比可謂不遑多讓,這次日本人還比美國人更猛。
兄弟一同登山、一起狂堆核心的SPARC陣營
看了這麼多美不勝收的晶粒圖,當下做出「高階處理器巨獸化的推手,容量快速膨脹的Cache儲存器絕對當之無愧」結論並不太困難。但俗語說的好,條條道路通羅馬,單一晶片狂堆多執行緒核心衝整體輸出量,也是另一種增胖芯片面積的途徑,而SPARC陣營雙雄Fujitsu和甲骨文也就誤打誤撞走上這方向。
之前筆者須請各位再次複習Sun在2004年倡議的「Throughput Computing」,背後動機說穿了就是「英特爾和AMD像賽亞人藉著互毆激增戰鬥力,老子無力陪你們玩了,乾脆在多執行緒另闢蹊徑,傳統高效能競技場就留給盟友Fujitsu傷腦筋吧」。關於SPARC處理器的發展歷史與脈絡,請各位多多參考筆者的舊文。
▲ Sun UltraSPARC T1「Niagara」(8核心32執行緒,面積340平方毫米,90納米制程,3MBL2 Cache儲存器)。
照2004年6月Sun與Fujitsu正式宣佈結盟的策略,這兩間要「兄弟登山,各自努力」截長補短,一邊「網站應用領域開闢多執行緒新藍海」,另一邊繼續「堅守把RISC伺服器做得像大型主機可靠」。
人算不如天算,Sun的UltraSPARC RK「Rock」,極具野心追求面面俱到的訴求,卻讓未來十幾年SPARC處理器兩邊長得越來越像,唯一差別僅Fujitsu極度重視高效能運算市場,會弄出SPARC64的特化版。
Sun 2005年揭露UltraSPARC RK時,對這顆兼具16個非循序執行(OOOE)且同時多執行緒(SMT)的怪物寄以厚望,雖然很可能因專案失控(還搞出2.0版)或250W高功耗,導致2010年被腰斬,但共享Cache儲存器的核心叢集(Core Cluster)概念,確立後繼Oracle SPARC處理器的「核心堆堆樂」。
▲ Sun UltraSPARC RK「Rock」(16核心32執行緒,面積396平方毫米,65納米制程,2MBL2 Cache儲存器)。
到頭來,SPARC M系列出現,也意味甲骨文想做Mission Critical的生意,正面跟盟友Fujitsu打對臺。甲骨文2017年兩次大裁員,砍光Solaris作業系統和SPARC處理器研發團隊,直接宣判「Sun本家」SPARC處理器死刑,註定日後只剩Fujitsu孤獨的走下去,也許看不到未來了也說不定。
筆者花了不少時間整理Fujitsu SPARC64家族,這些年來「小步快跑」規格演進,看完後也只能感慨「結果大家都長得越來越像,當初說好的彼此互補呢」?
這些年來,先後靠著「京」(K)與「富嶽」(Fugaku)稱霸Top500的Fujitsu非常重視超級電腦市場,SPARC64自然也有針對高效能運算的特化版。從兩者的差異性,各位或多或少也會感受到不同應用需求,是如何反應至這些處理器的規格。
Chiplet與先進封裝技術會中止恐龍化CPU嗎?
諸君,這些讓人眼花撩亂的規格,一路看下來,看到頭昏眼花了嗎?沒關係,就讓我們回到本文起點:蘋果M1 Max,再稍微分心到施展Chiplet策略四處攻城掠地的AMD,讓大腦稍微冷卻。
最近坊間小道訊息又傳出,蘋果下一代iMac Pro可能採用怪物級晶片「M1 Max Duo」,由兩個M1 Max組成,內建20核心CPU及最多64核心GPU,儲存器高達128GB,效能為目前晶片兩倍。還有傳聞指出,Mac Pro將推出採用四倍設計的「M1 Max Quadro」,意思就是包兩顆不夠,你可以包四顆。乍看之下似乎很像「多餡水餃」,也許M1 Max最底部那塊神秘的「不明功能區塊」,就是預留為連線多顆晶粒的超高速匯流排,要不然筆者左思右想,想破腦袋,也想不出其他更合理的解釋了。
你忘了嗎?就讓筆者再次提點各位,請看仔細一點。
就現在業界風向看,除非像IBM和Fujitsu幾乎完全不在乎成本和產能的玩法(反正羊毛就出在羊身上),看在先進製程產能大爆滿的份上,Chiplet小晶片結合各式各樣先進封裝技術,幾年內不太可能退流行,英特爾已確定將共襄盛舉,一再創造恐龍級GPU體型紀錄的Nvidia隨之跟進也不是太讓人意外的發展。過去十幾年動輒500~600平方毫米或更大顆的單一晶粒CPU,以後恐怕只會越來越罕見。
但行文至此,筆者不得不感慨,英特爾21世紀初期讓伺服器處理器走向大型化Cache路線,並激增核心數,不斷催生「天元突破」的晶粒面積。當時英特爾高層接受媒體訪問時(記得還是CNET)直言「大型化晶片有助消化過剩產能,有益無害」。現在英特爾人回顧這段話,絕對笑不出來,因為時下靠核心數和Cache儲存器容量活活壓死他們的就是AMD,還是採取「先講求不傷身體,再講求效果」的方法,令人不勝唏噓。