Intel今天正式發佈了新一代服務器與工作站處理器,
包括面向雙路的Xeon E5-2600 v3系列(開發代號Haswell-EP)、
針對單路的Xeon E5-1600 v3系列,
帶來了史無前例的18核心36線程,
而桌面上的八核心Haswell-E Core i7-5900/5800系列不過是它們的小弟而已。
Intel宣稱,雙路配置的2600 v3已經創下了多達27項性能世界紀錄,
相比於上代提升最多達3倍。
增強的虛擬技術支持每台服務器構建最多95個虛擬機,比上代增多70%。
DDR4的引入使得內存性能提升最多1.4倍。
E5-2600 v3系列仍然採用22nm工藝製造,
集成最多56.9億個晶體管,內核面積662平方毫米,擁有最多18個核心、
45MB三級緩存,集成四通道DDR4內存控制器(官方最高頻率2133MHz)、
60條QPI通道、40條PCI-E 3.0通道、4條DMI通道。
正因如此,300毫米晶圓上只能切割出最多85個完整的內核,
再考慮到超大核心的良品率問題,以及競爭問題,不賣貴點才怪了。
這樣的面積,已經接近了45nm Nehalem-EX當年創紀錄的684平方毫米,x86架構世界中僅居第二。


18核心晶圓近照

18核心內核照片:6+4+4+4四列核心以及三級緩存清晰可見

這也是Xeon E5-2600的晶圓,但對應的是最小的內核,最多8個核心。桌面上的Haswell-E也是來源於此。感興趣和無聊的數數這一塊晶圓能切割出多少個內核吧。 
8核心內核照片:左右各4個核心

Xeon E5-2600 v3正面照:LGA2011-3封裝接口

正面照

正面照

背面照

E5-2600 v3、E5-1600 v3正面

E5-2600 v3、E5-1600 v3背面
和之前類似,Intel這次也不是一個內核走天下,而是設計了三種:
首先「HCC」,18個核心,4+4+4+6四列排放,三級緩存也因此分割成四塊,
晶體管、面積數據就是剛才說的,最低能閹割到14核心。
其次是「MCC」,12個核心,4+4+4三列排放,三級緩存分成三部分,
晶體管38.4億個,內核面積492平方毫米,最低能閹割到10核心。
最後是「LCC」,8個核心,4+4兩列排放,三級緩存分成兩部分,
晶體管26.0億個,內核面積354平方毫米,最低能閹割到4核心。
單路的1600 v3、桌面上的Haswell-E用的就都是這個版本,故均為原生八核心。

三種內核設計

18核心佈局

晶圓內核局部照

對比八核心的Haswell-E

Haswell-EP架構圖

18核心架構佈局圖

三種內核
E5-2600 v3系列總計有多達22款型號,但最終真正開放18個核心的只有一款,
那就是旗艦型號「Xeon E5-2699 v3」,主頻為2.3-2.6GHz,熱設計功耗高達145W。
相比之下,上代最多12核心、最高130W,看似更熱了,但是平均到每個核心上,
反而從接近11W降低到了8W,而且這是在工藝不變的情況下。
價格就要了親命了,4115美元(盒裝版下同),簡直是明搶,但沒辦法,人家有這個資本。
「Xeon E5-2698 v3」也有16核心32線程、40MB三級緩存,頻率2.3-3.6GHz,
熱設計功耗135W,售價同樣高達3226美元。
「Xeon E5-2697 v3」才是上代旗艦2697 v2的真正繼任者,
也增加了兩個核心而擁有14核心28線程、32MB三級緩存,主頻2.6-3.6GHz,
熱設計功耗145W,售價2702美元,比上代漲了88美元。
功耗最高的是「Xeon E5-2687W v3」,達到了160W,比前兩代類似型號增加了10W,
雖只有10核心(比前兩代也多了倆)但頻率高達3.1-3.5GHz,適合頻率敏感型應用。
節能版的有五款,最低的是「Xeon E5-2608L v3」,只有52W,6核心,主頻2GHz(不支持Turbo Boost)。
頻率最高的是「Xeon E5-2637 v3」,高達3.5-3.7GHz,但只有4個核心,TDP 135W。

E5-1600 v3系列有5款型號,其中兩款是八核心,
頂級的「Xeon E5-16080 v3」頻率達3.2-3.8GHz,熱設計功耗140W,
高於桌面旗艦i7-5960X 3-3.5GHz,價格也定在了1723美元之高。
同時還有兩款四核心,頻率都相當高,「Xeon E5-1620 v3」達到了3.7-3.8GHz,
「Xeon E5-1620 v3」則是3.5-3.6GHz,熱設計功耗因此都還是140W,價格分別為372、294美元。


兩代對比
芯片組搭配Intel 89xx系列,此外還有新的以太網控制器家族Intel XL710,
可支持10/10Gb以太網,帶寬兩倍於上一代,但功耗降低一半。


最後是合作夥伴炫耀時間:
Bull、Cray、思科、戴爾、富士通、日立、惠普、華為、IBM、浪潮、聯想、NEC、
甲骨文、廣達、Radisys、SGI、曙光、Supermicron……



【測試平台配置:雙路頂級對決】
測試平台是三台雙路服務器,
主角是Intel提供的參考設計方案「Wildcat Pass」,處理器可選四顆:
- Xeon E5-2699 v3 (18核心/45MB/2.3-3.6GHz/145W)
- Xeon E5-2695 v3 (14核心/35MB/2.3-3.3GHz/120W)
- Xeon E5-2667 v3 (8核心/20MB/3.2-3.6GHz/135W)
- Xeon E5-2650L v3 (12核心/30MB/1.8-2.5GHz/65W)
內存自然是DDR4-2133,都來自三星,並分為兩種規格:6GB×8 RDIMM、32GB×8 LRDIMM。
第二台是Supermicro 6027R-73DARF,處理器可選三顆,
包括兩顆Ivy Bridge-EP和一顆Sandy Bridge-EP:
- Xeon E5-2697 v2 (12核心/30MB/2.7-3.5GHz/130W)
- Xeon E5-2680 v2 (10核心/25MB/2.8-3.6GHz/115W)
- Xeon E5-2690 v1 (8核心/20MB/2.9-3.8GHz/135W)
內存是三星16GB×8 DDR3,頻率v2 1866MHz、v1 1600MHz。
AMD方面是Supermicro 1022G-URG,
配備兩顆Opteron 6376,均為8模塊16核心,主頻2.3-3.2GHz,
三級緩存16MB,熱設計功耗115W。
這並不是AMD最頂級的產品,旗艦是Opteron 6386 SE,
也是16核心,但頻率達2.8-3.5GHz,熱設計功耗140W。
搭配內存是三星8GB×8 DDR3-1600。
硬盤都是兩塊Intel SSD 710 200GB,但因為控制器問題沒有測試RAID模式。處理器節能技術全部開啟。
因為是服務器性質的測試,具體原理、影響我們就不過多深究了,
只是單純地看看圖表和數據,瞻仰一下18核心的威猛。

雙路Xeon E5-2600 v3服務器(Intel參考設計)

IVB-EP 2600 v2、Haswell-EP 2600 v3型號規格對比
【內存帶寬、延遲測試】 
DDR4的高帶寬優勢凸顯無疑,即便是在2133MHz的起步頻率上,
都比DDR3-1866增加了15-21%,對比DDR3-1600多了更是幾乎50%。
2699 v3、2695 v3火力全開的同時,2667 v3卻大失所望,成績和上代2697 v3完全相同,
這主要是它們其實是兩種內核,環形總線、內存控制器分佈設計不同所致,
前者有四條總線、兩個內存控制器。

LRDIMM、RDIMM帶寬對比,這個我們就不管了。 
三級緩存太大了真不見得就是好事兒。
2699 v3 45MB的延遲為20-32ns,2690 20MB則只有15-20ns,分別相當於大約90個、60個週期。
但這也不是全部,2667 v3 20MB就只比2690慢一點點,仍然快於2697 v2 30MB。

DDR4-2133的速度也遠遠不及三級緩存,後者要快三四倍。
另一方面,DDR4-2133的延遲似乎和DDR3-1866差不多,
因此如果前者頻率超過2400MHz,性能優勢將會徹底釋放。
【單、多線程性能測試】 
Intel這幾年很好地把握了核心、頻率之間的平衡,
結果就是單線程性能變化並不大在只需要一兩個核心全速運行的時候,
大家拼的除了架構(IPC),還有Turbo Boost頻率。
舉例來說,2690架構是老了,但是能持續加速到3.8GHz,
多出來的200MHz使之基本和2600 v3處於同一檔次。

解壓縮方面其實在倒退。2690勝在高頻率和低延遲,2600 v3則因為三級緩存、內存延遲相對較高而落敗。
當然,這也證明Intel的睿頻加速技術是很成功的,即便是在18核心和超大容量三級緩存的型號上,對服務器同樣大有裨益。 

真正體現18核心威力的時候終於到了!
除了節能版之外,性能基本與核心數量成正比,18核心2699 v3已經是8核心2690的整整兩倍!
Opteron 6376純粹是打醬油的,空有所謂16個核心,
但嚴格來說只是8模塊而已,連人家的8核心或者節能版12核心都遠遠不如,2690都能完虐之。
【應用性能測試】 
Linux內核編譯:內核編譯器對超多核心的支持一般並不好,
但是18核心2699 v3仍然明顯領先於14核心的小弟。
Haswell架構對整數核心的改進也起到了重要作用,8核心的2667 v3都足以幹掉12核心的2697 v2。
值得一提的是,前者無法在開啟所有核心時進行睿頻加速。
相比於SNB-EP,性能在差不多的頻率下更是提升了50%。 
SAP S&D:18核心及其45MB三級緩存再次稱霸,尤其是三級緩存容量對該項目很關鍵。 

Java服務器:2695 v3都能幹掉2697 v2,而二者功耗差不多,前者頻率更低,性能領先13%後者持平。 
Web性能:2600 v3全面領先,但是14/18核心的好處並不大,
尤其是後者幾乎沒帶來什麼額外提升,原因不在處理器,而在測試程序不足:
一是當前測試網站數據庫太小,二是還需要進一步調整網站以適應更多核心。


OpenFoam高性能計算:因為是AVX代碼,單線程性能完全看頻率,
多線程下18核心就只能仰視了,不過頻率仍然重要,2667 v3就因此追平了2695 v3。
【功耗、能耗比測試】 
待機功耗:2600 v3系列標準版都在100W左右,尤其是18核心的2699 v3,
如此大的芯片竟然可以控制得如此之好,而且別忘了工藝和上代同為22nm,並沒有變。
32nm 2690就不說了,核心最少,功耗最高。

100ms響應功耗:2600 v3系列儘管性能強悍很多,代價也不菲,功耗非常突出。 
Web能耗比:2695 v3憑藉足夠多的核心、足夠高的加速頻率,再次贏得掌聲,能效很高。
18核心的因為耗能太多,效率反而下來了。2650L v3作為節能版確實名副其實,12核心65W還是很不錯的。

高性能計算功耗:2699 v3電老虎再次發威,峰值功耗比待機時高了幾乎450W!
如果風扇算100W,那麼每路單顆處理器就是175W,即便這樣的測量並不精確,
還包括主板供電功耗,但仍然相當相當耗電。

高性能計算總能耗:低功耗版的2650L v3又贏了,而且贏得很輕鬆。
18核心雖然耗電大,但畢竟性能也擺在那裡,完成任務所需要的能量並不是很多。
32nm SNB-EP 2690徹底老了。
【小結】
測試了這麼多東西,究竟誰贏了?都沒有。
根據不同的環境、複雜,贏家也完全不同,多核心、高頻率的區分也不再那麼涇渭分明。
比如說內核編譯測試通常喜歡高頻率,但是18/14核心表現也不差,
因為Turbo Boost越來越成熟了,完全可以彌補原始主頻偏低的劣勢。
E5-2695 v3非常值得關注。在高端領域,它的核心、頻率、功耗比較均衡,
耗電不是特別猛,但性能很出色,在幾乎每個整數應用裡都能處於領先地位。
E5-2650L v3也是個明星,它是名副其實的節能版,同時性能也不差,能耗比很高。
2699 v3就是個超級電老虎了,比以前的旗艦更耗電,145W的熱設計功耗果然不是蓋的。
這再次證明,一旦超過130W,就是噩夢。
AMD?我們只能祈禱它撐過這兩年,所謂的全新架構能真正有點起色,別再來個推土機第二。
转载自:这里 本帖最后由 jollygoh 于 17-9-2014 09:44 AM 编辑
|