先溫習(xí)一下之前傳言的規(guī)格,GK110有15組SMX單元,每組有192個(gè)針對(duì)雙精度運(yùn)算而設(shè)計(jì)的CUDA核心,總計(jì)2880個(gè)CUDA核心,6組GDDR5顯存控制器,位寬384bit,1.5MB L2緩存,雙精度浮點(diǎn)性能達(dá)到了單精度浮點(diǎn)的1/3。
目前Tesla K20有兩款型號(hào),最高端的是K20X,擁有14組SMX單元,2688個(gè)CUDA核心,位寬384bit,搭配6GB GDDR5顯存,等效頻率5.2GHz。核心頻率為732MHz,單精度浮點(diǎn)性能為3.95TFLOPS,雙精度則為1.31TFLOPS,TDP功耗235W,使用TSMC 28nm工藝制造,售價(jià)不會(huì)低于3199美元。
K20X之下還有K20,規(guī)格有所降低,只有13組SMX單元,2496個(gè)CUDA核心,單/雙精度性能分別為3.52/1.17TFLOPS。顯存頻率也是5.2GHz但是精簡(jiǎn)掉一組顯存控制器,位寬320bit,搭配5GB GDDR5顯存,頻率也只有706MHz,TDP則為225W,看來K20的規(guī)格與之前泄漏的消息是一致的。
K20X與K20的關(guān)系與之前Fermi時(shí)代的M2090與M2075相似,前者主要用于高性能場(chǎng)合,同時(shí)功耗也會(huì)更高,后者性能略低,不過TDP也降低了。
它們都可以使用被動(dòng)散熱,因?yàn)榇笮陀?jì)算機(jī)的散熱手段靠的主要是機(jī)房/機(jī)柜的主動(dòng)散熱,而K20還有可能作為面向工作站設(shè)計(jì)的下一代Maximus平臺(tái)的Quadro顯卡,因此也會(huì)有主動(dòng)散熱的產(chǎn)品面世。
K20X及K20最大的變化當(dāng)屬性能方面,M2090的雙精度浮點(diǎn)性能只有655GFLOPS,而K20X達(dá)到了1.31TFLOPS,M2075的雙精度性能只有515GFLOPS,而準(zhǔn)備取代它的K20也有1.17TFLOPS,新出的兩款產(chǎn)品相比前代都有了成倍的性能提升。
不過在單精度和雙精度的比值卻有所下降,GK110的雙精度性能只有單精度的1/3,而Fermi架構(gòu)的雙精度性能是單精度的1/2,K20X的單精度浮點(diǎn)性能為3.95TFLOPS。
說到峰值FP32單精度性能,K20X依然不能取代4.5TFLOPS的Tesla K10,不過后者是基于兩個(gè)GK104核心的,缺少GK110架構(gòu)的部分關(guān)鍵性能,比如片內(nèi)ECC、HyperQ、Dynamic Parallelism動(dòng)態(tài)并行等技術(shù)。因此目前已經(jīng)使用K10的用戶沒必要升級(jí)到K20,只有那些對(duì)雙精度FP64性能有較高要求的用戶才有必要升級(jí)。
Tesla K20發(fā)布之后將會(huì)面對(duì)許多競(jìng)爭(zhēng)者,有新也有舊。宏觀層面來看,使用K20建設(shè)的HPC比如美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室的Titan超級(jí)計(jì)算機(jī)會(huì)面臨著IBM“藍(lán)色基因”等計(jì)算機(jī)的競(jìng)爭(zhēng),雖然Titan的性能早已大大超過后者。