先溫習一下之前傳言的規格,GK110有15組SMX單元,每組有192個針對雙精度運算而設計的CUDA核心,總計2880個CUDA核心,6組GDDR5顯存控制器,位寬384bit,1.5MB L2緩存,雙精度浮點性能達到了單精度浮點的1/3。
目前Tesla K20有兩款型號,最高端的是K20X,擁有14組SMX單元,2688個CUDA核心,位寬384bit,搭配6GB GDDR5顯存,等效頻率5.2GHz。核心頻率為732MHz,單精度浮點性能為3.95TFLOPS,雙精度則為1.31TFLOPS,TDP功耗235W,使用TSMC 28nm工藝制造,售價不會低于3199美元。
K20X之下還有K20,規格有所降低,只有13組SMX單元,2496個CUDA核心,單/雙精度性能分別為3.52/1.17TFLOPS。顯存頻率也是5.2GHz但是精簡掉一組顯存控制器,位寬320bit,搭配5GB GDDR5顯存,頻率也只有706MHz,TDP則為225W,看來K20的規格與之前泄漏的消息是一致的。
K20X與K20的關系與之前Fermi時代的M2090與M2075相似,前者主要用于高性能場合,同時功耗也會更高,后者性能略低,不過TDP也降低了。
它們都可以使用被動散熱,因為大型計算機的散熱手段靠的主要是機房/機柜的主動散熱,而K20還有可能作為面向工作站設計的下一代Maximus平臺的Quadro顯卡,因此也會有主動散熱的產品面世。
K20X及K20最大的變化當屬性能方面,M2090的雙精度浮點性能只有655GFLOPS,而K20X達到了1.31TFLOPS,M2075的雙精度性能只有515GFLOPS,而準備取代它的K20也有1.17TFLOPS,新出的兩款產品相比前代都有了成倍的性能提升。
不過在單精度和雙精度的比值卻有所下降,GK110的雙精度性能只有單精度的1/3,而Fermi架構的雙精度性能是單精度的1/2,K20X的單精度浮點性能為3.95TFLOPS。
說到峰值FP32單精度性能,K20X依然不能取代4.5TFLOPS的Tesla K10,不過后者是基于兩個GK104核心的,缺少GK110架構的部分關鍵性能,比如片內ECC、HyperQ、Dynamic Parallelism動態并行等技術。因此目前已經使用K10的用戶沒必要升級到K20,只有那些對雙精度FP64性能有較高要求的用戶才有必要升級。
Tesla K20發布之后將會面對許多競爭者,有新也有舊。宏觀層面來看,使用K20建設的HPC比如美國橡樹嶺國家實驗室的Titan超級計算機會面臨著IBM“藍色基因”等計算機的競爭,雖然Titan的性能早已大大超過后者。