◆
自從2006年11月NVIDIA革命性統一架構(Unified Shader)的G80誕生以來,基于G8x核心的顯卡有8800GTX、8800GTS、8600 GTS、8600 GT、8500 GT、8400 GS、8800 Ultra,以G80為基礎的基于G9x核心的顯卡有8800GT、8800GTS 512、8800GS、9600GT、9800GX2,在18個月時間內,NVIDIA依靠成熟的G80架構,衍生出數代GPU產品,顯然這些產品都是換湯不換藥,簡單的改良設計加上規格上的增減,讓NVIDIA賺得盆滿缽滿。
NVIDIA的老大創建的所謂“黃氏定律”,聲稱將每六個月將產品升級一次,性能翻番,然而NVIDIA在過去的一年內略顯沉寂,我們一直期待有突破性的產品面世,直到今天,2008年6月16日,全新的NVIDIA GeForce GTX 200系列顯卡才在千呼萬喚中步入歷史舞臺。
|
GeForce GTX 200系列顯卡的GPU不僅使用了第二代的統一渲染架構,更加入了相比前代性能大有提升的并行計算架構。GTX 280的開發遵循著兩個原則即"Beyond Gaming"以及"Gaming Beyond"。
Beyond Gaming指的是GPU的架構目前已經進化到不僅僅只用來運算3D游戲的畫面。GPU面臨的工作不但有游戲,還包括了針對普通用戶和專家的非游戲密集運算型程序。
Gaming Beyond指GTX 200系列顯卡能夠發揮出驚人的畫面效果,帶來完全真實的畫面體驗以及細致的人物紋理,同時帶來準確的物理特效。
|
GTX 200新架構設計目標:
- 核心性能是8800GTX的兩倍;
- 為未來游戲使用的大量復雜shader以及顯存改變核心架構設計,讓其性能更加平衡;
- 改進架構內每瓦效能以及每平方毫米效能;
- 為DirectX10的特性而改變Geometry Shading以及Stream Out
- 提高特別為CUDA以及GPU物理運算(PhysX)而加強的運算性能。
- 改進電源管理能力,包括待機狀態下顯著減少的能源消耗。
![]() |
NVIDIA GeForce GTX 200系列顯卡有兩種型號,即全規格的GTX 280和稍低規格的GTX 260。
◆
GTX 200是首款使用NVIDIA第二代統一架構渲染及運算引擎的顯卡。對比GeForce 8或者9系顯卡,新架構能夠帶來約1.5倍的性能增長。
|
想必大家都記得GeForce 8系列以及GeFeforce 9系列的核心是基于一個可擴展處理器陣列(Scalable Processor Array,SPA)結構,GTX 200系列所用的是一個重新設計加強以及延展的SPA結構。
SPA結構里面包含了一些TPC單元,TPC的全稱根據用途的不同而有所不同。在圖形處理模式時它被稱為貼圖處理群(Texture Processing Cluster),而在并行計算模式時它被稱為線程處理群(Thread Processing Cluster)。每一個TPC包含了一定數量的流處理單元(Streaming multiprocessors,SMs),而每一個流處理單元內部又包含了8個流處理器核心(Stream Processors,SPs,或者thread Processors)。另外,每一個SM內部也包含了一定數量的紋理過濾處理器(Texture Filtering Processor),除了在3D圖形模式上有著很大的作用之外,在運算模式下也非常有用處,如大型圖像的放大縮小等等。
第二代統一渲染架構和G80以及G92所使用的第一代統一渲染架構相比,在兩方面有著巨大的進步。首先,每一個TPC內的SM數目從第一代的兩個增加至三個;第二是每一個GPU內的TPC從8個增加至10個(GTX 260為8個),TPC和SM數量上的增加直接導致了SP的數目增加至240個(GTX 260只有192個)。
|
GPU的處理核心SP基于傳統的處理器核心設計,能夠進行整數,浮點計算,邏輯運算等操作,從硬體設計上看就是一種完全為多線程設計的處理核心,擁有復數的管線平臺設計,完全勝任每線程處理單指令的工作。
GPU內的線程分成多種,包括像素、幾何以及運算三種不同的類型,在三維圖像處理模式下,大量的線程同時處理一個shader program以達到最大化的效率,所以GTX 200 GPU的核心內很大一部分面積都作為計算之用,和CPU上大部分面積都被緩存所占據有所不同,大約估計在CPU上有20%的晶體管是用作運算之用的,而(GTX 200)GPU上有80%的晶體管用作運算。GPU處理的首要目標是運算以及數據吞吐量,而CPU內部晶體管的首要目的是降低處理的延時以及保持管線繁忙,這也決定了GPU在密集型計算比起CPU來更有優勢。
從上面的GeForce GTX 280的圖形處理架構圖可以看到10個TPCs,每個TPCs包含了三個SMs,每個SMs又包含了8個流處理器核心,這樣流處理器核心總量達到了240個。
◆
·SIMT架構
NVIDIA的統一渲染以及運算架構使用了兩種不同的處理模式,在使用TPC執行指令時該模式被稱為MIMD(Multiple instruction multiple data),在使用每一個SM執行指令時,模式被稱為SIMT(single instruction, multiple thread)。
SIMT改進了純SIMD(single instruction, multiple data)設計,能夠同時保證性能以及可編程特性。在擁有可擴充性的同時,SIMT并沒有一個固定的矢量寬度(vector width),這使得在SIMT處理模式下,運算速度可以全速展開,完全和矢量寬度脫離關系。
相反,如果輸入信息較MIMD或SIMD寬度少的話,SIMD模式會開始低負載運作,SIMT保證所有流處理器能夠在任何使用都能夠被充分利用。在一個編程者的角度來看,SIMT同樣允許線程使用自己的路徑。由于分支機構(branching)是由硬件來控制的,所以并不需要在矢量寬度(vector width)內手動管理分支。
·同時支持大量線程
GTX 200系列顯卡的GPU能夠同時支持超過三萬個線程(thread),基于硬件的線程管理保證了所有流處理器核心能夠100%全部利用。核心架構的設計避免CPU內經常出現的延時問題:如果某個線程正在等待讀取緩存信息,那么GPU能夠實現一個完全即時沒有損耗的轉換,將另一個等待處理的線程交由空閑部分繼續處理。
SIMT多線程指令單元處在SM內部,能夠管理安排以及處理一組32個平行的線程,被稱為"warps"。前一代的GeForce 8或者GeForce 9 GPU每SM只能同時處理24個warps,而GTX 200系列顯卡的GPU能夠達到32warps/SM的效率。我們可以看到,憑借SM以及TPC數量的增多,可同時處理的線程數量也由GeForce 8和9系列的12888上升至30720個(1024*3*10=30720)。
·加大的寄存器組
和GeForce 8或9系產品相比,在GTX200系列顯卡中本地寄存器組的大小增加了一倍,在以往,寄存器組往往會因為過小導致信息必須轉存至顯存中,增大的寄存器組能夠允許顯卡更快速有效地處理大且復雜的shader。雖然寄存器組容量加大了,不過在核心die內這些額外的寄存器只占用了不多的些許面積。
現在的游戲越來越多地使用復雜的shader,需要更加大的寄存器組空間。
·改進的Dual Issue
在SM內部的特殊功能單元(Special Function Unit,SFU)負責超越數的運算,屬性插值(從一個原始的頂點屬性中解釋像素屬性,interpreting pixel attributes from a primitive vertex attributes),以及處理浮點MUL指令。GT200內每一個獨立的流處理核心都以幾乎全速的速度,用Dual issue的方法來運算:使用核心內部的MAD單元處理MADs(multiply add operations)以及MULs(3flops/SP),另外在同一時間也使用SFU單元來進行MUL運算。改進和直接的測試表明這種結構能夠帶來93%~94%的效率。
在GPU內部的所有特殊功能單元陣列能夠為顯卡帶來幾乎1Tflops的single -precision, IEEE 754浮點運算能力。
·支持雙精度浮點運算
在GTX 200核心架構內部有一個非常重要的新特點:支持double precision、64bit雙精度浮點運算。這對高端的科學工程以及金融運算更加有利,能夠為其帶來非常高精確度的結果,每一個SM內都有一個double-precision 64bit的浮點運算單元,整個芯片內總共有30個。
這些double precision單元能進行融合的MAD演算,完全兼容與IEEE 754R浮點運算規格。所有TPC內部的double precision性能幾乎等同與一個八核的XeonCPU,接近90Gflops。
·改進的紋理性能
8800GTX核心內部擁有8個TPC,允許進行每頻率內64像素的紋理過濾,每頻率32像素尋址,每頻率32像素的兩倍反鋸齒雙線性過濾(8bit整數)或者32-雙線性過濾像素(8bit整數或者16bit浮點),而GTX 200改進的紋理性能平衡了尋址能力和過濾能力。
·提高Shader to texture比例
由于游戲和其他圖形程序的需要,系統正在使用越來越多的復雜化shader,為了重新平衡顯卡的運算能力,GTX 200系列GPU的設計重新調整了Shader to texture的比例,通過在TPC內部增加1個SM讓Shader to texture的比例上升了50%,這讓GTX 200系列顯卡在處理目前以及將來的游戲時能夠更加有效率。
·ROP改進
GeForce 8系列的ROP系統支持multisampled,supersampled,透明適應以及Sampling抗鋸齒等功能,對于GTX 200同樣支持這些特性,ROP單元數量由6個增加到8個之外,總的ROPs數達到32個,相對于G80每時鐘周期24像素的輸出和12像素的混合速度,GTX 200均提升至每時鐘周期32像素,更加有利于高分辨率以及AA環境中速度的提升。
·1GB的Framebuffer
現在的3D游戲采用了大量的紋理來提高畫面的真實度,例如用普通的map提高表面真實度,用立方map來增強反射效果,用高分辨率的perspective shadow map來模擬soft shadow。這些map使得渲染每一幀畫面都需要大量的顯存,而不像傳統的游戲,有base texture就可以了。另外,Deferred rendering引擎在multiple render時,需要有一個預先渲染圖片特性的過程,這意味著又需要額外的顯存,還有就是很耗顯存的反鋸齒技術,這些技術使得內存和帶寬的需求都大大高于以前。
Geforce GTX 280和GTX 260分別支持1024MB和896MB的Framebuffer,是上一代顯卡的兩倍。1GB顯存將使高分辨率的反鋸齒能力得到提升。
·幾何shading和stream out
比起上一代顯卡,GTX 200將內部緩存輸出結構提高了6倍,使幾何渲染和stream out的速度大大提升。
·512bit顯存接口
GTX 200的最大顯存帶寬從原來的384bit提高到了512bit,擁有8個64-bit-wide FrameBuffer單元,為了使texture單元在被有效利用的同時,又不會出現不足,FreamBuffer帶寬需要反復調整達到最佳,NVIDIA的工程師測試了許多應用程序,最終達到了這個目的。
GTX 200 GPu的framebuffer總效率得到了提高,為了支持更高速度的顯存,重新設計了framebuffer重要的path,使得顯卡最高能支持到1.1GHz的DDR3顯存,內存的存取模式和緩存算法也都得到了改良。另外硬件壓縮加大了數據傳輸率,而實際上是增加了framebuffer帶寬,也提升了顯卡在高分辨率下的性能。
◆
前面說過,GTX 200不再僅是一塊娛樂級的顯卡,開始注重非游戲的密集型計算任務,這也是GTX 200與以往GPU最大的不同,GTX 200的并行計算架構為NVIDIA倡導的GPU Computing打下了堅實基礎。
|
上圖展示了GTX 280在并行運算模式下的架構,一個硬件級別的線程管理器在最上方,管理著TPC所處理的不同線程。除此以外你還可以輕易發現在在并行運算架構下該圖還包括了紋理緩存和顯存位寬單元(memory interface unit)。紋理緩存用以和顯存相結合,提高緩存的讀取效率,加大帶寬和加快讀寫速度。“Atomic”單元能夠執行顯存的讀取-改動-寫入操作,該單元能夠提供到顯存位置的granular access,幫助減少并行運算數據存儲量以及數據存儲管理。
|
一個TPC(Thread Processing Cluster)在并行計算模式下的結構如上圖,可以看見每三個SMs內都有一個邏輯的16k大小的共享緩存,每一個流處理器核心都能夠和SM內的其他核心共享信息,省下了從外部緩存系統中讀取信息的時間,這種設計大大加快了處理器的運算速度,同時提高了各種算法的效率。
在并行計算模式下,Streaming Processor稱之為Thread Processor(線程處理器),仍然是前代的標量設計,即1MAD+2SFU,因此對于GTX 280來說,其浮點運算能力達到了933GFLOPs(3*1296*240=933120),幾乎是Intel四核處理器9650的十倍之多,意味著GPU在浮點運算中有得天獨厚的優勢。
◆
|
·GPU+CPU異構運算概述
異構運算(heterogeneous computing)的想法是這樣的,通過使用計算機上的主要處理器,如CPU以及GPU來讓程序得到更高的運算性能。一般來說,CPU由于在分支處理以及隨機內存讀取方面有優勢,在處理串聯工作方面是好手。在另一方面,GPU由于其特殊的核心設計,在處理大量有浮點運算的并行運算時候有著天然的優勢。完全使用計算機性能實際上就是使用CPU來做串聯工作,而GPU負責并行運算,簡單來講,異構運算就是“使用合適的工具做合適的事情”。
那么什么程序是以串聯工作為主而什么程序又是以并行的運算為主呢?其實只有很少很少的程序使用純粹的串聯或者并行的,大部分程序同時需要兩種運算形式。編譯器、文字處理軟件、瀏覽器、e-mail客戶端等都是典型的串聯運算形式的程序。而視頻播放,視頻壓制,圖片處理,科學運算,物理模擬以及3D圖形處理(Raytracing及光柵化)這類型的應用就是典型的并行處理程序。
CUDA是業界的首款并行運算語言,而且其非常普及化,目前有高達7千萬的PC用戶可以支持該語言,以下三大特點讓GTX 280能夠完全勝任并行運算:
·GPU運算架構:GTX280的核心是為并行運算所設計的,包含了各種有利于并行運算的特性,如共享緩存設計,Atomic操作以及雙精度浮點計算的支持。
·大量核心設計:具有240個運行在1.3GHz的微型核心,GTX280可以說是PC上進行浮點運算的利器。
·大型帶寬設計:由于數據的吞吐量大,圖形運算程序的效率被CPU上的帶寬瓶頸給卡住了,由于GTX280上有8個處于核心內部的顯存控制器,GTX 280的顯存帶寬能夠達到142GB/s,大量提高了基于顯卡的高清視頻壓縮、物理模擬以及圖像處理程序的效率。
·CUDA是什么?
|
CUDA(Compute Unified Device Architecture)是一個新的基礎架構,這個架構可以使用GPU來解決商業、工業以及科學方面的復雜計算問題。它是一個完整的GPGPU解決方案,提供了硬件的直接訪問接口,而不必像傳統方式一樣必須依賴圖形API接口來實現GPU的訪問。在架構上采用了一種全新的計算體系結構來使用GPU提供的硬件資源,從而給大規模的數據計算應用提供了一種比CPU更加強大的計算能力。CUDA采用C語言作為編程語言提供大量的高性能計算指令開發能力,使開發者能夠在GPU的強大計算能力的基礎上建立起一種效率更高的密集數據計算解決方案。
GPGPU使用圖形的API如DirectX或者OpenGL來進行運算,這將需要編程人員擁有大量的圖形API以及硬件相關技術。而且,編程架構也收到了隨機讀取寫入以及線程配合的限制。編寫并行運算的程序很復雜,因為它涉及到使用大量CPU作為同一個簇共同工作的問題。有的桌面程序由于比較難把單一線程的工作量分配給不同線程工作,需要減慢速度才能和多核CPU配合上,這是由于CPU本來就是一個串行的處理器,大量的CPU需要一個非常復雜的軟件與其相配合工作。
CUDA去除了這種需要手動管理平行處理的障礙,使用CUDA為基礎編寫的程序實際上仍然為一個串行的程序。
·核心架構:GPU VS CPU
- 設計目的:CPU核心設計是越快越好地處理處理線性指令。而GPU的核心設計為越快越好地同時處理多個流指令。
- 晶體管:CPU內使用的晶體管大部分被用來作成指令緩存,等待分配中心,硬件分支預測甚至是大型的核心內緩存。這些特性讓其在處理單線程任務時獲得高速的性能。GPU內大量的晶體管都被用作處理器陣列,多重線程處理部分,共享型緩存以及數個顯存管理器。這些特性并不能加速某個特定線程的處理速度,而是為了千百個線程同時運作,優化線程間通訊,以及保持高速顯存帶寬而設計的。
- 緩存:CPU使用緩存來減少與內存之間的延時問題。GPU使用緩存(或者軟件控制的共享緩存)來加大帶寬
- 延時管理:CPU使用大緩存和分支預測部分來處理CPU和其他部分之間的延時。這使用了大量的核心空間,同樣也導致了能源消耗量大的問題。GPU利用同時處理大量線程的優勢來解決延時問題。如果某個線程正在等待從顯存返回的信息,GPU能夠將其立刻轉向處理其他信息,中間不消耗任何時間差。
- 多線程處理:CPU的每一個核心支持單線程或者雙線程。而支持CUDA的GPU內每一個SM(Streaming multiprocessor)都支持多達1024個線程。所以在切換線程的時候GPU是無需浪費額外的運算時間。
- SIMD VS SIMT:CPU使用SIMD(single instruction, multiple data)單元來進行向量處理。而GPU使用SIMT(single instruction multiple thread)來進行可拓展的線程處理,SIMT并不需要編程者來把信息轉換成向量處理所需的形式而且它也允許線程的任意分支。
- 顯存控制器:Intel CPU 目前并沒有將內存控制器整合到核心內,而支持CUDA的GPU整合了8個核心內的顯存控制器,如此一來和CPU相比GPU就擁有了多達10倍的內存/顯存帶寬。
|
NVIDIA正是想憑借GTX 200強大的計算能力以及CUDA這個架構,將計算機轉變成一個以GPU為計算中心的平臺。
◆
現在的PhysX物理加速技術廣泛應用于超過150款的游戲中,并在各個領域有超過1萬名開發者在使用,可支持各種游戲平臺。
|
今年2月NVIDIA收購了物理加速處理器廠商Ageia,將這一頗有前途的技術收歸囊中,顯然PhysX物理加速技術自然會逐漸融入到NVIDIA的產品中,NVIDIA在其后稱他們正在努力將物理引擎移植到CUDA架構中。全新的GTX 200系列成為NVIDIA高調宣傳支持PhysX技術的顯卡。
當PhysX結合驚人的GPU并行計算能力,可以提供一個指數倍增的物理處理效能,同時將游戲帶入另一個全新的境界,提供各種豐富具有臨場感的物理物效游戲場境。
|
不過目前的驅動還不支持PhysX,NVIDIA承諾在近一兩周內會推出新的驅動以支持PhysX技術,到時游戲玩家就能通過NVIDIA顯卡來進行物理加速,而需要調用CPU資源的Havok物理加速引擎將會面臨NVIDIA PhysX的挑戰。
|
◆
自G80架構出現之后,NVIDIA放棄了原先GPU中2D、3D頻率的區分,無論什么情況下,GPU的頻率都是恒定不變的,這種狀況一直延續到GeForce GTX 200誕生之前(之前我們評測過的GeForce 9500GT也具有2D/3D頻率之分,但9500GT是還未發布的產品)。
而NVIDIA的對手AMD在ATI Radeon HD 3800系列時開始引入Powerplay節能技術,這種技術有助于在GPU空閑或少量使用的狀態下減少電量消耗,從而達到降噪節能的目的,也成為AMD顯卡的一大賣點,放棄了2D/3D頻率之分的NVIDIA顯卡顯然在這一點上有些吃虧。
到了GTX 200系列,NVIDIA重新引入了電源管理機制,GTX 200 GPU內置了比以往的GPU更動態、更靈活的電源管理,包括4種新的供電模式:
·待機/2D供電模式(約25w)
·藍光高清回放模式(約35W)
·全3D模式(根據特定情況--最差情況下TDP236W)
·HybridPower模式(實際為0W)
使用支持Hybrid Power的nForce主板,譬如基于780a芯片組的主板,GTX200在系統處理非密集型圖形計算或者視頻輸出的時候可以完全關閉,將處理工作交給主板內置CPU, 在需要進行3D密集型計算功能時,NVIDIA的顯卡驅動可以無縫轉換到特定的獨立顯卡模式。
|
每一張GTX200GPU都內置了監控器,能夠即時監控到GPU內部的運行數據,之后給系統驅動發出不同的信號,GPU驅動則根據這些信號,動態地將顯卡調整至正確的運行模式(譬如,調整至特定的運行時鐘和電壓水平),將顯卡的耗電量降至最低--而這些步驟用戶都無須進行操作,完全自動。
不僅如此,GPU還內含時鐘控制電路,能有效地“關閉”特定時間段內(以每千分之一秒計算)未被使用的GPU內部電路區域,加強在非全速運行時減低GPU耗電量的功能。所有這些特色功能能讓GTX200顯卡實現峰值時的十分之一功耗(GTX280上約為25w),你所有的應用都能被包含在這個省電功能范圍內(譬如游戲,視頻回放,瀏覽網頁等等) 其他很多部分的GTX200管線都被重新設計以求更強的性能和減少多種數據處理的瓶頸。
對于GTX 280而言,其正常的核心/shader/顯存頻率應該為602/1296/1107MHz,在待機/2D模式(進行文檔處理、瀏覽網頁等)下,其頻率會下降到一個相當低的水平,為300/100/100MHz,有輕松的顯示負荷時,如播放高清視頻,則頻率會達到300/100/297MHz,只在在顯卡處于較高負荷時,才會在全頻率下運行,這樣的一種動態電源管理,大大地節省能源消耗。
◆
![]() |
![]() |
![]() |
![]() |
GTX 280與其它三塊頂級顯卡體積相當,整卡長度同樣是26.6cm,均是雙卡槽設計,不過風扇的進風口卻增大了,從9800 GTX的60mm直徑增大到了70mm直徑。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
◆
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
GTX 280的供電模塊與以往nVIDIA的高端顯卡大不相同,看不到以往那種大量電容矗立的情形,而采用了大量的陶瓷貼片電容,綜合性能更好。
![]() |
![]() |
![]() |
![]() |
![]() |
NVIO芯片最早出現于G80系列顯卡,雖然NVIO功能強大,但實際上G80采用90nm制造工藝,核心的晶體管數已經太多,只好將部分2D功能移出GPU。后來的G92由于采用65nm技術,NVIO芯片被整合到GPU核心。現在GTX 200核心晶體管數達到了14億,NVIO芯片又只好在外“露宿”了。NVIO芯片真正支持10bit每通道的色彩輸出能力,使顯卡實現TMDS和雙400MHz RAMDAC、雙Dual-Link XHD DVI輸出功能。
![]() |
◆
![]() |
整卡功耗達到236W的GTX 280對散熱器是一個嚴峻的考驗,不過初看起來,這個散熱器和9800GTX所用的并沒什么大不同,散熱面積也只有2000cm^2左右,不過仔細端詳之后,你會發現GTX 280散熱器上的熱管達到了8根之多,這些熱管分別將熱量從銅底座導向散熱鰭片與外殼。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
◆
GTX 260相當于縮水版的GTX 280,TPC只有7個,SP總數為192個,顯存位寬為448bit,顯存容量只有896MB,核心/顯存頻率為576/999MHz。
![]() |
在產品外形上,GTX 260與GTX 280基本一致,只有一些細小的差別,如電源接口GTX 260只需要2個6-pin的PCIE電源接口就可以了,并沒有工作狀態指示燈。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
GTX 260的顯存同樣是hynix H5RS5223CFR系列,不同的是,GTX 260顯存的系列號為N0C,Hynix規定其額定頻率只有1000MHz,而NVIDIA規定GTX 260顯存工作頻率正是1000MHz;另一方面,GTX 280顯存的系列號為N2C,額定工作頻率為1200MHz,這意味著GTX 260的超頻空間將不如GTX 280大。
此外,GTX 260共14顆GDDR3芯片,顯存容量為64MBx14=896MB,少于GTX 280的1GB。
![]() |
![]() |
◆
GTX 280在高清回放上并沒有作什么特別改進,還是延用了G9X系列的VP2引擎。我們對GTX 280的高清回放性能作了簡單測試,為了更好體現它的硬件解碼能力,選用了低端的Intel Celeron 460處理器(2.4GHz,12*200MHz),這樣可以較合理地測試顯卡播放高清視頻的能力。
測試片源選用了Remux格式的3部高清視頻,分別是采用VC-1視頻編碼的DEJAVU(時空線索)、H264/AVC編碼的X-MAN3(X戰警3)、MPEG-2編碼的Pioneer_DEMO2006(先鋒演示),三大編碼齊全。
![]() |
從CPU占用率可以看出,NVIDIA GeForce GTX 280與NVIDIA其它G9x芯片處于同一水準,具備完整的H.264硬件加速功能,對VC-1編碼的視頻解碼還稍有欠缺,對MPEG2編碼,因為其編碼相對較簡單,目前NVIDIA和AMD都是使用了選擇性硬解碼,因此CPU占用率也比較高。
實際應用中,與GTX 280這樣高端顯卡搭配的應該是高端的CPU,因此CPU占用率并沒有我們測試的數據這么夸張,比如用QX9650 CPU時,播放VC-1編碼視頻時,CPU占用率一般只在5%左右,這也是NVIDA一直不在高端顯卡中加入全VC-1硬解碼的VP3引擎的原因,在高端平臺中,VP2足夠了。
◆
從前面我們知道,GTX200系列GPU內置了比以往的GPU更動態更靈活的電力控制機制,按NVIDIA官方的資料來說,在待機時整卡功耗只有25W,全3D模式下最多236W,而236W是NVIDIA顯卡有史以來最高的功耗(整卡功耗,不單指GPU),看來14億個晶體管和1GB的顯存并非只是用來看的,發熱量隨之“茁壯成長”,按著NVIDIA提供的數據,搭建GTX 280平臺至少需要550W的電源,如果組成SLI系統,則電源要求達到750W。
來看看在實際應用中,GTX 280新的電力管理有什么作用,高負荷下功耗又會達到多少。
測試時所有顯卡均為零售產品、默認頻率以及使用原裝散熱器。我們利用Brenenstuhl功耗測試儀記錄了實際功耗值,請注意這個成績指的是整機功耗,而不是獨立的顯卡功耗,由于平臺一致,所以數據是具有參考價值的。
成績分兩種模式獲得,一個是在操作系統內待機15分鐘,另外一個是使用ATITOOL進行Show 3D View,讓顯卡在高負荷下運行,記錄它們穩定時的功率。
測試平臺:
Intel Core 2 Quad QX9650(400MHzX10)
Asustek MAXIMUS EXTREME
ADATA DDR3-1066 1GBx2
Seagate ES.2 500G
Evercool 大黃蜂 CPU Cooler
Silverstone DA750 PSU
可以看到,GTX 280的功耗可以用冰火兩重天來形容了,在待機時功耗比55nm制程且有“Powerplay”技術的Radeon HD 3870X2更低,僅有142W,足足低了9W,對比于同門的9800GX2(其最高整卡功耗197W),在待機下GTX 280的功耗優勢非常明顯,這完全取決于GTX200系列GPU中植入了先進的動態電力管理機制,比起對手的“Powerplay”似乎更勝一籌。
不過在全3D模式下,GTX 280的功耗劇增,非常之驚人,比起9800GX2和3870X2,分別高出58W和81W,功耗之王的盛名看來是非GeForce GTX 280莫屬。
◆
剛看到在高負荷下GTX 280的功耗確實驚人,GPU的溫度是不是也同樣驚人呢?
![]() |
在默認頻率下,運行ATITOOL Show 3D View時GPU的溫度比我們想象中要低,不過也有83℃,在以前測試中,8800 GTS 512MB在高負載時GPU溫度能達到81℃,因此對于GTX 280的發熱量不用過分擔心,目前的散熱器還是可以壓制得住的。
在比較空閑時,顯卡出風口的溫度約50℃,當顯卡處于高速運行狀態時,出風口的溫度也飆升到了60多度,在夏天你會覺得陣陣熱風襲來,冬天就好了,它會是很好的暖手工具。
在工作中風扇的噪音并不明顯,可以觀察到其轉速并不快,在高負荷時轉速會略有提高,噪音也是在可以接受的范圍內。
![]() |
可能是由于個體原因,測試用的這張顯卡核心頻率只能由602MHz超到655MHz,相應的shader頻率提升到1410MHz,顯存最高可以超到1253MHz(默認頻率為1107MHz,顯存的規格為1200MHz),可以說核心超頻能力并不高。我們另外收到的Zotac GeForce GTX 280 AMP顯卡,其默認核心頻率雖然達到了700MHz,但Shader頻率只有1400MHz,要知道光超核心頻率并沒有多大作用。
原裝散熱器勉強可以控制住GTX 280燃燒的芯,但想要更好的超頻和控制更低的溫度,更換第三方散熱器是必須的,目前來說,適用的散熱器還幾乎未見,要等上些時,不過已有廠商推出了水冷版的GTX 280。
![]() |
◆
進行測試的驅動都是目前最新的驅動程序,GeForce GTX 280使用的是Forceware 177.34 Beta驅動,從這個版本開始加入對CUDA的支持,而GeForce 9800GX2使用的是175.16 WHQL驅動,Radeon HD 3870X2則使用了最新的催化劑8.5版本。
具體的游戲設置,開啟了所有可以打開的特效,并設置為最好的效果,另外AA和AF均由游戲內建的情況決定,我們不使用驅動面板進行強制性驅動,對于沒有內建benchmark的游戲,采用Fraps來測試。
由于這次測試的顯卡都是最頂級的,因此只測試了1680*1050和1920*1200兩個分辨率下的成績。
◆
在GeForce GTX 280還未面世之前,GeForce 9800GX2是這個星球上最強的娛樂級顯卡,不過它是一塊“SLI”模式的雙GPU顯卡,兩者的價格也相當接近,9800GX2的參考價為$599(國內售價4999元),GTX 280的參考價為$649(國內參考售價4999元),面對規格高出很多的單GPU顯卡GTX 280,雙GPU的9800GX2還能保住性能王位嗎?
![]() |
作為三個月前發布的產品,9800GX2雖然延用了G80的第一代統一架構,但憑借雙GPU在2/5的測試項目中還是領先于GeForce GTX 280,當然更多的測試中,新一代架構的GTX 280還是取得優勢,有所有34項數據中,雙方互有長短,最終的結果是相對于9800GX2,GTX 280平均領先4%。
本是同根生,但GTX 280還是非常無情地將9800GX2趕下神壇,將性能王者的皇冠占為已有。
全面壓倒:GTX 280 vs Radeon HD 3870X2
◆
作為對手AMD目前最高端的產品Radeon HD 3870X2,GTX 280顯然也是有必要與之比較一下的,雖然我們都能料到是什么樣的結果。
這樣的結果是意料中的事,GTX 280全面壓倒Radeon HD 3870X2,在以前的GeForce 9800GX2的測試中,也有很相似的結果,不過是9800GX2換成了GTX 280,雙GPU換成了單GPU,可以看出NVIDIA在產品線上的一個大踏步前進。
◆
GTX 200系列顯卡可以支持2 Way/3 Way SLI,而參考價$399的GTX 260更適合組建SLI平臺,其SLI效率會如何呢?
![]() |
![]() |
由于時間關系,我們只能做一個簡單的測試,在3DMark Vantage Extreme模式下,GTX 260 SLI的效能提升達到了86.7%,非常可觀,關于這一點,我們將會繼續跟進做測試測試。
◆
Folding@home是美國史丹佛大學推動的分散式運算計劃,目的在于使用聯網式的計算方式和大量的分布式計算能力來模擬蛋白質折疊的過程,并指引對由折疊引起的疾病的一系列研究。ATI早在2006年就加入了這個計劃,最新的客戶端能支持Radeon HD 2000/3000系列顯卡,NVIDIA一直無緣這項可以說是全球最普及的顯卡通用計算應用。在上個月,NVIDIA宣布CUDA顯卡即將加入Folding@home計劃,NVIDIA表示,目前全球有7000萬塊CUDA顯卡(GeForce 8及以上及Quadro和Tesla系列),平均擁有100GFLOPS的浮點運算能力,如果這其中有0.1%參與Folding@Home,就能夠為該計劃帶來7PFLOPS的運算能力,遠遠高于全世界最強大的超級計算機(運算能力不足1PFLOPS)。
一直強調GPU Computing的GTX200系列首當其沖,我們拿到了利用CUDA開發的支持GTX200的Folding@home的客戶端,進行了簡單試用,在Forceware 177.34 beta驅動中開始加入了對CUDA的支持。
![]() |
Folding@Home是以ns/day來衡量性能的,我們看到GTX 280能提供570ns/day的計算能力,要注意的這只是截圖時的數據,實際上最后計算得到的結果是620ns/day。
作為對比,運行Folding@Home時,一顆四核心的CPU的計算能力為4ns/day,而Radeon HD3870的計算能力為170ns/day,可以看到擁用240個流處理器的GTX 280在這樣的密集式并行計算中有著具大優勢。
◆
利用CUDA實現GPU計算來為應用程序提速,Badaboom就是很好的一例,這是一款CUDA開發的視頻轉換軟件,可以把mpeg2的視頻轉換為ipod或者iphone這樣的所使用的H.264視頻格式。
![]() |
我們選取了一段碼率較高的MPEG2視頻,可以看到GTX 280的處理速度達到了80FPS左右,如果碼率較小,還可以達到100FPS以上甚至更高。328MB的MPEG2視頻轉換成17.4MB的iPhone可用的MP4視頻(640*365),只用了37s。
同樣的平臺下(Intel Core2 Quad QX9650),使用Wondershare iPhone Video Converter軟件進行同樣的轉換格式工作,相當是用CPU進行計算,得到的結果是耗時107s,幾乎是用GTX 280轉換耗時的三倍。
![]() |
再一次可以領略到GPU Computing的強悍之處,相比于CPU,GPU在某些領域的計算能力確實可以達到CPU的數倍。
◆
作為圖形芯片領域的領頭羊,NVIDIA倡導未來GPU才是計算機核心的理念,并提出了“GPGPU(通用圖形處理器)”概念,同時推出OptimizedPC的戰略,鼓勵電腦廠商在電腦上采用更主流的顯示芯片,而減少對高性能處理器的使用,實際上也是最近“CPU和GPU到底誰重要”的話題。
GeForce GTX 200的發布并沒有象以前的產品那樣,大肆宣傳其3D性能,而將重點放在其GPU Computing上。GeForce GTX 200同時注重并行計算和圖形處理,可以說是雙架構設計的統一體,在圖形處理功能的基礎上大幅提升了并行計算能力。GTX 200設計遵循的兩個原則"Beyond Gaming"和"Gaming Beyond"實際上是雙架構設計的一種很好地詮釋。
![]() |
·強大的并行計算能力
GTX 280有240個處理器,其浮點運算能力達到了933GFLOPs,幾乎是Intel四核處理器9650的十倍之多,意味著GPU在浮點運算中有得天獨厚的優勢,再加上支持雙精度浮點運算以及142GB/s的顯存帶寬等增強特性,使得GTX 280擁有強大的并行計算能力,而基于C語言的CUDA平臺被越來越多的開發者所采用,CUDA 2.0的發布也讓它變得更加易于使用,GTX 200對于NVIDIA的“GPGPU”理念將會有著非常重要的推動作用,意義非凡。
在我們測試的兩個CUDA應用實例中,可以發現GTX 280在分布式計算和密集型計算時有著比CPU強上很多倍的能力,隨著CUDA的飛速發展,越來越多的程序可以使用GPU來作計算,處理能力比CPU更為強悍,無論對于消費者還是NVIDIA來說,都是非常樂觀和期待的。
另外隨著驅動對PhysX的支持,玩家更是可以體驗到物理加速的快感。
·無與倫比的圖形處理能力
和GTX 200的并行計算能力相比,這次它在3D性能方面顯得要低調很多,而實際上,GTX 280卻擁有無與倫比的圖形處理能力,240個SP、512bit顯存帶寬、1GB的顯存,這些歷史最高記錄已經讓它出落成一個人見人愛的“大美人”,各路諸雄無不拜倒在它裙下,相比雙GPU的GeForce 9800GX2和Radeon HD 3870X2,各有4%和29%的領先,這足以讓GTX 280成為這個宇宙最強的娛樂級顯卡。
GTX 200的SLI效率也很不錯,初步測試的結果顯示能達到80%以上,另一方面,它的動態電耗管理也是一個亮點,在待機下能顯著減少能耗,有很好的實際價值。
·GTX 280參考售價4999元
![]() |
GeForce GTX 280的官方參考價為649美元,國內參考價基本在4999元,將在會17號大量鋪貨,而參考價399美元的GTX 260的鋪貨時間則要等到6月26號。
我們在以前就報道過,GeForce 9800GX2的壽命只有三四個月,現在看不假,GTX 200將會取代現在9800GX2的位置,9800GX2或許是歷史上最短命的性能之王吧?
不管怎么說,GTX 200有著許多值得一寫的地方,對于NVIDIA來說,GTX 200是一顆很重要的旗子,除了要占領3D性能的制高點外,更是要去搶CPU的飯碗,GPU與CPU之爭的好戲還在后頭呢。