Re: [閒聊]rx480性能功耗比
看板VideoCard (顯卡板)作者a34021501 (CARD)時間7年前 (2017/03/22 18:24)推噓-40(1推 41噓 22→)留言64則, 31人參與討論串2/2 (看更多)
各位好,我的經驗上的看法提供給大家分享一下
就是我在 AMD 的驅動裡面找到 ATI 的安裝程式
所以我可以在 AMD 的 Chipset 16.12.2 的 Bin
64資料夾裡面找到了 ATISetup.exe 執行了之後
會很快速地跳出一連串的訊息讓我來不及看內容
不過那不重要,重要的是我的畫面已經出現了CF
的花紋,但是是我只有裝了一張卡 AMD R9 280X
樣的情況下我覺得我的 NB 裡面有其他顯卡作用
或是說更厲害的是 AMD R9 280X 裡面有被切割
這樣的話就像以前燒掉的顯卡 HD5830 如同5870
我的意思是那時候新聞說 HD5870 雷射切成5830
不管 5830 還是 5870 它的尺寸在數據上一樣大
這樣我們就可以用這些數據來評估RX470與RX480
我把它連在一起根本就是說他們數據好像一樣大
這邊的大小是指DIE SIZE與PROCESS SIZE即製程
那我們來算算看好了,評估裡面有多少個處理器
假設每個處理器所需要的外觀尺寸差不多是個LL
LL即L*L的長度,但越新的製程會讓長度變短#nm
先拿280X的效能來當參考好了,畢竟7970是卡王
我的意思是我有7970也有280X但是不同DIE SIZE
好像不太一樣但是拆開來看之後其實差不多大喔
總之也有可能是GPUZ或其他網站寫錯了我不清楚
先來算算以28nm製程的7970系列有多少個LL單位
(352mm^2=352*1000*1000nm^2)/(28nm*28nm)=448979.591837 (這是Google計算機的數據)
好了,在來算算看R9280X的數據為多少給大家看
我發現GPUZ更新到正確的大小,不過可能是驅動
所以我還是以448979為這兩張卡的判斷標準好了
再來算算以14nm製程的RX48系列有多少個LL單位
(232mm^2=232*1000*1000nm^2)/(14nm*14nm)=1183673.46939 (這是Google計算機的數據)
好了那我們來看一下RX47系列的核心數目2048個
好了那我們來看一下280X系列的核心樹目2048個
因此可以看出相同核心數目但RX47新製程面積大 (Google計算機相除約2.63636363636倍)
如果是我來設計顯示卡,我一定會選用舊指令集
畢竟280X的整體運算效能已達4096Gflops運算量
如此同頻新顯卡4096Gflops*2.63~=10798Gflops
這樣大家可以看出1120Mhz的RX480比1Ghz的280X
還可以再多出10798*1.12=12094Gflops的效能吧
不過這是還未考慮到GDDR通道數的情況的評估值
不知道各位大大覺得我這樣算有沒有評估錯誤呢
在CPU有一種技術叫做C state可以關閉核心節能
不知道要如何關閉這些節能來提取提供全部效能
如此一來我才有辦法計算3D領域的相關研究成果
http://i.imgur.com/9ZhvA53.png
共用記憶體
以前共用記憶體的技術只有在 Intel內建顯示卡
※ 引述《dreamjade (瑜兒)》之銘言:
: 標題: [閒聊]rx480性能功耗比
: 時間: Mon Mar 20 23:11:50 2017
:
: 在rx480未上市前,就有各種傳聞說amd臨時提升頻率,於是魯妹就試著降頻使用
: 顯卡型號: rx480 nitro+ 4GB
: 功耗以藍寶程式讀值作為參考依據(也許不太精確,但看趨勢應該沒有太大疑慮)
: 預設頻率:1306 ->1105
: 預設電壓:1.14 -> 1.00
: 滿載功耗(從平均~160W掉到~80W)
: 降50%(跑3d mark 11)
: 效能大約只小降5%
: 真的差的有點多呢~
:
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.246.36
: ※ 文章網址: https://www.ptt.cc/bbs/VideoCard/M.1490022712.A.5C7.html
: 推 a34021501: 我覺得還要算一下ASIC的面積甚至體積(如果有堆疊)評估! 03/20 23:25
: 推 novarossi: 原po跟一樓可以組個團體 03/21 00:17
: → nimaj: 電蝦也有人用470試過了 甚至可以壓到75W以下 03/21 01:10
: 推 a34021501: http://i.imgur.com/qkxfz56.jpg
我先說,GPU有很多部 03/21 01:57
: → a34021501: 份,我們需要更多人手! 03/21 01:57
: 推 super7407412: 原Po跟樓上一起組團吧 03/21 11:12
: 推 davidbright: 為何這樣就要組團?@@ 03/21 11:53
: → GORDON2037: 1105會不會降太低? 03/21 18:34
: 推 ltyintw: 壓在140w以內(留10w給peak用) 03/21 19:08
: → ltyintw: 就差不多了 03/21 19:08
: → waterblue85: 降功耗跟降壓比較有關係,降頻是多餘的 03/21 19:26
: → a34021501: 怎麼可以留給peak用,這樣peak pixel/texture rate 03/21 19:27
: → a34021501: 就會被保留起來讓以後新版的驅動程式可以提高peak?? 03/21 19:28
: → a34021501: 畢竟pixel rate與texture rate好像是搬資料的速度! 03/21 19:30
: → a34021501: 所以我們先從搬資料開始討論好了,我正在網路上查! 03/21 19:35
: → a34021501: 歡應資深的潛水鄉民提供關於GDDR效率的經驗及佐證! 03/21 19:36
: 推 s30zx2000: 我比較好奇螢幕上跑的是做什麼用的??? 03/22 00:21
: → FeRin: 我比較好奇a34121501的思想到底是怎樣 03/22 15:48
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.164.252.34
※ 文章網址: https://www.ptt.cc/bbs/VideoCard/M.1490178260.A.041.html
更正Bin為Bin64
※ 編輯: a34021501 (1.164.252.34), 03/22/2017 18:25:13
噓
03/22 18:26, , 1F
03/22 18:26, 1F
→
03/22 18:31, , 2F
03/22 18:31, 2F
→
03/22 18:44, , 3F
03/22 18:44, 3F
噓
03/22 18:46, , 4F
03/22 18:46, 4F
→
03/22 18:46, , 5F
03/22 18:46, 5F
噓
03/22 18:55, , 6F
03/22 18:55, 6F
噓
03/22 19:02, , 7F
03/22 19:02, 7F
噓
03/22 19:20, , 8F
03/22 19:20, 8F
→
03/22 19:20, , 9F
03/22 19:20, 9F
噓
03/22 19:35, , 10F
03/22 19:35, 10F
→
03/22 19:45, , 11F
03/22 19:45, 11F
噓
03/22 19:47, , 12F
03/22 19:47, 12F
→
03/22 19:57, , 13F
03/22 19:57, 13F
噓
03/22 20:14, , 14F
03/22 20:14, 14F
噓
03/22 20:34, , 15F
03/22 20:34, 15F
→
03/22 20:40, , 16F
03/22 20:40, 16F
→
03/22 20:41, , 17F
03/22 20:41, 17F
→
03/22 20:51, , 18F
03/22 20:51, 18F
→
03/22 20:57, , 19F
03/22 20:57, 19F
噓
03/22 21:03, , 20F
03/22 21:03, 20F
噓
03/22 21:11, , 21F
03/22 21:11, 21F
→
03/22 21:14, , 22F
03/22 21:14, 22F
→
03/22 21:21, , 23F
03/22 21:21, 23F
→
03/22 21:21, , 24F
03/22 21:21, 24F
→
03/22 21:23, , 25F
03/22 21:23, 25F
噓
03/22 21:25, , 26F
03/22 21:25, 26F
噓
03/22 21:29, , 27F
03/22 21:29, 27F
→
03/22 21:36, , 28F
03/22 21:36, 28F
噓
03/22 21:38, , 29F
03/22 21:38, 29F
噓
03/22 21:40, , 30F
03/22 21:40, 30F
請大家幫我思考一下系統參數PATH要怎麼設置才能讓驅動抓取正確的DLL檔 > echo %PATH%
以下是依檔案時間排序的PATH清單,請大家幫忙測試如何調整最洽當或有其他資料夾可加!
C:\Program Files\AMD\CIM\Bin64;C:\Program Files
(x86)\AMD\CNext\CCCSlim;C:\Program Files\AMD\CNext\CNext;C:\Program Files
(x86)\AMD APP SDK\3.0\bin\x86_64;C:\Program Files (x86)\AMD APP
SDK\3.0\bin\x86;%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;%SYSTEMROOT%\System32\WindowsPowerShell\v1.0\;
謝謝大家,剩下的就交給你們了!
※ 編輯: a34021501 (1.164.252.34), 03/22/2017 21:55:57
噓
03/22 21:59, , 31F
03/22 21:59, 31F
噓
03/22 22:00, , 32F
03/22 22:00, 32F
噓
03/22 22:00, , 33F
03/22 22:00, 33F
噓
03/22 22:07, , 34F
03/22 22:07, 34F
噓
03/22 22:17, , 35F
03/22 22:17, 35F
噓
03/22 22:20, , 36F
03/22 22:20, 36F
噓
03/22 22:22, , 37F
03/22 22:22, 37F
噓
03/22 22:36, , 38F
03/22 22:36, 38F
噓
03/22 23:03, , 39F
03/22 23:03, 39F
噓
03/22 23:09, , 40F
03/22 23:09, 40F
噓
03/22 23:24, , 41F
03/22 23:24, 41F
→
03/22 23:24, , 42F
03/22 23:24, 42F
噓
03/22 23:58, , 43F
03/22 23:58, 43F
→
03/23 00:50, , 44F
03/23 00:50, 44F
→
03/23 00:51, , 45F
03/23 00:51, 45F
噓
03/23 01:00, , 46F
03/23 01:00, 46F
為確保AMD顯示卡驅動程式的DLL檔會優先讀取,我的PATH最前面加了這行路徑!
C:\AMD\WHQL-Win10-64Bit-Radeon-Software-Crimson-ReLive-17.2.1-Feb28\Packages\Drivers\Display\WT6A_INF\B311170;
因為有時候系統.DLL會被改(更新或後門),如此AMD驅動的DLL檔最為優先讀取!
當然在驅動中Bin64裡面執行ATISetup.exe -Install -output screen 安裝後!
會將AMD CIM裝入 C:\Program Files\AMD\CIM\Bin64 我覺得適合放在更前面~!
因為在17.2.1版本中,CIM的編譯時間是2/28,DisplayDriver與CCCSlim編譯時間是2/10
還有就是 Bin64\translations 裡面放的檔案的編譯時間是3/1 或許值得放在更前面!
至於測試效能,就和我之前用280X與16.12.2測試GTA5的4K@60一樣可以順暢跑高畫質!
※ 編輯: a34021501 (1.164.252.34), 03/23/2017 01:52:35
→
03/23 02:02, , 47F
03/23 02:02, 47F
→
03/23 02:02, , 48F
03/23 02:02, 48F
來談談記憶體好了,關於記憶體Benchmark的軟體我覺得都已經不夠看了,畢竟都莫名的慢
C:\Users\Card\AMD APP SDK\3.0\samples\opencl\bin\x86_64>ConstantBandwidth.exe
--device cpu
Platform 0 : Advanced Micro Devices, Inc.
Platform found : Advanced Micro Devices, Inc.
Selected Platform Vendor : Advanced Micro Devices, Inc.
Device 0 : AMD FX-8320E Eight-Core Processor Device ID is
00000040305C1EF0
Build Options are : -D DATATYPE=float4 -D DATATYPE2=float4 -D SIZE=5120 -D
IDXTYPE=ulong
AccessType : single(static index)
VectorElements : 4
Bandwidth : 98.2572 GB/s
AccessType : single(dynamic index)
VectorElements : 4
Bandwidth : 99.157 GB/s
AccessType : linear
VectorElements : 4
Bandwidth : 118.709 GB/s
AccessType : random
VectorElements : 4
Bandwidth : 14.2031 GB/s
C:\Users\Card\AMD APP SDK\3.0\samples\opencl\bin\x86_64>ConstantBandwidth.exe
--device gpu
Platform 0 : Advanced Micro Devices, Inc.
Platform found : Advanced Micro Devices, Inc.
Selected Platform Vendor : Advanced Micro Devices, Inc.
Device 0 : Tahiti Device ID is 0000006DBDFA91A0
Build Options are : -D DATATYPE=float4 -D DATATYPE2=float4 -D SIZE=5120 -D
IDXTYPE=ulong
AccessType : single(static index)
VectorElements : 4
Bandwidth : 8212.22 GB/s
AccessType : single(dynamic index)
VectorElements : 4
Bandwidth : 8641.56 GB/s
AccessType : linear
VectorElements : 4
Bandwidth : 2213.72 GB/s
AccessType : random
VectorElements : 4
Bandwidth : 1075.47 GB/s
以上是 CPU 讀取 DDR3 與 GPU 讀取 GDDR5 的數據,透過 OpenCL 可以瞭解普通程式很慢
所以不管怎樣這些裝置彼此溝通的 PCI-E 通道的頻寬就會影響電腦的效能所以不能被降速
※ 編輯: a34021501 (1.164.252.34), 03/23/2017 06:32:56
噓
03/23 07:23, , 49F
03/23 07:23, 49F
噓
03/23 12:14, , 50F
03/23 12:14, 50F
噓
03/23 14:03, , 51F
03/23 14:03, 51F
噓
03/23 15:43, , 52F
03/23 15:43, 52F
噓
03/23 15:50, , 53F
03/23 15:50, 53F
噓
03/23 16:33, , 54F
03/23 16:33, 54F
噓
03/23 17:16, , 55F
03/23 17:16, 55F
噓
03/23 17:39, , 56F
03/23 17:39, 56F
噓
03/23 18:01, , 57F
03/23 18:01, 57F
噓
03/23 19:04, , 58F
03/23 19:04, 58F
推
03/24 01:38, , 59F
03/24 01:38, 59F
噓
03/24 02:09, , 60F
03/24 02:09, 60F
我沒有無限唬爛,我的PCI-E仍然被限制在PCI-Express Gen2即8GB/s左右只是有超過一點
C:\Users\Card\AMD APP SDK\3.0\samples\opencl\bin\x86_64>ImageBandwidth.exe
Platform found : Advanced Micro Devices, Inc.
Device 0: Tahiti
Build: _WINxx release
Pixel format: CL_RGBA / CL_UNSIGNED_INT32
Image width: 1024
Image height: 1024
Image origin: 0 0
Image region: 1024 1024
Image size in bytes: 16777216
Region size in bytes: 16777216
Global work items X: 1024
Global work items Y: 8
Total work items: 8192
Pixels per thread: 128
Local work items X: 16
Local work items Y: 8
Number of groups: 64
Timing loops: 10
Repeats: 1
Kernel loops: 100
Kernel launches: 1
inputImage: CL_MEM_READ_ONLY
outputImage: CL_MEM_WRITE_ONLY
Host baseline (single thread, naive):
Timer resolution 793 ns
Page fault 1018 ns
Barrier speed 127 ns
CPU read 4.40 GB/s
memcpy() 5.89 GB/s
memset(,1,) 9.77 GB/s
memset(,0,) 9.39 GB/s
AVERAGES (over loops 2 - 9, use -l for complete log)
--------
1. Host mapped write to inputImage
clEnqueueMapImage(WRITE): 0.002644 s [ 6.34 GB/s ]
memset(): 0.002569 s 6.53 GB/s
clEnqueueUnmapMemObject(): 0.002999 s [ 5.60 GB/s ]
2. GPU kernel read of inputImage
clEnqueueNDRangeKernel(): 0.008412 s 199.43 GB/s
verification ok
3. GPU kernel write to outputImage
clEnqueueNDRangeKernel(): 0.010325 s 162.49 GB/s
4. Host mapped read of outputImage
clEnqueueMapImage(READ): 0.002647 s [ 6.34 GB/s ]
CPU read: 0.001958 s 8.57 GB/s
verification ok
clEnqueueUnmapMemObject(): 0.000020 s [ 821.96 GB/s ]
Passed!
8.57GB/s就是我的CPU從我的GPU的DDR5讀取記憶體的資訊的速度大概就是比PCI-E Gen3慢
由此可知推論我已經超過PCI-E Gen2的標準並且仍然只有Gen2多一丁點的傳輸速率而已喔
畢竟以往的理論速度幾乎不會超過,我想知道這個傳輸速率要怎麼DDL才能發揮系統效能!
※ 編輯: a34021501 (1.164.252.34), 03/24/2017 15:49:30
噓
03/24 16:59, , 61F
03/24 16:59, 61F
→
03/24 16:59, , 62F
03/24 16:59, 62F
→
03/25 03:43, , 63F
03/25 03:43, 63F
噓
03/25 08:19, , 64F
03/25 08:19, 64F
討論串 (同標題文章)
VideoCard 近期熱門文章
PTT數位生活區 即時熱門文章