※ 本文為 eric424.bbs. 轉寄自 ptt.cc 更新時間: 2011-11-26 18:38:39
看板 PC_Shopping
作者 標題 Re: [情報] nVidia 28nm 桌上型GPU Roadmap!
時間 Sat Nov 26 18:03:39 2011
※ 引述《obov (來噓蒼真)》之銘言:
: 推 arrenwu:推~~ 不過 AMD有沒有策略性地讓一些大軟體公司使用 OpenCL 11/26 15:44
: → arrenwu:加速運算啊? 不然狂推GPGPU一般使用者也感受不到 11/26 15:45
我沒有掛可以爆 不過...OpenCL的可用度還很低.
一年以前還有聽人抱怨,OpenCL寫好的行為在CPU和GPU上不一致.
(有寫CUDA有參考過hotball's hive的話...對 從這位作者這邊得知的)
這問題責任不在AMD上.畢竟基礎的LLVM也是很新的東西.
講好聽點有彈性,講實話就是很多都還是"草創".需要經過一段時間修正問題.
回到AMD方面的話,大概就是他在軟體/開發工具這邊還是弱勢.
回到AMD方面的話,大概就是他在軟體/開發工具這邊還是弱勢.
雙A還沒合併前特別嚴重,2008以後改進一點.可是相較其他方面的表現,
就很像一個桌子有一根腳特別短 那桌子還是會晃啊.
基本上雙A合併前,Intel對開發者的支援>AMD,nVidia也是>ATI.
這變成說假設你沒有公司資源之前,為自己的興趣或者是學生在
基本上雙A合併前,Intel對開發者的支援>AMD,nVidia也是>ATI.
這變成說假設你沒有公司資源之前,為自己的興趣或者是學生在
開發東西的時候.都是去看Intel跟nVidia的資料,然後以Intel和nVidia
的平台為測試基準(最後變成,業餘開發者cpu上的IvsA,GPU上的NvsA
的偏好比絕對超過8:2).
可能在學生的時候,沒事就可以在Intel developer上翻到才出沒一年的
新影音格式,含最新的SIMD指令集最佳化的library+sample.
假定做Graphics相關的,那碰到nVidia來推廣甚麼的頻率和Intel不會差太多.
(實際還誇張一點,之前有個人搞CUDA/PhysX on ATI GPU,結果ATI的方面沒有回應它
的問題,nVidia甚至主動送給這種來拆台的不少資料協助它...)
等這些人開始就業實際開發產品.都習慣了是很難再想到要幫AMD/ATI最佳化這問題.
AMD還有一個風險是直接被compiler婊掉,大概十幾年前,Pentium MMX
vs K6的時候,Intel C compiler 4.0(正式應用的版本裡面算蠻早期的),
沒有甚麼額外的功能比如SIMD支援,號稱對Intel CPU最佳化....
可是相比於Microsoft VC++ compiler,在Pentim MMX上不會變快,在
AMD K6上會變慢最多達40%.....現在AMD在常用compiler上不太需要擔心
發生同樣的問題.不過目前的推土機優勢的整數運算方面是比浮點數更容易
被compiler最佳化婊掉優勢的.如果我是Intel,說不定不用花大錢推新的硬體,
只要靠大家都依賴我的x86開發工具的時候搞一下AMD....
分隔線
以前不論,AMD現在的努力也不是0,至少一年多前還把重要的人請去做Compiler,
不過對未來CPU和GPGPU方面,這樣還是不夠的.GPGPU的話,目前/未來的OpenCL比較
適合消費市場,但對HPC市場而言LLVM不適用.ATI和nVidia最早的GPGPU compiler
適合消費市場,但對HPC市場而言LLVM不適用.ATI和nVidia最早的GPGPU compiler
系出同源,都來自現在叫做Open64的東西,前代的stream compiler(brook+)不是不好,
但是它開發的比較早.原先是在DX9(SM 2.0/SM 3.0)上發展的東西,要維持同樣的高階
語法但底層支援DX10硬體,效率就會被吃掉一些.可是CUDA後發展反而有優勢,就是它
語法直接是DX10硬體的抽象化,在DX10跟DX11硬體上都可以執行的很好.
語法但底層支援DX10硬體,效率就會被吃掉一些.可是CUDA後發展反而有優勢,就是它
語法直接是DX10硬體的抽象化,在DX10跟DX11硬體上都可以執行的很好.
現在OpenCL的語法也是DX10硬體的抽象化(其實根本就是一對一轉換...X),
nVidia可以維持CUDA在Open64上專注於HPC市場,OpenCL面對消費市場+Apple平台.
AMD也可以同樣OpenCL但是具有兩種compiler,一個打HPC市場和CUDA競爭,一個
打消費市場.我去年有推幾個傻瓜一起入坑,自行把OpenCL語法放入Open64 compiler中,
最後借用AMD CAL IL的架構和Tool執行,雖然是玩票性質只有完成基本的雛形,
不過推估起來,把OpenCL和原有的stream compiler(brook)結合是足以對抗CUDA的.
APU的未來式,真正的Fusion,即CPU/GPU不再分家,GPU做為CPU可直接看到且定址
的另外一組輔助指令集這種方向.因為目前對此可能性的了解還很片面,有其他
想法的話下次繼續 :P
的另外一組輔助指令集這種方向.因為目前對此可能性的了解還很片面,有其他
想法的話下次繼續 :P
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.32.237.63
→ :喔耶1F 11/26 18:08
推 :有神快拜2F 11/26 18:08
推 :高手全都跑出來了嗎3F 11/26 18:09
→ :只是有一些經驗可以分享而已4F 11/26 18:10
推 :如果是三腳桌的話頂多就桌子歪了不會晃 (逃5F 11/26 18:38
推 :只能推6F 11/26 18:40
→ :一篇文章釣出2個神人了...7F 11/26 18:40
推 :我也是做這個的.....可惜我不是神人 講出來的等級有差8F 11/26 18:44
推 :臥龍先生出來了...9F 11/26 18:54
→ :我是睡蟲 zzzz10F 11/26 18:57
推 :這行業的人都好神喔11F 11/26 19:22
推 :神人12F 11/26 19:28
推 :又一個強者!13F 11/26 20:47
推 :看到一半我眼睛就花了14F 11/26 20:54
推 :jk神!!!15F 11/26 21:16
推 :XD16F 11/26 22:40
推 :快推免得人家以為我們看不懂!17F 11/26 22:57
推 :我推了還是...18F 11/27 00:55
推 :第一次看八卦看的這麼開心.. Q.Q" 噗...19F 11/27 01:25
推 :看 不 懂!!!!!20F 11/27 02:42
推 :雖然看不懂,不過好像很厲害的樣子21F 11/27 09:17
--
作者 jk21234 的最新發文:
- 我970 1070 2080都有搶初期 首批沒有後的等待大約是3.5個月 2.5個月 ...2080印象不到2個月 3080自發表到發售前的熱度 體感上較為接近gtx980/970 的時候...所以有 …31F 21推
- 為什麼cache預料之外的hit會導致data外流.... 其實表面來說 資料沒有被讀出來 但是是被窮舉的方式猜出來的 基本原理 0. int64 a = rdtsc() RDTSC = Read t …72F 40推
- 消費級的就先不用嚇自己 因為 1. user mode的計算不會變慢 壓檔跟跑分是沒有因為這樣分數洗牌的 2. I/O syscall要多花時間所以變慢 但你自己的應用會是重度I/O嗎 而且原本dis …131F 56推
- OK 你看不出來 是因為你剛好錯開不一樣的年代 故事是這樣的 首先 除了Quicktime跟RM,當時大部分的壓縮的影像是來自於 JPEG/MPEG系列以及衍伸的技術 所以使用的壓縮方法都還蠻接近的. …84F 49推
- 今天拿來裝顯示卡 圖中是1070FE 約是10.5吋 如果裝了8吋以上的卡 會少兩個3.5擴充可用 上方5.25的只有上面兩個可以裝 光碟機 否則會撞到主機板 下面5.25頂多拿來轉接3.5吋 所以最 …90F 40推
點此顯示更多發文記錄
( ̄︶ ̄)b jengyic 說讚!
回列表(←)
分享