[問題] 不同硬體下訓練,驗證組表現出現差異

看板DataScience作者 ( )時間2年前 (2022/03/13 19:04), 編輯推噓1(103)
留言4則, 3人參與, 2年前最新討論串1/1
作業系統:(ex:mac,win10,win8,win7,linux,etc...) mac, linux 問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) CNN 使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...) tensorflow, keras 問題內容: 自從tensorflow也出了支援用mac的m1來加速訓練後,mac使用者也可以爽用GPU加速 但我很好奇他對比nvidia的速度如何,上網搜尋到這篇文章 https://tinyurl.com/4ubwkmya 硬體: mac mini m1 VS Nvidia V100 資料集: Cifar 10 模型:MobileNetV2 訓練結果 速度方面,在只訓練最後一層的時候,m1輾壓v100,大概是歸功於m1是soc的記憶體架構 如果訓練整個網路的話m1略輸v100 功耗與溫度方面 m1不愧是ARM架構所以功耗與溫度全面碾壓v100 (作者說m1全程連風扇的聲音都沒聽到,手去摸機殼也沒問題) 但奇怪的是,m1在只訓練最後一層的情況下,validation loss比v100差很多 差距可以到2.6 vs 0.73,作者說把learning rate調小才解決問題。 但這不是很奇怪嗎? 同樣的演算法,同樣的模型架構,同樣的資料集, 用不同的硬體,頂多會有速度跟功耗的差異,為何連準確度也會有差異? 唯一的可能是m1版的tensorflow還沒有到很完美,可能有些小bug, 例如optimizer 大家怎麼看呢 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.248.45 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1647169455.A.7FC.html

03/13 19:47, 2年前 , 1F
PyTorch 換版都會降 accuracy 了 何況你CPU架構還不一
03/13 19:47, 1F

03/13 19:47, 2年前 , 2F
03/13 19:47, 2F

03/15 23:37, 2年前 , 3F
出包的可能環節很多啊 cuda/tf/onnx/m1 blabla
03/15 23:37, 3F

03/22 00:20, 2年前 , 4F
rng的seed?
03/22 00:20, 4F
文章代碼(AID): #1YBS-lVy (DataScience)
文章代碼(AID): #1YBS-lVy (DataScience)