[問題] NLP跑BERT要什麼樣的機器才夠?

看板DataScience作者 (里爾-帕斯魔)時間2年前 (2022/02/09 02:05), 編輯推噓7(7017)
留言24則, 8人參與, 2年前最新討論串1/1
文組PM剛接觸NLP,不懂機器的規格,但是之前上課的講師有提到一般小企業要短時間得到BERT的輸出結果不太可能,因為成本太高,但是有聽沒有懂。 請問為什麼?BERT真的很吃電還是買這個軟體很貴? 求大神解釋…GOOGLE都是一堆程式碼看不懂… ----- Sent from JPTT on my iPhone -- 背叛的滋味 大概就像精液吧 淡淡的沒滋沒味卻能教人嘔吐 咬緊牙關吞下去也就沒什麼了 真的就沒什麼了... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.83.33 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1644343510.A.CC2.html

02/09 08:37, 2年前 , 1F
兩三年前看過新聞、訓練 bert large 只要一個小時…
02/09 08:37, 1F

02/09 08:37, 2年前 , 2F
但是需要大約nvidia v100的1000 個gpu, 如果是一張 v
02/09 08:37, 2F

02/09 08:37, 2年前 , 3F
100有16個 gpu, 略估是60張, 一張 如果1000美金…
02/09 08:37, 3F

02/09 08:39, 2年前 , 4F
不過、我們應該不需要從頭開始訓練
02/09 08:39, 4F

02/09 08:54, 2年前 , 5F
BERT如果用在一般應用只要Fine Tune 用一般顯卡就可以了
02/09 08:54, 5F

02/09 08:54, 2年前 , 6F
沒有必要的話不用重頭訓練
02/09 08:54, 6F

02/09 09:59, 2年前 , 7F
最近的紀錄好像兩分鐘
02/09 09:59, 7F

02/09 10:07, 2年前 , 8F
bert有放出參數啊,單就預測一張1060應該十五秒就可
02/09 10:07, 8F

02/09 10:07, 2年前 , 9F
以把一段文章轉成向量。
02/09 10:07, 9F

02/09 10:10, 2年前 , 10F
但要從零開始訓練出bert,單就電費就要7000美
02/09 10:10, 10F

02/09 10:19, 2年前 , 11F
資料集34億個詞,70GB以上
02/09 10:19, 11F

02/09 10:24, 2年前 , 12F
好在這類大模型都有公開已經訓練好的模型參數,像上
02/09 10:24, 12F

02/09 10:24, 2年前 , 13F
面講的通常只需要在訓練好的模型後面加兩層神經網路
02/09 10:24, 13F

02/09 10:24, 2年前 , 14F
去適應你的任務,就能有可接受的結果了
02/09 10:24, 14F

02/09 10:25, 2年前 , 15F
這樣大概一張2080就能跑
02/09 10:25, 15F

02/09 16:38, 2年前 , 16F
fasttext了解一下,便宜好用
02/09 16:38, 16F

02/11 12:32, 2年前 , 17F
國高那邊要不要試看看?
02/11 12:32, 17F

02/11 12:33, 2年前 , 18F
他們的Taiwania2 至少會有1000顆GPU吧?
02/11 12:33, 18F

02/11 20:58, 2年前 , 19F
很快的 只要找你們應用場域的 pretrain bert embedding (
02/11 20:58, 19F

02/11 20:58, 2年前 , 20F
e.g. FinBERT) 甚至不用fine tune 就有不錯的效果了
02/11 20:58, 20F

02/12 22:05, 2年前 , 21F
只要拿現成的模型來訓練你的資料就好,然後再設計你的輸出
02/12 22:05, 21F

03/15 08:07, 2年前 , 22F
通常是拿pretrain好的bert encoder來使用,基本的be
03/15 08:07, 22F

03/15 08:08, 2年前 , 23F
rt model的參數數量使用空間為400M, 你可以預留2G
03/15 08:08, 23F

03/15 08:08, 2年前 , 24F
的記憶體 比較保險
03/15 08:08, 24F
文章代碼(AID): #1Y0h3Mp2 (DataScience)
文章代碼(AID): #1Y0h3Mp2 (DataScience)