Re: [討論] 機器學習如何做好version control???
有一個比較新的工具叫dvc (data version control)
詳情: https://github.com/dataversioncontrol/dvc
它的核心概念大概是這樣︰
1) 當你新增data時,產生一組md5 hash作為cache路徑,而這個路徑
是data的hard link。這些資訊被存在.dvc檔中。
2) 當你操作這些data時,不論是跑script還是command,一樣產生.dvc
檔案,而且記錄指令(cmd)、輸入(deps)跟輸出(outs)。
3) 不論是1還是2所產生的.dvc檔案,都像進code一樣進到git裡面。
注意這裡是進.dvc檔而已,不是進真的data。
4) 對原本的pipeline作修改之後(ex: 改preprocessing),只要下一
行指令就可以馬上reproduce整個pipeline的結果。
5) data本身可以push到s3或gcp storage,也可以直接把cache資料夾
分享給同事,很輕易可以重現結果。
6) 因為是用git,所以切/合branch都很容易,實驗的管理變得比較靈活。
希望有幫助
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.213.103
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523809096.A.A39.html
推
04/16 02:49,
6年前
, 1F
04/16 02:49, 1F
→
04/16 02:52,
6年前
, 2F
04/16 02:52, 2F
→
04/16 02:52,
6年前
, 3F
04/16 02:52, 3F
→
04/16 02:52,
6年前
, 4F
04/16 02:52, 4F
→
04/16 08:23,
6年前
, 5F
04/16 08:23, 5F
→
04/16 08:23,
6年前
, 6F
04/16 08:23, 6F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章