Re: [討論] 機器學習如何做好version control???

看板DataScience作者 (想い出は溶けない..)時間6年前 (2018/04/16 00:18), 編輯推噓1(105)
留言6則, 2人參與, 6年前最新討論串5/5 (看更多)
有一個比較新的工具叫dvc (data version control) 詳情: https://github.com/dataversioncontrol/dvc 它的核心概念大概是這樣︰ 1) 當你新增data時,產生一組md5 hash作為cache路徑,而這個路徑 是data的hard link。這些資訊被存在.dvc檔中。 2) 當你操作這些data時,不論是跑script還是command,一樣產生.dvc 檔案,而且記錄指令(cmd)、輸入(deps)跟輸出(outs)。 3) 不論是1還是2所產生的.dvc檔案,都像進code一樣進到git裡面。 注意這裡是進.dvc檔而已,不是進真的data。 4) 對原本的pipeline作修改之後(ex: 改preprocessing),只要下一 行指令就可以馬上reproduce整個pipeline的結果。 5) data本身可以push到s3或gcp storage,也可以直接把cache資料夾 分享給同事,很輕易可以重現結果。 6) 因為是用git,所以切/合branch都很容易,實驗的管理變得比較靈活。 希望有幫助 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.213.103 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523809096.A.A39.html

04/16 02:49, 6年前 , 1F
看了一下, 他想法滿有趣的, 研究看看
04/16 02:49, 1F

04/16 02:52, 6年前 , 2F
看了一下他的tutorial 主要還是講modeling
04/16 02:52, 2F

04/16 02:52, 6年前 , 3F
如果是作report或是exploratory analysis不知道有沒
04/16 02:52, 3F

04/16 02:52, 6年前 , 4F
有類似的工具
04/16 02:52, 4F

04/16 08:23, 6年前 , 5F
dvc就是用git做資料版本控制,其他需求就是開branch
04/16 08:23, 5F

04/16 08:23, 6年前 , 6F
再用其他工具,能上線再合到production branch
04/16 08:23, 6F
文章代碼(AID): #1Qqtj8ev (DataScience)
文章代碼(AID): #1Qqtj8ev (DataScience)