Re: [請益] Data Engineer門檻問題

看板DataScience作者 (trolltrolltroll)時間6年前 (2018/03/20 13:14), 編輯推噓4(4012)
留言16則, 6人參與, 6年前最新討論串3/5 (看更多)
以我個人的經驗資料這一行可以用開餐廳來比喻 你去一間五星級大飯店的廚房工作 可能就只要專門負責煎魚或做甜點就好了 其他料理有其他助廚負責 上面有行政主廚決定菜單 下面還有實習生幫殺魚你削蘋果 但是如果你是到路邊的小快炒店工作 所有的菜你都要自己炒 菜單要自己定 馬鈴薯要自己削蒜頭也要自己剝 你會建 ML model, tune param 很好 如果有機會到資料相關業務建置完整的大規模公司上班 可能就可以專門負責這一塊工作就好 自然會有人幫你把資料準備好讓你端來就可以直接丟進去當 training set 但是如果你是去新創公司或是正要建置這種單位的地方... 資料要弄到可以丟進你的 model 之前 光是 data cleaning 就不知道要燒掉你多少時間 我真的看過 5TB 的純文字資料沒有 header 沒有 schema 被要求用來建 model 這種時候沒有人幫你做 dirty work 就只好自己捲袖子下去搞 要用到的工具不外乎資料庫 (SQL, NoSQL), 資料湖 (hadoop)自己建 ETL 模式 然後 AWS 可以幫你省很多跟硬體打交道的時間 (如果公司願意付錢的話,AWS 也不是每個公司都願意用,規模不大的話效益有限) 就像很多人在職場中都會從前端工程師、後端工程師通通變成全端工程師 同樣的道理不管你是 Data Scientist 還是 Data Analysist 還是 Data Engineer 名稱真的不是那麼重要 只能說該會的東西跑不掉 你想要在工作更上一層樓總有些東西是非會不可 ※ 引述《sssh5566 ()》之銘言: : ※ [本文轉錄自 Soft_Job 看板 #1QhXMqsH ] : 作者: sssh5566 () 看板: Soft_Job : 標題: [請益] Data Engineer門檻問題 : 時間: Sun Mar 18 15:30:56 2018 : 之前聽一堆廣告說ML的缺很多就入坑了 : 但爬了一堆文被一堆人勸退找data scientist 的工作 : 朋友推薦可以找看看Data Engineer : 目前正在考慮中 : 也在考慮報名這間Bootcamp : https://imgur.com/2fj4jtA
: https://imgur.com/dVIoKD5
: https://imgur.com/6kpcO3n
: https://imgur.com/mwLkOLC
: 課表大概長這樣 : 朋友是說SQL sparks Hadoop AWS : 這些對找data Engineer的工作有幫助 : 但是由於之前都在接觸Machine learning、deep learning的東西 : 只知道怎麼調參數和建model而已 : 也不太清楚是否SQL Sparks Hadoop Aws這些東西是否有趣 : 以及更重要的是,能否訓練一兩個月後就能找到工作 : 想問下北美 Data Engineer的職缺是否和Front-end一樣 : 很容易讓非本科系受訓後轉行? : (沒身分問題) : 畢竟念web dev的幾乎每個去受訓後3~6個月都能保障找到工作 : 但爬文Data Engineer無論是中文還是英文資料都挺少的 : 有點不懂既然Data Scienist 門檻那麼高,為何還一堆bootcamp、MOOC、線上課程? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.219.237.246 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521522852.A.88D.html

03/20 14:08, 6年前 , 1F
純好奇5TB那個後來怎麼解 直接斷詞embedding硬塞嗎XD
03/20 14:08, 1F

03/20 14:36, 6年前 , 2F
想到data cleaning 頭就好痛Orz
03/20 14:36, 2F

03/20 14:38, 6年前 , 3F
我也很好奇後來怎麼處理的w
03/20 14:38, 3F

03/20 15:59, 6年前 , 4F
現在公司數據分析還沒成立單位,還在到處找資料來用
03/20 15:59, 4F

03/20 15:59, 6年前 , 5F
然後外部分析公司就跳進來把我想幹的事情做掉了
03/20 15:59, 5F

03/20 16:00, 6年前 , 6F
還要幫他們弄好資料跟後續應用的部分...
03/20 16:00, 6F

03/20 19:52, 6年前 , 7F
幾乎每個MOOC都沒教清理資料這部分xdd...之前kaggle玩
03/20 19:52, 7F

03/20 19:53, 6年前 , 8F
一次後還真覺得有點累。
03/20 19:53, 8F

03/20 19:55, 6年前 , 9F
不會/不想清資料就跟耕田不撒種就想收成一樣
03/20 19:55, 9F

03/20 19:56, 6年前 , 10F
算是把資料變成盈餘的必經之路...
03/20 19:56, 10F

03/20 19:57, 6年前 , 11F
話說我覺得MOOC一開始就教清洗資料 應該會讓一堆人
03/20 19:57, 11F

03/20 19:57, 6年前 , 12F
打退堂鼓xdd
03/20 19:57, 12F

03/20 19:58, 6年前 , 13F
之前其實還有買過Datacamp,拖到最後兩個單元才到ML
03/20 19:58, 13F

03/20 23:56, 6年前 , 14F
原始 DATA 用正規去抓??
03/20 23:56, 14F

03/20 23:56, 6年前 , 15F
連SQL都要自己架真的蠻麻煩的 等於重0開始
03/20 23:56, 15F

03/20 23:57, 6年前 , 16F
真的最後通通變成全端了 整個流程走過也比較有概念
03/20 23:57, 16F
文章代碼(AID): #1Qi9YaYD (DataScience)
文章代碼(AID): #1Qi9YaYD (DataScience)