Re: [請益] Data Engineer門檻問題
→ sssh5566: 既然Data Engineer缺的人比較多。。何不多開幾個班 03/21 16:49
→ sssh5566: 目前大多是以教如何成為data scientist的課程 03/21 16:50
除了「model 比較潮、清 data 比較髒」這類潛在吸金難易度的差異之外
提供另一個面向做參考
一個原因是業界不清楚人才需求,所以人才雇用錯置
資料科學(要講AI也行)相關領域還不夠成熟
成熟到足以讓雇主意識到,目前的人力需求是偏向資料工程這一端
https://pbs.twimg.com/media/DHTgw9uXkAQ9MAm.jpg
(完整文章參考文末的 AI 需求金字塔)
非常多的雇用錯置,發生在各公司裡面
比如很常聽到的「學了 deep learning 想要建模,結果上班整天都在清資料」
大家都想用魔法做出小當家料理
很少人願意去摘水果(資料收集)、清洗食材(資料清理)、搬運食材(資料流)、
儲存(資料庫)、毒物檢驗(異常資料偵測)、中間產物(預處理)
這些都還只是拿到可以用的食材而已
還有大量反覆的實驗跟假設等繁瑣步驟要嘗試,才可能到最後的建模
甚至有些時候業界用不到複雜的建模,簡單的直覺作法即可,因為模型差距沒有那麼大
而這些可能還都會被歸類在「無聊」的範疇
不只工程師/科學家不想做,雇主可能也沒有察覺到重要性
另一個原因是養成困難
學校可能不太教資料工程,這不打緊,以前學校也不太教前端或網頁技術
但在資料科學領域,學界與業界都各自還有別的問題,加深了這個嚴重性
一是(至少台灣)學界把資源大量投注在 deep learning
人才及經費資源多少也排擠到其他更下層的領域(下層=AI 需求金字塔下層)
(雖然這些資源不去做 deep learning 也未必會到資料工程啦..QQ)
再者是即使部分雇主知道資料工程的重要性
但資料工程的技能養成,不像其他領域已經有一套系統性的學習方法能教
幾乎都是 on job training 為主
如果只能拿到死的 dataset,即使數量級夠大,離要解決真實問題還有很遠的一段路要走
借用我之前寫的段落
「可惜的是這些經驗在學校、學術界極難取得,
如同 Adam Gibson 的訪談中所說,很多東西是只有在業界產品才能學到的,
像是 ETL、軟體工程、特定領域資料的知識。並且很遺憾地,也無法速成」
以目前資料被大公司壟斷的程度來看
能提供大量真實業務資料的公司,相較於需要的資料工程師缺額,還是不夠
(以台灣的軟體公司數量來看,那差距就更大了)
幸好這領域也慢慢地比較成熟,有很多框架跟知識被建立起來
預期熱潮退了之後,各方也會比較理性,回來檢視真正需要的技能是什麼
國外很多文章都已經有了比較系統性的討論
(上面很多東西也都只是拿人家講過的來用而已,可以看下面 airbnb 工程師的文章)
所以回到原本的問題
只要 1. 業界發現需求在資料工程端,有更多老闆買單
並且 2. 可以在課堂上被某種程度「教學」
或許哪天自學 data engineering 出師也不是不可能吧(?)
===
參考資料們:
1. AI 需求金字塔的概念是從這篇來的
https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007
2. 這篇是 airbnb 的工程師寫的文章,非常淺顯易懂
A Beginner’s Guide to Data Engineering—Part I
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-i-4227c5c457d7
縮:https://goo.gl/vzDYue
3. 自己的文章,想講的上面都講了,有興趣看其他想法再點吧
https://data.leafwind.tw/build-software-engineering-and-data-culture-before-doing-ai-6e345986f872
縮:https://goo.gl/kdiir2
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.165
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522248902.A.80B.html
推
03/28 23:14,
6年前
, 1F
03/28 23:14, 1F
推
03/28 23:21,
6年前
, 2F
03/28 23:21, 2F
→
03/28 23:32,
6年前
, 3F
03/28 23:32, 3F
→
03/28 23:32,
6年前
, 4F
03/28 23:32, 4F
→
03/28 23:33,
6年前
, 5F
03/28 23:33, 5F
推
03/29 00:01,
6年前
, 6F
03/29 00:01, 6F
→
03/29 00:02,
6年前
, 7F
03/29 00:02, 7F
→
03/29 00:03,
6年前
, 8F
03/29 00:03, 8F
→
03/29 00:03,
6年前
, 9F
03/29 00:03, 9F
推
03/29 08:39,
6年前
, 10F
03/29 08:39, 10F
推
03/29 09:54,
6年前
, 11F
03/29 09:54, 11F
推
03/29 13:02,
6年前
, 12F
03/29 13:02, 12F
→
03/29 13:03,
6年前
, 13F
03/29 13:03, 13F
推
03/29 13:54,
6年前
, 14F
03/29 13:54, 14F
推
03/30 03:24,
6年前
, 15F
03/30 03:24, 15F
推
03/30 19:51,
6年前
, 16F
03/30 19:51, 16F
推
03/31 16:06,
6年前
, 17F
03/31 16:06, 17F
推
04/02 23:57,
6年前
, 18F
04/02 23:57, 18F
推
05/31 23:55,
6年前
, 19F
05/31 23:55, 19F
討論串 (同標題文章)
完整討論串 (本文為第 5 之 5 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章