[發案] Python data pipeline 改善與測試
[發案] Python data pipeline 改善與測試
發案人:曾先生
聯絡方式1:站內信
聯絡方式2:
所在地區 :海外(UTC+1時區)
有效時間:徵到為止。2022-01-02前完成,額外加給20%。
專案說明:
現有 data pipeline 包含三個獨立運行的docker service:
Common Crawl data retriever, GDELT data retriever 與 data preprocessor。
程式語言為 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。
中間資料集與結果皆以 MongoDB 儲存。
資料處理邏輯與 docker 封裝已基本完成,小資料集測試OK。
但推上測試環境爬取真實資料時,發生諸多問題例如
- 各種data bugs除之不盡
- 無法測試並確認scheduler的正確性與可靠性
- 不知道要如何應付網路中斷、資料重抓錯抓、系統停機重啟等各種狀況。
主要的requirement就是解決上面的問題,讓程式達到可以上線的品質。
接觸洽談流程如下:
發案人會先做一次live demo,
展示目前的code如何運作,解釋功能設計與問題瓶頸。
決定接案後,發案人會與接案者共同 refine 一次具體的 requirement spec,
並開放 GitLab private repo 給接案者作業。
預算:NTD 15k
- 2022-01-02前完成,額外加給20%。
- 如須使用AWS等付費服務,事先與發案人討論即可。費用由發案人負擔。
接案者要求:
- 一般 Python 3 服務之開發、測試與維護經驗
- 熟悉此類連續運行服務之可靠性設計
- 熟悉 docker 環境調試
- 能夠有紀律的執行一般 Git DevOps,例如每個 commit 盡量只做一件事;
commit message 與 changelog 簡明清楚等
- (加分項)熟悉平行化程式之設計與除錯
- (重要加分項)具相似data pipeline與服務的架設經驗
附註:保密義務
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 77.161.173.88 (荷蘭)
※ 文章網址: https://www.ptt.cc/bbs/CodeJob/M.1640459987.A.4BE.html
→
12/26 09:28,
3年前
, 1F
12/26 09:28, 1F
→
12/26 13:31,
3年前
, 2F
12/26 13:31, 2F
→
12/27 00:17,
3年前
, 3F
12/27 00:17, 3F
→
12/27 12:13,
3年前
, 4F
12/27 12:13, 4F
推
12/27 13:45,
3年前
, 5F
12/27 13:45, 5F
→
12/27 17:46,
3年前
, 6F
12/27 17:46, 6F
CodeJob 近期熱門文章
PTT數位生活區 即時熱門文章