Re: [心得] 資料整理套件介紹-第二章 dplyr(上)
dplyr 這個套件除了可以對R 的data.frame做處理之外,
也可以對SQL-like Data Source做資料ETL。
所以我是非常推薦版友把時間投資在這類套件之上。
這裡分享我一個實務經驗與玩具專案:
https://github.com/wush978/dplyrSparkSQL
我利用這個套件串接Apache Spark這個高效能資料處理平台,
只要利用和dplyr完全一樣的語法,
可以輕鬆在一分鐘內處理億筆資料的整理。
我認為這類的介面會越來越多,因為不算難擴充(我自己花一個週末就寫了一個)
所以花時間投資dplyr ,未來的潛力是滿高的。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.165.189.37
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1437575926.A.93C.html
→
07/22 22:43, , 1F
07/22 22:43, 1F
→
07/22 23:05, , 2F
07/22 23:05, 2F
→
07/22 23:14, , 3F
07/22 23:14, 3F
→
07/22 23:14, , 4F
07/22 23:14, 4F
→
07/22 23:14, , 5F
07/22 23:14, 5F
推
07/23 09:22, , 6F
07/23 09:22, 6F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章