[問題] Spark平台運用?

看板R_Language作者 (Creat yourself)時間6年前 (2019/01/10 21:09), 6年前編輯推噓5(5035)
留言40則, 6人參與, 6年前最新討論串1/1
[問題類型]: 請把以下不需要的部份刪除 意見調查(我對R 有個很棒的想法,想問問大家的意見) 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) 效能諮詢(我想讓R 跑更快) [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: 請問整理百萬筆的資料用Spark有比用原本Rstudio還快嗎? 看很多中文網頁都說Spark可以加快速度,有沒有人實作過能分享經驗的>< 用筆電跑資料好慢/_\ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.146.241 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1547125743.A.E75.html

01/10 21:45, 6年前 , 1F
看實際資料是多少,百萬筆應該是不太能感受到有無spar
01/10 21:45, 1F

01/10 21:45, 6年前 , 2F
k的差別
01/10 21:45, 2F
所以L大有用過囉!? 可以分享整理多少資料跟原本插了多少時間嗎 ※ 編輯: jgj12321 (36.225.146.241), 01/10/2019 21:56:14 ※ 編輯: jgj12321 (36.225.146.241), 01/10/2019 22:04:06

01/10 23:25, 6年前 , 3F
我猜測的,沒實際比過data.table跟spark的差異
01/10 23:25, 3F

01/10 23:27, 6年前 , 4F
我的看法是可以更詳細描述一下使用的情境
01/10 23:27, 4F

01/10 23:29, 6年前 , 5F
比方說效能瓶頸是卡在哪一個步驟的計算
01/10 23:29, 5F

01/11 12:23, 6年前 , 6F
百萬筆的話 data.table還是比較快
01/11 12:23, 6F

01/11 12:24, 6年前 , 7F
spark主要是連到server 串接多台server才會快
01/11 12:24, 7F

01/11 12:24, 6年前 , 8F
但是網路傳輸的速度遠慢於計算
01/11 12:24, 8F

01/11 12:24, 6年前 , 9F
完全划不來....
01/11 12:24, 9F
不懂C大您的意思 是說 1. 一定要多台才能Spark? 2.不懂為什麼計算速度會慢於網路傳輸速度,我是用100M網路,可是常常Run到10分鐘以上 ※ 編輯: jgj12321 (36.225.146.241), 01/11/2019 17:20:19

01/11 17:23, 6年前 , 10F
就是因計算速度>網路傳輸,所以效能會卡在傳輸,除非你
01/11 17:23, 10F

01/11 17:25, 6年前 , 11F
你資料大到 必須靠多台運算而且傳輸損失的時間已可以忽略
01/11 17:25, 11F
那請問有可能用雲端計算跑然後傳回我電腦的速度比我的電腦還快嗎? 還是要實際測試才知道呢? ※ 編輯: jgj12321 (36.225.146.241), 01/11/2019 18:19:41

01/12 21:22, 6年前 , 12F
真的要玩分散式,網路是重點,GOOGLE在這方面有優勢
01/12 21:22, 12F

01/12 21:22, 6年前 , 13F
他有自己的海底電纜,自己有網路
01/12 21:22, 13F

01/12 21:23, 6年前 , 14F
100M的網路很慢,你看看你硬碟、記憶體傳輸多快
01/12 21:23, 14F

01/12 21:23, 6年前 , 15F
分散式,多台之前怎麼聯繫?就是靠網路
01/12 21:23, 15F

01/12 21:23, 6年前 , 16F
網路慢,算得快也沒用,終究會被網速限制
01/12 21:23, 16F

01/12 21:24, 6年前 , 17F
然後,不是一定要多台才能SPARK
01/12 21:24, 17F

01/12 21:25, 6年前 , 18F
他就是分散式系統,你單機就違背當初概念
01/12 21:25, 18F

01/12 21:26, 6年前 , 19F
跑很慢,主要原因可能是code寫法、筆電弱
01/12 21:26, 19F

01/12 21:26, 6年前 , 20F
同一種資料整理,不同R寫法,速度可差到10倍以上
01/12 21:26, 20F
可是大大計算不是主要用CPU嗎,請問跟網速有什麼關係呢... ※ 編輯: jgj12321 (118.160.78.144), 01/12/2019 21:29:54

01/12 21:31, 6年前 , 21F
這樣講好了,1TB data 要建模,單一設備玩不了
01/12 21:31, 21F

01/12 21:32, 6年前 , 22F
所以分散給100台電腦,去建 model
01/12 21:32, 22F

01/12 21:32, 6年前 , 23F
data就是要靠網路傳輸
01/12 21:32, 23F

01/14 08:44, 6年前 , 24F
更正樓上說的,單台不見得很慢啦,原po的資料量用不
01/14 08:44, 24F

01/14 08:44, 6年前 , 25F
太到spark,多台電腦的話,比較能夠用上spark的powe
01/14 08:44, 25F

01/14 08:44, 6年前 , 26F
r,但是多台就是會有網路速度跟運算速度問題,運算
01/14 08:44, 26F

01/14 08:44, 6年前 , 27F
太快剩下就會變成都在等傳輸。
01/14 08:44, 27F

01/14 08:45, 6年前 , 28F
至於雲端平台的話,傳輸可能要更久,因為要經過滿多
01/14 08:45, 28F

01/14 08:45, 6年前 , 29F
層才能到你的電腦,當然還是實際測試比較準
01/14 08:45, 29F

01/14 08:46, 6年前 , 30F
還是建議原po把要解決的問題po上來,看看是不是可以
01/14 08:46, 30F

01/14 08:46, 6年前 , 31F
用其他方法解決。
01/14 08:46, 31F

01/15 12:36, 6年前 , 32F
如果只是整理資料不考慮用SQL做嗎?
01/15 12:36, 32F

01/16 02:52, 6年前 , 33F
SQL能做的有限
01/16 02:52, 33F

01/16 21:53, 6年前 , 34F
SQL有時候要做到程式只要幾行的邏輯 可能要寫很久
01/16 21:53, 34F

01/16 21:53, 6年前 , 35F
而且不見得有比較好的performance
01/16 21:53, 35F

01/16 21:54, 6年前 , 36F
但是SQL在處理相對簡單的資料前處理還是比較方便
01/16 21:54, 36F

03/29 12:26, 6年前 , 37F
資料大到記憶體裝不下才需要資料庫吧@@ 如果記憶體夠 其
03/29 12:26, 37F

03/29 12:26, 6年前 , 38F
實用核心去做分散運算就好了
03/29 12:26, 38F

03/29 12:27, 6年前 , 39F
可以嘗試foreach+doparallel , 真的不行在用MPI的方式去
03/29 12:27, 39F

03/29 12:27, 6年前 , 40F
做串接
03/29 12:27, 40F
文章代碼(AID): #1SDqFlvr (R_Language)
文章代碼(AID): #1SDqFlvr (R_Language)