Re: [問題] 想在Scala的RDD物件中更新變量

看板java作者 (畢業了..@@")時間8年前 (2017/03/20 22:39), 8年前編輯推噓2(202)
留言4則, 2人參與, 最新討論串3/3 (看更多)
※ 引述《iwantstronge (...)》之銘言: : 版友們好~ : 最近剛學Scala, 有個問題卡了很久 : 當我把檔案用RDD讀進來: : val input = sc.textfile("myfile.txt") : 接著逐行讀取這個檔案(RDD), : 在裡面用一個容器(HashMap, Array, List之類的)儲存每一行的一些資訊 input.map(line => (line, 1)).reduceByKey(_ + _).collect 回傳是一個tuple array 自己再轉回HashMap 更簡單的是 input.distinct().collect -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.40.244 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1490020758.A.F43.html ※ 編輯: popcorny (36.229.40.244), 03/20/2017 22:40:13 ※ 編輯: popcorny (36.229.40.244), 03/20/2017 22:41:03

03/21 10:56, , 1F
感謝回覆,其實我會想轉成HashMap主要是時間效率好
03/21 10:56, 1F

03/21 10:57, , 2F
如果資料量太大是否就只能以RDD來處理?lookup()之
03/21 10:57, 2F

03/21 10:58, , 3F
類的~~ 但是時間效率很差~
03/21 10:58, 3F

03/21 20:06, , 4F
lookup多大?有沒有考慮broadcast放不放得下或nosql
03/21 20:06, 4F
文章代碼(AID): #1Op-cMz3 (java)
文章代碼(AID): #1Op-cMz3 (java)