Re: MapReduce (Re: [情報] 利用智慧型手機建構雲端

看板Cloud作者 (喲)時間14年前 (2010/08/26 20:25), 編輯推噓1(106)
留言7則, 3人參與, 最新討論串5/6 (看更多)
: 推 hilorrk:我知道master必須informed其他worker location of data啦. 08/24 06:28 : → hilorrk:用MapReduce當然就不可能像以前寫MPI還要在code裡切割分配 08/24 06:29 : → hilorrk:我的意思是..由master傳輸process和location受限於master 08/24 06:30 : → hilorrk:網路是沒辦法的吧?相較下來map task從DFS讀取大量data及運 08/24 06:31 : → hilorrk:算才是真正的平行所在?(當然還包括reduce) 08/24 06:33 : → hilorrk:至於map worker的grouping及reduce worker的merge要如何實 08/24 06:41 : → hilorrk:現 這又是另一個問題了...確實有看到不少model就是了 08/24 06:42 : → hilorrk:不知我的概念是否還有哪裡有需要指正的地方? 08/24 06:58 你是在研究MapReduce的議題,做碩士或博士的研究題目嗎? 可以多看一些註解方面的文章. 前一篇有提到"Analyzing MapReduce with CSP" 對MapReduce原文算是很好的註解,在model上有很明白的解釋. (所以我才會質疑他們說map工作完之後要sort,這sort有沒有必要.) 這文章的研究人馬,最近還有二篇延伸的討論文章,一樣是CSP,很期待能取得來看看. Map task 的平行來自因為map workers同時有很多個,每個worker執行同一份map, 也就是,許多workers變成同一個map的許多instances. 大量data,則是分解為能 分配給workers的許多份. 在這方面有什麼問題嗎? 跟master是否要傳輸process出去,看起來沒有關聯. 起先回答你的問題 (話說回來,你的概念是什麼啊?) 是針對一句: Master 應該沒有傳輸 "資料" 出去吧 嗯...當然,主要被計算的資料項目當然不是由master送出來的. 我想你誤會了意思. Master送工作出去,無論是給map worker或是reduce worker,都一定要給幾個資訊: 1. Job的函數名稱是甚麼. 2. Job的二個參數,如果參數量很大,至少要給幾個檔名吧. 而且,哪個map worker收哪段資料,也是master告訴它. 我想, "資料" 只是很普通的講法而已. 這些資料的資料,也是資料. 至於前面推文說 "由master傳輸process和location受限於maste(斷行)網路是沒辦法的吧" 這問題是什麼? 這東西如何做分散資源分配,當然是來自於系統的體質,是分散的. 計算單元們是分散的,而且是平行的. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.160.210.87 ※ 編輯: yauhh 來自: 218.160.210.87 (08/26 20:27)

08/26 22:03, , 1F
小弟只是大二升大三的學生啦...而且還不是資訊本科系的XD
08/26 22:03, 1F

08/26 22:04, , 2F
也多謝您的提點 我會再多survey一些相關的文件的!
08/26 22:04, 2F

08/28 07:42, , 3F
嗯.那我是寫程式的,讀這些的目的要實做MapReduce framework
08/28 07:42, 3F

09/04 14:48, , 4F
y大說的是Formalizing MapReduce with CSP 這篇嗎 我手上有
09/04 14:48, 4F

09/06 21:31, , 5F
嗯,我也看完了,很精采的一篇文
09/06 21:31, 5F

09/07 11:01, , 6F
我對CSP沒接觸 看起來格外痛苦XD...
09/07 11:01, 6F

09/07 13:11, , 7F
那就去找C.A.R.的原著,他那本書已經開放為公用文件了
09/07 13:11, 7F
文章代碼(AID): #1CTbrMFc (Cloud)
討論串 (同標題文章)
文章代碼(AID): #1CTbrMFc (Cloud)