Re: MapReduce (Re: [情報] 利用智慧型手機建構雲端
: 推 hilorrk:我知道master必須informed其他worker location of data啦. 08/24 06:28
: → hilorrk:用MapReduce當然就不可能像以前寫MPI還要在code裡切割分配 08/24 06:29
: → hilorrk:我的意思是..由master傳輸process和location受限於master 08/24 06:30
: → hilorrk:網路是沒辦法的吧?相較下來map task從DFS讀取大量data及運 08/24 06:31
: → hilorrk:算才是真正的平行所在?(當然還包括reduce) 08/24 06:33
: → hilorrk:至於map worker的grouping及reduce worker的merge要如何實 08/24 06:41
: → hilorrk:現 這又是另一個問題了...確實有看到不少model就是了 08/24 06:42
: → hilorrk:不知我的概念是否還有哪裡有需要指正的地方? 08/24 06:58
你是在研究MapReduce的議題,做碩士或博士的研究題目嗎?
可以多看一些註解方面的文章.
前一篇有提到"Analyzing MapReduce with CSP"
對MapReduce原文算是很好的註解,在model上有很明白的解釋.
(所以我才會質疑他們說map工作完之後要sort,這sort有沒有必要.)
這文章的研究人馬,最近還有二篇延伸的討論文章,一樣是CSP,很期待能取得來看看.
Map task 的平行來自因為map workers同時有很多個,每個worker執行同一份map,
也就是,許多workers變成同一個map的許多instances. 大量data,則是分解為能
分配給workers的許多份. 在這方面有什麼問題嗎?
跟master是否要傳輸process出去,看起來沒有關聯.
起先回答你的問題 (話說回來,你的概念是什麼啊?) 是針對一句:
Master 應該沒有傳輸 "資料" 出去吧
嗯...當然,主要被計算的資料項目當然不是由master送出來的. 我想你誤會了意思.
Master送工作出去,無論是給map worker或是reduce worker,都一定要給幾個資訊:
1. Job的函數名稱是甚麼.
2. Job的二個參數,如果參數量很大,至少要給幾個檔名吧.
而且,哪個map worker收哪段資料,也是master告訴它.
我想, "資料" 只是很普通的講法而已. 這些資料的資料,也是資料.
至於前面推文說
"由master傳輸process和location受限於maste(斷行)網路是沒辦法的吧"
這問題是什麼?
這東西如何做分散資源分配,當然是來自於系統的體質,是分散的.
計算單元們是分散的,而且是平行的.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.160.210.87
※ 編輯: yauhh 來自: 218.160.210.87 (08/26 20:27)
→
08/26 22:03, , 1F
08/26 22:03, 1F
→
08/26 22:04, , 2F
08/26 22:04, 2F
→
08/28 07:42, , 3F
08/28 07:42, 3F
推
09/04 14:48, , 4F
09/04 14:48, 4F
→
09/06 21:31, , 5F
09/06 21:31, 5F
→
09/07 11:01, , 6F
09/07 11:01, 6F
→
09/07 13:11, , 7F
09/07 13:11, 7F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 5 之 6 篇):
Cloud 近期熱門文章
PTT數位生活區 即時熱門文章