MapReduce (Re: [情報] 利用智慧型手機建構雲端
※ 引述《hilorrk (Cary)》之銘言:
: 如果對MapReduce不熟 可以查查wikipedia
: 或是看看google這篇paper(比起bigtable、GFS和chubby 它好讀多了)
: http://labs.google.com/papers/mapreduce.html
以前看到MapReduce,的確不可否認是很棒的計算組織方式.
借用了函數語言的特色,最棒的就是在把工作拆成幾個簡單的部份,
讓幾個簡單的工作銜接,而達成原來整個工作的目標.
Map和Reduce二方都很好懂.接著,就會想到,
那worker呢? mater要怎麼將資料妥善分配到每個worker?
以論文第一個例子來看:
takeWord(doc, word):
for each term in doc
if term = word, emit(word, "1")
這是map,只要知道一份文件和一個詞,就從文件中抓出詞的出現次.
於是,處理map的workder一定要知道要處理哪個文件和哪個詞.
問題來了,在文件資料庫中有那麼多文件,要找那麼多詞,
master應該要先整理許多文件與詞的配對:例如,
("doc1", "hello") ("doc1", "world") ("doc2", "foo") ("doc2", "bar") ...
不曉得這方面有沒有人有何見解?
我想可能是用map分別取每個檔案名和每個詞彙,然後用reduce合併成配對.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.160.211.76
推
08/19 10:10, , 1F
08/19 10:10, 1F
→
08/19 10:11, , 2F
08/19 10:11, 2F
→
08/19 10:11, , 3F
08/19 10:11, 3F
→
08/19 10:12, , 4F
08/19 10:12, 4F
→
08/19 10:12, , 5F
08/19 10:12, 5F
→
08/19 10:13, , 6F
08/19 10:13, 6F
→
08/19 10:14, , 7F
08/19 10:14, 7F
→
08/19 14:25, , 8F
08/19 14:25, 8F
→
08/19 14:25, , 9F
08/19 14:25, 9F
推
08/19 14:32, , 10F
08/19 14:32, 10F
→
08/19 14:33, , 11F
08/19 14:33, 11F
→
08/19 14:34, , 12F
08/19 14:34, 12F
推
08/19 15:40, , 13F
08/19 15:40, 13F
→
08/19 15:40, , 14F
08/19 15:40, 14F
→
08/19 15:44, , 15F
08/19 15:44, 15F
→
08/19 15:46, , 16F
08/19 15:46, 16F
→
08/19 19:41, , 17F
08/19 19:41, 17F
→
08/19 19:41, , 18F
08/19 19:41, 18F
→
08/19 19:42, , 19F
08/19 19:42, 19F
→
08/19 19:43, , 20F
08/19 19:43, 20F
推
08/20 09:53, , 21F
08/20 09:53, 21F
→
08/20 09:54, , 22F
08/20 09:54, 22F
→
08/20 09:54, , 23F
08/20 09:54, 23F
→
08/20 10:06, , 24F
08/20 10:06, 24F
→
08/20 10:07, , 25F
08/20 10:07, 25F
→
08/20 10:48, , 26F
08/20 10:48, 26F
討論串 (同標題文章)
Cloud 近期熱門文章
PTT數位生活區 即時熱門文章