Re: MapReduce (Re: [情報] 利用智慧型手機建構雲端
※ 引述《yauhh (喲)》之銘言:
: 我想MapReduce是個model,不一定有個完整的底層平台.
: 既然是programming model,有可能從一開始寫程式就可以順著這個心法做.
: 從檔案文件處理出發,首先要從檔案系統取得檔案清單. 這是map:
: TakeFiles(folder, nil):
: for each file in dir(folder),
: emit(file, nil).
: 可以叫好幾台電腦分別處理不同的目錄,把檔案抓出來.
: 檔案名字變成許多小片段,送到master node或是一些groupper.
: 接著,要把檔案和詞彙配對,好觸發每一個文件詞彙搜集的map工作.
: 假設詞彙的數目可以容許一個工作做完,將檔案與詞彙配對的工作是一個reduce:
: Pair(file, terms):
: for each term in terms,
: FindTerm(file, term).
: FindTerm是個map:
: FindTerm(file, term):
: for each word in content(file),
: if (word = term),
: emit(term, 1).
: 有何指教?
我提供一個很 naive 的做法
cralwer 們每抓到一個檔案, 或一個網頁
就把這筆資料依照自己的格式存進 DFS
並且把 (key:content_position) 發給 MQ server
而 indexer 的 mapper 每次從 MQ server 拿一筆資料
(這裡不需要 MapReduce)
之後每次 mapper 拿到一筆資料
IndexFileMapper(file):
for each term in tokenizer(file),
emit(term, file).
IndexFileReducer(term, file_list):
StoreToIndexDb(term, uniq(sort(file_list))).
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.30.51
※ 編輯: ledia 來自: 140.112.30.51 (08/20 10:16)
※ 編輯: ledia 來自: 140.112.30.51 (08/20 10:18)
推
08/20 10:27, , 1F
08/20 10:27, 1F
→
08/20 11:09, , 2F
08/20 11:09, 2F
→
08/20 11:09, , 3F
08/20 11:09, 3F
→
08/21 11:49, , 4F
08/21 11:49, 4F
→
08/21 11:49, , 5F
08/21 11:49, 5F
→
08/21 11:50, , 6F
08/21 11:50, 6F
→
08/23 19:12, , 7F
08/23 19:12, 7F
→
08/23 19:13, , 8F
08/23 19:13, 8F
→
08/23 19:50, , 9F
08/23 19:50, 9F
→
08/23 19:51, , 10F
08/23 19:51, 10F
→
08/23 19:53, , 11F
08/23 19:53, 11F
→
08/23 19:55, , 12F
08/23 19:55, 12F
→
08/23 19:56, , 13F
08/23 19:56, 13F
→
08/23 19:56, , 14F
08/23 19:56, 14F
→
08/23 19:57, , 15F
08/23 19:57, 15F
→
08/23 19:58, , 16F
08/23 19:58, 16F
→
08/23 19:58, , 17F
08/23 19:58, 17F
→
08/23 20:05, , 18F
08/23 20:05, 18F
→
08/23 20:06, , 19F
08/23 20:06, 19F
→
08/23 20:06, , 20F
08/23 20:06, 20F
→
08/23 20:07, , 21F
08/23 20:07, 21F
→
08/23 23:45, , 22F
08/23 23:45, 22F
→
08/23 23:46, , 23F
08/23 23:46, 23F
→
08/23 23:47, , 24F
08/23 23:47, 24F
→
08/23 23:49, , 25F
08/23 23:49, 25F
→
08/24 00:16, , 26F
08/24 00:16, 26F
→
08/24 00:16, , 27F
08/24 00:16, 27F
→
08/24 00:17, , 28F
08/24 00:17, 28F
→
08/24 00:18, , 29F
08/24 00:18, 29F
→
08/24 00:21, , 30F
08/24 00:21, 30F
→
08/24 00:21, , 31F
08/24 00:21, 31F
→
08/24 03:27, , 32F
08/24 03:27, 32F
→
08/24 03:29, , 33F
08/24 03:29, 33F
→
08/24 03:30, , 34F
08/24 03:30, 34F
→
08/24 03:30, , 35F
08/24 03:30, 35F
→
08/24 03:31, , 36F
08/24 03:31, 36F
→
08/24 03:32, , 37F
08/24 03:32, 37F
討論串 (同標題文章)
Cloud 近期熱門文章
PTT數位生活區 即時熱門文章