Re: [問題] 關於stragglers的Backup task
※ 引述《gmoz ( This can't do that. )》之銘言:
: 這幾天在對MapReduce做一些survey
: 不過有個地方我不太了解細節 o.o
: 就是google用來解決starggles的Backup Task
: 原文如下:
: We have a general mechanism to alleviate the problem
: of stragglers. When a MapReduce operation is close
: to completion, the master schedules backup executions
: of the remaining in-progress tasks. The task is marked
: as completed whenever either the primary or the backup
: execution completes.
: 請問有人知道這個實際運作的細節
: 或是哪邊有資料可以看嗎?
這要先了解到 Google 很多機器都是用便宜的硬體所組成
因此經驗告訴我們, 如果某個 node 如果執行太久, 可能是因為他的硬體出問題
無論是原本 computation 能力就比其他機器低階
或者是硬碟快升天了, 卡卡讓 I/O 變得特別慢
或者 RAM 偵測不到了, node 以為記憶體不夠讓 task 很開心的開始 swap
為了不要讓動作特別慢的機器拖累整個效能
當有一定比例的 task 都做完之後
MapReduce 機制會再把還沒算好的 task 重複發包給先算好的 node
(因為他們先算好, 是好學生, 能者多勞)
一般來說 redundant task 用意有二
1. 讓這種拖累大家進度的 node 不會有太大的影響
2. 如果有硬體有問題, 很可能算回來的資料也不一定對
如果沒辦法單獨 verify 時, 可以用來互相對答案
至於機器死掉只是其中的特例
這個做法的精神並不一定要知道 node 是不是死掉了
畢竟就算 node 沒死, 也是很有可能用掉幾倍的時間
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.30.49
※ 編輯: ledia 來自: 140.112.30.49 (09/07 16:27)
推
09/07 16:58, , 1F
09/07 16:58, 1F
→
09/07 20:10, , 2F
09/07 20:10, 2F
→
09/07 20:20, , 3F
09/07 20:20, 3F
→
09/07 20:49, , 4F
09/07 20:49, 4F
→
09/07 20:50, , 5F
09/07 20:50, 5F
→
09/07 21:10, , 6F
09/07 21:10, 6F
→
09/07 21:10, , 7F
09/07 21:10, 7F
→
09/07 21:11, , 8F
09/07 21:11, 8F
→
09/07 21:12, , 9F
09/07 21:12, 9F
→
09/07 21:13, , 10F
09/07 21:13, 10F
→
09/07 21:13, , 11F
09/07 21:13, 11F
→
09/07 21:25, , 12F
09/07 21:25, 12F
→
09/07 21:27, , 13F
09/07 21:27, 13F
→
09/07 21:42, , 14F
09/07 21:42, 14F
→
09/07 21:43, , 15F
09/07 21:43, 15F
→
09/07 22:12, , 16F
09/07 22:12, 16F
→
09/07 22:12, , 17F
09/07 22:12, 17F
→
09/07 22:33, , 18F
09/07 22:33, 18F
→
09/07 22:33, , 19F
09/07 22:33, 19F
→
09/07 22:34, , 20F
09/07 22:34, 20F
→
09/07 22:35, , 21F
09/07 22:35, 21F
→
09/07 22:35, , 22F
09/07 22:35, 22F
→
09/07 22:36, , 23F
09/07 22:36, 23F
→
09/07 22:41, , 24F
09/07 22:41, 24F
→
09/07 22:41, , 25F
09/07 22:41, 25F
→
09/07 22:42, , 26F
09/07 22:42, 26F
→
09/07 22:53, , 27F
09/07 22:53, 27F
→
09/07 22:59, , 28F
09/07 22:59, 28F
→
09/07 23:00, , 29F
09/07 23:00, 29F
→
09/07 23:01, , 30F
09/07 23:01, 30F
→
09/07 23:01, , 31F
09/07 23:01, 31F
→
09/07 23:02, , 32F
09/07 23:02, 32F
→
09/07 23:02, , 33F
09/07 23:02, 33F
→
09/07 23:03, , 34F
09/07 23:03, 34F
→
09/07 23:03, , 35F
09/07 23:03, 35F
→
09/07 23:03, , 36F
09/07 23:03, 36F
→
09/07 23:04, , 37F
09/07 23:04, 37F
→
09/07 23:04, , 38F
09/07 23:04, 38F
→
09/07 23:04, , 39F
09/07 23:04, 39F
→
09/07 23:04, , 40F
09/07 23:04, 40F
→
09/07 23:05, , 41F
09/07 23:05, 41F
→
09/07 23:07, , 42F
09/07 23:07, 42F
→
09/07 23:07, , 43F
09/07 23:07, 43F
→
09/07 23:08, , 44F
09/07 23:08, 44F
→
09/07 23:08, , 45F
09/07 23:08, 45F
→
09/08 15:29, , 46F
09/08 15:29, 46F
→
09/08 15:30, , 47F
09/08 15:30, 47F
→
09/08 15:30, , 48F
09/08 15:30, 48F
→
09/08 18:38, , 49F
09/08 18:38, 49F
→
09/08 18:39, , 50F
09/08 18:39, 50F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 3 篇):
Cloud 近期熱門文章
PTT數位生活區 即時熱門文章