看板
[ CSSE ]
討論串[問題] 爬全球的網站大概要花多久?
共 5 篇文章
內容預覽:
我依照我的想法切割一下. 也許有失原意,屈時再請各位指正. 簡單一句話,你要看前半段還是後半段.... 如果看前半段... reader 說得完全正確. 當初就是兩個自以為很屌,想出很屌的點子的研究生. 因為自己的點子沒有公司願意鳥. (或是說:不是讓他們覺得很爽的鳥法). 反正不用當兵 [慘笑].
(還有333個字)
內容預覽:
這有什麼好諷剌的?. 創造和運用資本的力量遠比資本力量本身更重要。. 只怕有半數的企業家都敢說,如果他突然一文不名,幾年後還是可以. 重新建立他的事業。. 而這就是創造資本的力量的一個例子,這比那些數字更值得敬畏。. 技術、管理、人才、思想、誠信等等,有許多東西都比資本力量更為. 重要。. 世界上多
(還有31個字)
內容預覽:
20G / (86400 * 7) 約等於 33000.. 所以每秒鐘似乎得處理三、四萬個連線。. 不過實際上的數字會遠小於此數,因為一個連線就可以檢查該機器所有的. 網頁,而大部分的網頁都存在少數網站上,通常還是高效能網站。所以,. 只要好好運用 Keep-Alive, 連線數量並不是問題。. 當
(還有144個字)
內容預覽:
你可以先計算網路頻寬,目前中小型 ISP 的機房,對外多在 OC-12 (622Mb). 以下,內部則是用 Gigabit Ethernet 為主,所以一台機器能使用 50MB/s 的. 頻寬,大概就是一個限度了。. 也因此,你可以想辦法估計全球網頁的總資料量,再考慮網路的極限速率,再. 看看軟硬體
(還有541個字)
內容預覽:
我最近在寫網頁爬蟲,不過目前只針對特定資料. 我一直有一個疑問,如果像Google那樣爬全球的網頁. 大概要多少臺什麼等級的機器,和網路環境. 在多久的時間內可以爬完,爬行過程中更新的就不去管了. 以上是我的疑問. 我雖然可以用我的程式實驗看看,可是我想光靠我這台電腦. 這丁點頻寬,要去跑全球的網頁
(還有112個字)