[問題] multi thread 爬取網頁資料
大概爬了一下文好像沒人問過這個問題
簡單的說就是目前是用urllib2 跟 BeautifulSioup 來爬dom tree
但是我需要的可能是同時一次爬超過1000個網站 而每一個網站
可能還需要取出其中的1000個連結再繼續爬...
這樣時間複雜度就是 n 的 n 次方 ................
我想了幾個方向
第一個是 multi thread,另外一個是好像 twisted 似乎可以
再來就是hadoop + python
當然是可以用我的模型是可以用常態分佈取得一個平衡,不見得真的會
取到1000 * 1000 個
但是即使是 500 * 500 仍然是一個很可怕的數字@@
不知道大家有沒有好的建議該怎麼做@@?
感謝!
--
從你的 iPhone 發出
嗄? 你沒有iPhone ?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.34.79.27
→
11/05 22:16, , 1F
11/05 22:16, 1F
推
11/05 23:29, , 2F
11/05 23:29, 2F
→
11/08 23:23, , 3F
11/08 23:23, 3F
Python 近期熱門文章
PTT數位生活區 即時熱門文章