[問題] multi thread 爬取網頁資料

看板Python作者 (鹽です)時間12年前 (2013/11/05 20:56), 編輯推噓1(102)
留言3則, 3人參與, 最新討論串1/1
大概爬了一下文好像沒人問過這個問題 簡單的說就是目前是用urllib2 跟 BeautifulSioup 來爬dom tree 但是我需要的可能是同時一次爬超過1000個網站 而每一個網站 可能還需要取出其中的1000個連結再繼續爬... 這樣時間複雜度就是 n 的 n 次方 ................ 我想了幾個方向 第一個是 multi thread,另外一個是好像 twisted 似乎可以 再來就是hadoop + python 當然是可以用我的模型是可以用常態分佈取得一個平衡,不見得真的會 取到1000 * 1000 個 但是即使是 500 * 500 仍然是一個很可怕的數字@@ 不知道大家有沒有好的建議該怎麼做@@? 感謝! -- 從你的 iPhone 發出 嗄? 你沒有iPhone ? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.34.79.27

11/05 22:16, , 1F
n^n... 你要不要先把問題定義好再去抓?
11/05 22:16, 1F

11/05 23:29, , 2F
你需要的是 scrapy
11/05 23:29, 2F

11/08 23:23, , 3F
Scrapy ++
11/08 23:23, 3F
文章代碼(AID): #1IUEiOqE (Python)
文章代碼(AID): #1IUEiOqE (Python)