Re: [問題] python 抓取網頁上的資料??

看板Python作者 (Beware of the Monkey)時間17年前 (2007/04/20 11:06), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串6/6 (看更多)
※ 引述《chy1013m1 (alex.c)》之銘言: : 用 urllib, urllib2 加上 re module 自己寫難度不高. =] 在 gmail 出現前,難度不高,但現在是 web 2.0 時代。 urllib2 應付的還是 web 1.0 的東西。 要不然你就要裝一些工具或者手動分析那些 AJAX 的流程, 然後直接抓 json 或者 xml,不然就要外掛一個 javascript 翻譯器。 這兩個有的時候都不簡單。 最簡單的還是靠 PAMIE、XPCOM、jssh 這類東西來自動控制瀏覽器比較容易弄。 就算沒有 ajax 或者 javascript,而且你不想用瀏覽器自動機,form, session 的東西還是有點討厭。靠 urllib2 雖然都可以搞定,常常也不會太麻煩,但有一 些現成的工具幫忙,至少多個選擇,而且可以省掉一些麻煩事。有些還可以處理一 點動態 form。如果你只是抓一個網頁當然沒事,但是有時候你會想要抓一組網頁, 或者依照使用者的輸入來抓不同的網頁。這個現在也很多人有需求,畢竟現在是 web 2.0 mashup 的熱潮時代。 PAMIE 程式的強度看起來不高,第一個會碰到的問題是轉碼的問題,可以把裡面的 所有的str內定轉碼改成 utf-8 。 -- http://weijr-note.blogspot.com 筆記筆記 http://weijr.b81.org/poker 好膽玩家 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 134.208.26.237 ※ 編輯: weijr 來自: 134.208.26.237 (04/20 11:14)

04/21 01:31, , 1F
04/21 01:31, 1F
文章代碼(AID): #16A2uY_J (Python)
文章代碼(AID): #16A2uY_J (Python)