[問題] 如何將網站上的數十筆資料一口氣載下來?

看板Python作者 (阿川)時間14年前 (2011/08/11 17:22), 編輯推噓4(405)
留言9則, 6人參與, 最新討論串1/1
大家好 小弟學web programming一陣子了 是學Google App Engine並使用Python寫 最近小弟受到一位長輩所託 希望我將司法院法學資料檢索系統裡面的一部分判決書載下來 作進一步data mining之用 http://jirs.judicial.gov.tw/Index.htm 例如:判決書查詢→台北地方法院、民事、檢索「保護中心」 則會出現約100份判決書 請問要怎麼樣將這100份判決書載下來呢? 小弟之前有使用過Beautiful Soup 知道它可以做parse的動作 是否就是利用它來載判決書呢? 還是這件事有其他適合的工具可以使用  並不需要Beautiful Soup? 煩請各位大大指點迷津 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.231.24.204

08/11 23:54, , 1F
我直覺想到是urllib這一類的加上HTMLParser?
08/11 23:54, 1F

08/12 14:57, , 2F
對呀, 應該很簡單, urllib2..加file..
08/12 14:57, 2F

08/12 14:58, , 3F
抓無名小站圖片都用這招(誤)
08/12 14:58, 3F

08/12 16:26, , 4F
之前寫過spider抓大量網頁 也用urllib2+beautiful soap
08/12 16:26, 4F

08/13 00:19, , 5F
urllib + regex 或許是一個方法? 我是這樣做啦
08/13 00:19, 5F

08/13 00:22, , 6F
雖然我parse的是這份csv http://goo.gl/Qs7VH
08/13 00:22, 6F

08/13 00:23, , 7F
http://goo.gl/k5YCS 我去Parse回來長的樣子
08/13 00:23, 7F
感謝各位大大 用urllib2加上BeautifulSoup便解決 ※ 編輯: poopoo888888 來自: 61.231.24.139 (08/14 09:58)

08/16 10:21, , 8F
urlfetch
08/16 10:21, 8F

08/16 11:24, , 9F
pyquery 用了你會愛上它
08/16 11:24, 9F
文章代碼(AID): #1EGvz2g3 (Python)
文章代碼(AID): #1EGvz2g3 (Python)