[問題] 半桶水請問一個爬蟲post問題

看板Python作者 ( )時間9年前 (2016/12/15 13:34), 編輯推噓5(5010)
留言15則, 5人參與, 最新討論串1/1
單純想爬保險公司營業處的資訊 為何傳回來的都是空值? import urllib,urllib2 import re from time import * url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query" request = urllib2.Request(url) request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36") request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74") form_data = { "county":'台北市', "town":'信義區' } form_data = urllib.urlencode(form_data) response = urllib2.urlopen(request,data=form_data) html=response.read() print html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.111.41.15 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1481780087.A.051.html

12/15 15:03, , 1F
對阿 到底少了什麼 ? cookie?
12/15 15:03, 1F

12/15 17:59, , 2F

12/15 21:51, , 3F

12/15 21:54, , 4F
抓下來是json格式唷
12/15 21:54, 4F

12/15 22:37, , 5F
感謝各位大大.............少了一行"Content-Type"
12/15 22:37, 5F

12/15 22:54, , 6F
之前在爬全家店舖時,也發生過類似的狀況.. 看得到 吃不到
12/15 22:54, 6F

12/15 22:54, , 7F
少一行Referer.........
12/15 22:54, 7F

12/15 22:55, , 8F
那是否每次乾脆都把Request Headers的訊息都附上去?
12/15 22:55, 8F

12/16 15:51, , 9F
有的網站就是會龜毛的檢查某一頁header
12/16 15:51, 9F

12/16 15:51, , 10F
至少能擋掉一堆不會爬的
12/16 15:51, 10F

12/16 15:53, , 11F
之前就有網站檢查 HTTP_ACCEPT_LANGUAGE
12/16 15:53, 11F

12/16 15:53, , 12F
你沒附抓到三次就ban整天...
12/16 15:53, 12F

12/16 15:54, , 13F
盡可能完整的偽造成瀏覽器的格式
12/16 15:54, 13F

12/16 15:54, , 14F
直接cut curl的內容來改也行
12/16 15:54, 14F

12/16 22:23, , 15F
所以 我就是那個被擋在外面的............XDDDD
12/16 22:23, 15F
文章代碼(AID): #1OKYjt1H (Python)
文章代碼(AID): #1OKYjt1H (Python)