[問題] 爬蟲header問題

看板Python作者 (呆呆要不要買降有)時間4年前 (2020/08/28 19:52), 4年前編輯推噓0(001)
留言1則, 1人參與, 4年前最新討論串1/1
各位哥大家好,最近開發爬蟲的時候遇到了一些問題想請教一下爬蟲高手們 我在做一個自己用的工具可以模擬使用者的動作,產生python送請求的script 主要是透過Chrome的開發者工具,把使用者操作時執行的請求跟結果匯出.har檔, har檔裡面會用json格式記錄每一個送出的請求跟相關的資訊 我遇到的問題是在其中一個請求裡面的header 他在har檔案裡面的Content-Length是40 ``` "name": "Content-Length", "value": "40" ``` https://imgur.com/a/EmdSkxU 但是我執行的時候他會一直卡在request.post()那邊 所以我後來才加上timeout參數讓他斷線 後來試了一下發現如果把 Content-Length 值改成0他就可以正常送出請求 我好奇的是為什麼一樣的header 在Chrome操作的時候可以正常執行,但到程式裡面就不正常了 是網站有什麼特別的機制讓他偵測到我python的連線是有問題的連線嗎 附上那個有問題的Request相關資料 https://reurl.cc/Oq0QQy 如果真的是網站牛逼,各位爬蟲大師在面對類似這種問題的時候是怎麼樣去排除的 因為我今天是HEADER一個一個試,剛好遇到只要改一個欄位就可以正常執行的情況 如果他可能是HEADER中N個欄位都要做這種事的話可能就會花很多時間 再麻煩了,感謝 --

07/15 22:00,
雨八
07/15 22:00

07/15 22:03,
田ㄙ
07/15 22:03

07/15 22:14,
...什麼雷公!再給你一次機會 雨八
07/15 22:14

07/15 22:30,
云木
07/15 22:30

07/15 22:32,
什麼雲朵!!最後一次! 雨八
07/15 22:32

07/15 22:34,
云ㄙ
07/15 22:34
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.75.101.50 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1598615537.A.54E.html ※ 編輯: e23882 (211.75.101.50 臺灣), 08/28/2020 20:00:28

08/28 20:16, 4年前 , 1F
不用帶長度,requests會自己算跟帶
08/28 20:16, 1F
文章代碼(AID): #1VIE_nLE (Python)
文章代碼(AID): #1VIE_nLE (Python)