[問題] 爬蟲header問題
各位哥大家好,最近開發爬蟲的時候遇到了一些問題想請教一下爬蟲高手們
我在做一個自己用的工具可以模擬使用者的動作,產生python送請求的script
主要是透過Chrome的開發者工具,把使用者操作時執行的請求跟結果匯出.har檔,
har檔裡面會用json格式記錄每一個送出的請求跟相關的資訊
我遇到的問題是在其中一個請求裡面的header
他在har檔案裡面的Content-Length是40
```
"name": "Content-Length",
"value": "40"
```
https://imgur.com/a/EmdSkxU
但是我執行的時候他會一直卡在request.post()那邊
所以我後來才加上timeout參數讓他斷線
後來試了一下發現如果把 Content-Length 值改成0他就可以正常送出請求
我好奇的是為什麼一樣的header
在Chrome操作的時候可以正常執行,但到程式裡面就不正常了
是網站有什麼特別的機制讓他偵測到我python的連線是有問題的連線嗎
附上那個有問題的Request相關資料
https://reurl.cc/Oq0QQy
如果真的是網站牛逼,各位爬蟲大師在面對類似這種問題的時候是怎麼樣去排除的
因為我今天是HEADER一個一個試,剛好遇到只要改一個欄位就可以正常執行的情況
如果他可能是HEADER中N個欄位都要做這種事的話可能就會花很多時間
再麻煩了,感謝
--
噓
07/15 22:00,
07/15 22:00
噓
07/15 22:03,
07/15 22:03
噓
07/15 22:14,
07/15 22:14
噓
07/15 22:30,
07/15 22:30
推
07/15 22:32,
07/15 22:32
噓
07/15 22:34,
07/15 22:34
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.75.101.50 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1598615537.A.54E.html
※ 編輯: e23882 (211.75.101.50 臺灣), 08/28/2020 20:00:28
→
08/28 20:16,
4年前
, 1F
08/28 20:16, 1F
Python 近期熱門文章
PTT數位生活區 即時熱門文章