[問題] 爬蟲資料返回虛假資料
最近練習爬資料時,
在爬蝦皮發現返回的資料量很少且
爬到100筆左右數據以後會返回虛假
資料。
嘗試過消除瀏覽器cookie:
1.模擬常人訪問時間
import time
import random
time. sleep(random.randint(1,9))
2.固定狀態更新cookies, 用requests. cookies. get_dict(),觀察發現更新後的cookie
跟我定義的cookie字典不同,在想是否有session Id留在蝦皮伺服器記錄session
import requests
session=requests.session()
params={}
cookie_dict={}
headers={}
session. cookies. update(cookie_dict)
session. get(url,cookies=cookie_dict,
params=params,headers=headers)
3.proxies={"http":"代理ip","https":"代理ip"}
請求頭加入proxies=proxies
1,2試過無效,3每次用都404斷線,想請問版上高手的建議,謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.186.75 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1588168963.A.0CB.html
推
04/29 22:48,
5年前
, 1F
04/29 22:48, 1F
→
04/29 23:30,
5年前
, 2F
04/29 23:30, 2F
→
04/29 23:30,
5年前
, 3F
04/29 23:30, 3F
→
04/29 23:30,
5年前
, 4F
04/29 23:30, 4F
→
04/29 23:30,
5年前
, 5F
04/29 23:30, 5F
→
04/29 23:36,
5年前
, 6F
04/29 23:36, 6F
→
04/29 23:36,
5年前
, 7F
04/29 23:36, 7F
→
04/29 23:36,
5年前
, 8F
04/29 23:36, 8F
→
04/30 14:05,
5年前
, 9F
04/30 14:05, 9F
→
04/30 17:44,
5年前
, 10F
04/30 17:44, 10F
推
04/30 22:13,
5年前
, 11F
04/30 22:13, 11F
推
05/01 11:58,
5年前
, 12F
05/01 11:58, 12F
→
05/01 12:43,
5年前
, 13F
05/01 12:43, 13F
→
05/01 12:44,
5年前
, 14F
05/01 12:44, 14F
→
05/01 13:10,
5年前
, 15F
05/01 13:10, 15F
Python 近期熱門文章
PTT數位生活區 即時熱門文章