[問題] 機票網站爬蟲問題

看板Python作者 (haruru)時間7年前 (2018/05/26 17:16), 7年前編輯推噓1(102)
留言3則, 2人參與, 7年前最新討論串1/2 (看更多)
大家安安~~ 我最近開始學python,想要爬機票的資料 因為不是資工相關科系的學生,所以我目前都是看網路上的教學學的 我目前是用selenium爬ctrip的網站 https://www.ctrip.com.hk/flights/ 按下搜尋後,在檢查的network那邊會有機票的資料被存在SearchFlights的XHR裡面 這裡會有兩個都是叫SearchFlights的XHR 有一個是一開始就有,但他只有頭幾筆資料 另一個要等一陣子,這個才有全部資料 http://i.imgur.com/VrVUUB5.jpg
我用selenium打開之後,對他requests.post 因為request的url都一樣,所以出來都只給我頭幾筆資料的那個 在他請求的參數裡面是有seaechToken不一樣 但改了之後,回給我的資料還是只有頭幾筆 所以想問各位大大,遇到這種會延遲的該怎麼爬?? 有沒有辦法讓他回傳所有機票資料 因為讓他sleep也沒用... 不好意思,麻煩大家了 ・゚・(。>Д<。)・゚・ ・゚・(。>Д<。)・゚・ ----- Sent from JPTT on my Asus ASUS_Z016D. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.71.68.128 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1527326206.A.AEA.html ※ 編輯: haru97724 (111.71.68.128), 05/26/2018 17:22:29

05/27 10:07, 7年前 , 1F
兩階段post的參數一樣嗎
05/27 10:07, 1F
post的參數只有searchToken不一樣,但改了結果還是一樣。

05/27 17:18, 7年前 , 2F
檔案要等,會在網頁元素中出現就寫個迴圈等元素載入完,
05/27 17:18, 2F

05/27 17:18, 7年前 , 3F
或是考慮純封包別用selenium搞不好簡單的多
05/27 17:18, 3F
可是如果等他跑完,我再request一次,這樣不就又重新來一次了嗎? 我去研究一下不用selenium的方法XDD ※ 編輯: haru97724 (111.71.68.128), 05/27/2018 18:33:50
文章代碼(AID): #1R2IN-hg (Python)
文章代碼(AID): #1R2IN-hg (Python)