[問題] selenium爬蟲抓表格資料

看板Python作者 (中二的逆襲)時間3年前 (2021/05/06 00:27), 2年前編輯推噓1(109)
留言10則, 2人參與, 2年前最新討論串1/1
先謝謝您點進來。 小弟原本使用bs4來抓取網站表格資料 但發現時常多抓幾次之後就無法抓到資料。 https://histock.tw/stock/brokerprofit.aspx?bno=1470 (欲抓取以上表格) 但後來發現可能是動態資料問題,或需要登入資料(如果是一個月的資料) 所以改用selenium來操作。 先付上我的程式碼 https://imgur.com/xqE99nH.jpg
一直到38行都還算相當順利 但是到了41~44行,是查找了其他資訊所得的結果 但是44行卻因為網站資料的attribute為空白 遭遇無法抓到表格上資料的問題 請問該如何解決(或有更簡易的表格抓取方式) 非常感謝 ***更新*** 目前確定問題出在登入。若僅使用當日資料,是確定可以抓到資料 (網頁上也不用登入即可) 一旦查詢當月資料,則需要登入才可。(否則抓到的內容沒有登入後的資料) 但是這裡遇到另一個問題,就是cookie的使用方式 目前也已參照書本的用法 卻還是找不到資料 https://imgur.com/oWiRmn3.jpg
請問該如何修改呢? 謝謝您 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.165.157.40 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1620232020.A.FD1.html

05/06 09:47, 2年前 , 1F
確認回應 ststus code跟內容
05/06 09:47, 1F
T大,有確定status 200,確定應該是登入問題 ※ 編輯: crazystyle63 (1.165.157.40 臺灣), 05/06/2021 16:40:48

05/06 16:46, 2年前 , 2F
用session登入,不必特別處理cookie
05/06 16:46, 2F

05/06 16:47, 2年前 , 3F
登入成功後,session就直接打你要的頁面
05/06 16:47, 3F

05/06 16:48, 2年前 , 4F
ss = requests.Session()
05/06 16:48, 4F

05/06 16:48, 2年前 , 5F
用ss.get 或 post....
05/06 16:48, 5F
謝謝P大,這個方法我再試試看(因為我漏了個方法)。目前我修改之後可確定可行的(也無使

05/06 16:52, 2年前 , 6F
看到你在其他地方po ,再回一下好了
05/06 16:52, 6F

05/06 16:52, 2年前 , 7F
同樓上,用requests.session去處理登入,並且寫好登入
05/06 16:52, 7F

05/06 16:52, 2年前 , 8F
requests可以做到,用不到selenium
05/06 16:52, 8F

05/06 16:53, 2年前 , 9F
除了status code還是看內容,才能去檢查response是不
05/06 16:53, 9F

05/06 16:53, 2年前 , 10F
是有登入成功了,畢竟status code亂傳的網頁不少:D
05/06 16:53, 10F
T大謝謝您,後來我捨棄selenium就是因為有檢查到是登入的問題,經過修改之後目前是可以得到正確資料了 ※ 編輯: crazystyle63 (1.165.157.40 臺灣), 05/06/2021 17:10:50 ※ 編輯: crazystyle63 (1.165.157.40 臺灣), 05/06/2021 17:11:53 ※ 編輯: crazystyle63 (1.165.157.40 臺灣), 05/06/2021 17:12:35
文章代碼(AID): #1WaiTK_H (Python)
文章代碼(AID): #1WaiTK_H (Python)