[問題] 爬蟲無法讀完全部的資料

看板Python作者 ( )時間2年前 (2023/04/04 02:58), 編輯推噓0(009)
留言9則, 2人參與, 2年前最新討論串1/1
最近正在學習爬蟲 requests & beautifulsoup4 看了影片的tutorial 想要自己嘗試用這個網站進行爬蟲 https://monitor.buyerguide.info/pre-selection/cp-eye 檢查之後發現這個table在tbody這個標籤裡面 但是當我print(tbody.contents)之後 發現他只有讀到GW2480Plus這筆資料 後面都遺失了 想請問應該要怎麼做才能正確地讀到最後一筆資料G322CQP呢? 我的code在下方 可以直接複製 https://gist.github.com/akuan1997/5a6a4fb4ba56be9b0e87fd7066736ff4 謝謝python板的大神 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.206.98 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1680548285.A.771.html

04/04 21:49, 2年前 , 1F
可以用瀏覽器Devtools 把Javascript Disable看一下
04/04 21:49, 1F

04/04 21:49, 2年前 , 2F
剩下的資料會跟你爬的到的資料一樣 這個是前端的動態
04/04 21:49, 2F

04/04 21:49, 2年前 , 3F
渲染
04/04 21:49, 3F

04/04 21:51, 2年前 , 4F
至於要怎麼爬 要去定位出哪一個js function讓瀏覽器
04/04 21:51, 4F

04/04 21:51, 2年前 , 5F
再拿了一次資料然後把資料補到畫面上 通常都混淆過
04/04 21:51, 5F

04/04 21:51, 2年前 , 6F
很難看懂 我也不會
04/04 21:51, 6F

04/04 21:55, 2年前 , 7F
好像也不叫混淆 前端通常會用webpack打包js 這時候會
04/04 21:55, 7F

04/04 21:55, 2年前 , 8F
把js作壓縮 所以變數的可讀性下降很多
04/04 21:55, 8F

04/05 16:16, 2年前 , 9F
用 requests-html 來跑 JS 跑完再爬內容
04/05 16:16, 9F
文章代碼(AID): #1aAo6zTn (Python)
文章代碼(AID): #1aAo6zTn (Python)