Re: [問題] python 爬蟲得到加密的資料
※ 引述《a199111222 (oyeh)》之銘言:
: 先附上想爬的網頁
: https://marketchameleon.com/Overview/AAPL/Similar/
: 想要爬取表格的全部資料
: 以前用post 抓下來的格式是json
: 現在是一串亂碼
: 請問這樣還有辦法爬嗎?
要爬是能爬,但就看你要花多少時間跟成
本去處理他而已。
: 我用selenium去開這個網址,連表格內資料也不顯示......
: 有大大能提供解決的方向嗎?謝謝
透過開發者工具可以發現,這些資料是打
POST 請求到對方的 IIS 伺服器拿到編碼
過後的資料,這個我想你應該已經取得。
如果你嘗試去檢查他拿到這份資料在幹嘛
,會發現這個 AJAX 操作在成功取得資料
後會呼叫以下這個函數:
https://i.imgur.com/04uNmaA.png
----
順著這個函數找:
https://i.imgur.com/wms242A.png
在進行解析之前,他會檢查兩件事來判斷
你今天是爬蟲程式還是真人:
(1) user_agent 是不是特殊的
(2) 有沒有人為操作的事件被記錄下來
其中 (2) 的判斷方式是在頁面上有沒有
滑鼠移動操作(mousemove)
----
最後才是解碼並且將資料放入表格中:
https://i.imgur.com/2Z5fcs8.png
----
處理方式很多:
(1) 去把他的函數搞出來,自己執行
(2) 模擬一下人為操作,讓瀏覽器操作完
DOM 渲染完之後再去爬渲染好的內容
如果我是你,我會選擇 (2) 這種方式,
反正你都已經用了 Selenium 去處理了,
省時省力。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.138.237.231 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1667551053.A.264.html
→
11/04 16:57,
2年前
, 1F
11/04 16:57, 1F
推
11/04 17:08,
2年前
, 2F
11/04 17:08, 2F
→
11/04 17:49,
2年前
, 3F
11/04 17:49, 3F
→
11/04 17:49,
2年前
, 4F
11/04 17:49, 4F
→
11/04 17:51,
2年前
, 5F
11/04 17:51, 5F
推
11/04 17:57,
2年前
, 6F
11/04 17:57, 6F
包含 windows 物件裡面會帶屬性
例如 webdriver 還有檢測有沒有人為操作
像是我上面文章提到的
檢測有沒有 mousemove
一些大廠還會紀錄過往的操作
是不是太過固定
還有附近 IP 的行為來判斷
推
11/04 18:04,
2年前
, 7F
11/04 18:04, 7F
→
11/04 18:29,
2年前
, 8F
11/04 18:29, 8F
※ 編輯: Hsins (223.138.237.231 臺灣), 11/04/2022 18:52:53
推
11/04 19:42,
2年前
, 9F
11/04 19:42, 9F
推
11/04 19:54,
2年前
, 10F
11/04 19:54, 10F
推
11/04 20:17,
2年前
, 11F
11/04 20:17, 11F
推
11/05 00:44,
2年前
, 12F
11/05 00:44, 12F
推
11/05 02:22,
2年前
, 13F
11/05 02:22, 13F
推
11/05 06:53,
2年前
, 14F
11/05 06:53, 14F
推
11/05 09:44,
2年前
, 15F
11/05 09:44, 15F
推
11/05 10:04,
2年前
, 16F
11/05 10:04, 16F
推
11/05 10:52,
2年前
, 17F
11/05 10:52, 17F
推
11/05 17:30,
2年前
, 18F
11/05 17:30, 18F
推
11/05 23:38,
2年前
, 19F
11/05 23:38, 19F
推
11/06 07:24,
2年前
, 20F
11/06 07:24, 20F
討論串 (同標題文章)
Python 近期熱門文章
PTT數位生活區 即時熱門文章