PTT數位生活區 / Python

Re: [問題] python 爬蟲得到加密的資料

看板Python作者Hsins (迅雷不及掩耳盜鈴)時間3年前 (2022/11/04 16:37)推噓15(15推 0噓 6→)

留言21則, 14人參與討論串2/3 (看更多)

※ 引述《a199111222 (oyeh)》之銘言： : 先附上想爬的網頁 : https://marketchameleon.com/Overview/AAPL/Similar/ : 想要爬取表格的全部資料 : 以前用post 抓下來的格式是json : 現在是一串亂碼 : 請問這樣還有辦法爬嗎？要爬是能爬，但就看你要花多少時間跟成本去處理他而已。 : 我用selenium去開這個網址，連表格內資料也不顯示...... : 有大大能提供解決的方向嗎？謝謝透過開發者工具可以發現，這些資料是打 POST 請求到對方的 IIS 伺服器拿到編碼過後的資料，這個我想你應該已經取得。如果你嘗試去檢查他拿到這份資料在幹嘛，會發現這個 AJAX 操作在成功取得資料後會呼叫以下這個函數： https://i.imgur.com/04uNmaA.png

---- 順著這個函數找： https://i.imgur.com/wms242A.png

https://i.imgur.com/dfz4jJh.png

在進行解析之前，他會檢查兩件事來判斷你今天是爬蟲程式還是真人： (1) user_agent 是不是特殊的 (2) 有沒有人為操作的事件被記錄下來其中 (2) 的判斷方式是在頁面上有沒有滑鼠移動操作（mousemove） ---- 最後才是解碼並且將資料放入表格中： https://i.imgur.com/2Z5fcs8.png

---- 處理方式很多： (1) 去把他的函數搞出來，自己執行 (2) 模擬一下人為操作，讓瀏覽器操作完　　DOM 渲染完之後再去爬渲染好的內容如果我是你，我會選擇 (2) 這種方式，反正你都已經用了 Selenium 去處理了，省時省力。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.138.237.231 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1667551053.A.264.html

→

11/04 16:57, 3年前 , 1^F

11/04 16:57, 1^F

推

11/04 17:08, 3年前 , 2^F

11/04 17:08, 2^F

→

11/04 17:49, 3年前 , 3^F

11/04 17:49, 3^F

→

11/04 17:49, 3年前 , 4^F

11/04 17:49, 4^F

→

11/04 17:51, 3年前 , 5^F

11/04 17:51, 5^F

推

11/04 17:57, 3年前 , 6^F

11/04 17:57, 6^F

包含 windows 物件裡面會帶屬性例如 webdriver 還有檢測有沒有人為操作像是我上面文章提到的檢測有沒有 mousemove 一些大廠還會紀錄過往的操作是不是太過固定還有附近 IP 的行為來判斷

推

11/04 18:04, 3年前 , 7^F

11/04 18:04, 7^F

→

11/04 18:29, 3年前 , 8^F

11/04 18:29, 8^F

※ 編輯: Hsins (223.138.237.231 臺灣), 11/04/2022 18:52:53

推

11/04 19:42, 3年前 , 9^F

11/04 19:42, 9^F

推

11/04 19:54, 3年前 , 10^F

11/04 19:54, 10^F

推

11/04 20:17, 3年前 , 11^F

11/04 20:17, 11^F

推

11/05 00:44, 3年前 , 12^F

11/05 00:44, 12^F

推

11/05 02:22, 3年前 , 13^F

11/05 02:22, 13^F

推

11/05 06:53, 3年前 , 14^F

11/05 06:53, 14^F

推

11/05 09:44, 3年前 , 15^F

11/05 09:44, 15^F

推

11/05 10:04, 3年前 , 16^F

11/05 10:04, 16^F

推

11/05 10:52, 3年前 , 17^F

11/05 10:52, 17^F

推

11/05 17:30, 3年前 , 18^F

11/05 17:30, 18^F

推

11/05 23:38, 3年前 , 19^F

11/05 23:38, 19^F

推

11/06 07:24, 3年前 , 20^F

11/06 07:24, 20^F

→

11/08 14:28, , 21^F

11/08 14:28, 21^F

‣ 返回看板[ Python ] 程設

‣ 更多 Hsins 的文章

文章代碼(AID): #1ZPCzD9a (Python)

討論串 (同標題文章)

本文引述了以下文章的的內容：

0

8

[問題] python 爬蟲得到加密的資料

3年前, 11/04

以下文章回應了本文：

1

2

Re: [問題] python 爬蟲得到加密的資料

3年前, 11/05

完整討論串 (本文為第 2 之 3 篇)：

排序：最新先 | 最舊先 | 留言數

1

2

Re: [問題] python 爬蟲得到加密的資料

3年前, 11/05

15

21

Re: [問題] python 爬蟲得到加密的資料

3年前, 11/04

0

8

[問題] python 爬蟲得到加密的資料

3年前, 11/04

在新視窗開啟完整討論串 (共3篇)

Python 近期熱門文章

2

12

[問題] 公司電腦無法透過python讀取usb攝像頭

2周前, 07/08

2

11

[問題] openpyxl到底能不能調整全局Font？

2月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

4月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

5月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

6月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

7月前, 12/23

1

1

[問題] python 3.14 free thread build

8月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

9月前, 10/22

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

5

11

[問題] 為什麼x300pro好像快下架一樣？

4小時前, 07/23

2

24

[菜單] 35k遊戲機

[ PC_Shopping ]

7小時前, 07/22

4

12

[請益] 威剛雙通道送修

[ PC_Shopping ]

11小時前, 07/22

67

116

[Live] Samsung Galaxy Unpacked July 2026

11小時前, 07/22

20

45

[賣/全國/皆可] 金士頓FURYM21TBSSD SFYRS/1000G

[ HardwareSale ]

13小時前, 07/22

5

5

[賣/台中/面交] ddr4-16g/8g/3060ti/12400F

[ HardwareSale ]

13小時前, 07/22

9

14

[開箱] 保銳REVOLUTION III性價比金靜冰核白化版

[ PC_Shopping ]

13小時前, 07/22

11

53

[心得] Android自動轉寄簡訊驗證碼到Email

14小時前, 07/22

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 Hsins 的文章

文章代碼(AID): #1ZPCzD9a (Python)