[問題] 集保戶股權分散表無法爬取

看板Python作者 (賣肝工程師)時間2年前 (2022/10/09 17:25), 編輯推噓0(0018)
留言18則, 4人參與, 最新討論串1/1
hi, 各位大大 小弟之前有寫爬蟲每周爬取及保護股權分散表,從上周後好像網頁改版後就無法抓取, 試了一周還是搞不定,只能來求助大神幫忙解惑,感謝 錯誤訊息如下 <html><body><h1>SRVE0255E: A WebGroup/Virtual Host to handle /smWeb/QryStockAjax.do has not been defined.</h1><br/><h3>SRVE0255E: A WebGroup/Virtual Host to handle www.tdcc.com.tw:443 has not been defined.</h3><br/></body></html> 資料爬取方式 import requests from bs4 import BeautifulSoup as BS headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36'} info = {'SYNCHRONIZER_TOKEN':'c0fa73d9-db72-499f-a10f-d87cb046c047', 'SYNCHRONIZER_URI': '/portal/zh/smWeb/qryStock', 'method': 'submit', 'firDate': '20221007', 'scaDate': '20221007', 'sqlMethod': 'StockNo', 'stockNo': '2330', 'stockName': '' } res = requests.post('https://www.tdcc.com.tw/smWeb/QryStockAjax.do', data = info, headers = headers) soup = BS(res.text, "lxml") print(soup) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.118.71.247 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1665307534.A.BB9.html

10/09 22:34, 2年前 , 1F
post裡面網址改成qryStock那個原始網址就可以
10/09 22:34, 1F

10/09 22:35, 2年前 , 2F
或者你給一下當初爬出來資料長怎樣
10/09 22:35, 2F

10/09 22:35, 2年前 , 3F
我看能不能幫你做到資料格式輸出
10/09 22:35, 3F

10/10 07:29, 2年前 , 4F
感謝,換網址就有抓到東西了,只是分散表部分查無資料
10/10 07:29, 4F

10/10 07:32, 2年前 , 5F
看起來是SYNCHRONIZER_TOKEN驗證碼擋下,現在要抓的分散表
10/10 07:32, 5F

10/10 07:32, 2年前 , 6F
都顯示查無資料
10/10 07:32, 6F

10/10 10:47, 2年前 , 7F
有資料阿 就算爬蟲出來的看不懂
10/10 10:47, 7F

10/10 10:47, 2年前 , 8F
你自己用原始網頁點一點的沒跑出資料?
10/10 10:47, 8F

10/10 12:13, 2年前 , 9F
手動點是有資料,但用爬回來的看起來都顯示查無此資料,
10/10 12:13, 9F

10/10 12:14, 2年前 , 10F
檢視From Date內的SYNCHRONIZER_TOKEN每次手動查詢都會變
10/10 12:14, 10F

10/10 12:16, 2年前 , 11F
才想說是不是這個值要先想怎麼抓最新的,不然無法爬
10/10 12:16, 11F

10/10 14:26, 2年前 , 12F
10/10 14:26, 12F

10/10 14:26, 2年前 , 13F
研究一下 除了token不能重複用
10/10 14:26, 13F

10/10 14:27, 2年前 , 14F
post 還要給 cookies
10/10 14:27, 14F

10/10 14:50, 2年前 , 15F
可以用Session
10/10 14:50, 15F

10/10 22:09, 2年前 , 16F
爬到資料了,感謝S大熱心協助,謝謝
10/10 22:09, 16F

12/10 22:11, , 17F
我能產生動態token, 但爬下來的html檔案沒有集保資料
12/10 22:11, 17F

12/10 22:11, , 18F
S 大的圖片檔不在了, 可以再傳一次嗎? 謝謝
12/10 22:11, 18F
文章代碼(AID): #1ZGfEEkv (Python)
文章代碼(AID): #1ZGfEEkv (Python)