[閒聊] 想跟 Web Scraping 高手請益自動化技術~
As title,
之前網路上看了些 Python 爬蟲基本教學,
正試著從證交所爬蟲建立 財報/股價 資料庫。
但沒多久就發現幾個問題:
1. 每天爬取公司股價,經常性斷線,
加上 Header; time.sleep(); 之類的都用上了,
想請益更有效率,穩定自動斷點續傳的技術。
2. 財報 PDF 想要自動化下載,
因為隱藏網址似乎是 jsoncallback 產生的,
並且網址當中一部分是隨機數 or 現在時刻(時分秒),
這方面沒辦法突破。
也有試過 selenium + firefox webdriver,
不過也是卡在多個頁面切換的操作無法 Loop。
想請益版上這方面的高手,這些部分怎麼用 code 實現,
如果人在高雄有時間也可以約出來,我可以請你吃飯~
非常感謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.236.32.144
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1537500697.A.DE8.html
推
09/21 12:58,
6年前
, 1F
09/21 12:58, 1F
推
09/21 15:54,
6年前
, 2F
09/21 15:54, 2F
推
09/23 23:28,
6年前
, 3F
09/23 23:28, 3F
推
09/25 04:56,
6年前
, 4F
09/25 04:56, 4F
→
09/25 04:56,
6年前
, 5F
09/25 04:56, 5F
→
09/25 04:57,
6年前
, 6F
09/25 04:57, 6F
→
09/25 04:57,
6年前
, 7F
09/25 04:57, 7F
→
09/25 10:59,
6年前
, 8F
09/25 10:59, 8F
→
09/25 11:00,
6年前
, 9F
09/25 11:00, 9F
→
09/25 11:03,
6年前
, 10F
09/25 11:03, 10F
→
09/25 11:04,
6年前
, 11F
09/25 11:04, 11F
Python 近期熱門文章
PTT數位生活區 即時熱門文章