[閒聊] 想跟 Web Scraping 高手請益自動化技術~

看板Python作者 (adwx1973)時間6年前 (2018/09/21 11:31), 編輯推噓4(407)
留言11則, 5人參與, 6年前最新討論串1/1
As title, 之前網路上看了些 Python 爬蟲基本教學, 正試著從證交所爬蟲建立 財報/股價 資料庫。 但沒多久就發現幾個問題: 1. 每天爬取公司股價,經常性斷線, 加上 Header; time.sleep(); 之類的都用上了, 想請益更有效率,穩定自動斷點續傳的技術。 2. 財報 PDF 想要自動化下載, 因為隱藏網址似乎是 jsoncallback 產生的, 並且網址當中一部分是隨機數 or 現在時刻(時分秒), 這方面沒辦法突破。 也有試過 selenium + firefox webdriver, 不過也是卡在多個頁面切換的操作無法 Loop。 想請益版上這方面的高手,這些部分怎麼用 code 實現, 如果人在高雄有時間也可以約出來,我可以請你吃飯~ 非常感謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.236.32.144 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1537500697.A.DE8.html

09/21 12:58, 6年前 , 1F
crontab 排程自動化
09/21 12:58, 1F

09/21 15:54, 6年前 , 2F
反爬蟲?
09/21 15:54, 2F

09/23 23:28, 6年前 , 3F
推同在高雄
09/23 23:28, 3F

09/25 04:56, 6年前 , 4F
1證交所股價下載還蠻穩的丫 我幾乎沒出過問題 你是下載json
09/25 04:56, 4F

09/25 04:56, 6年前 , 5F
?
09/25 04:56, 5F

09/25 04:57, 6年前 , 6F
2財報為何要下載pdf? 印象中有csv之類的原始資料可下 也史
09/25 04:57, 6F

09/25 04:57, 6年前 , 7F
容易分析
09/25 04:57, 7F

09/25 10:59, 6年前 , 8F

09/25 11:00, 6年前 , 9F
是在個股日成交資訊那邊抓,持續一段時間後會斷
09/25 11:00, 9F

09/25 11:03, 6年前 , 10F
公開資訊觀測站有IFRS的財報XBRL,可是有些會計科目的細
09/25 11:03, 10F

09/25 11:04, 6年前 , 11F
項不在那裏面,必須要去原始的PDF檔裡面找
09/25 11:04, 11F
文章代碼(AID): #1Rf6OPte (Python)
文章代碼(AID): #1Rf6OPte (Python)