[問題] 如何確保opendata抓到最新資料

看板Python作者 (fghdfh)時間5年前 (2020/06/30 23:49), 編輯推噓2(207)
留言9則, 6人參與, 5年前最新討論串1/1
各位大大好,新手在此一問 若我寫個python檔想去抓某個網站的opendata資料, 雖然opendata資料有更新頻率(比如說一小時更新一次) 但萬一該網站更新頻率不是很穩定的話,比如說有時是12:05分資料才更新, 有時是12:10才更新,有時會提早 11:58就更新了。 若用排程定時去抓,比如說我設定每個小時的第五分鐘(12:05分)抓取 但這樣就有可能會抓到上一筆還沒更新過的資料,請問大家實務上是如何解決? 感謝各路高手! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.166.7.173 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1593532176.A.BF4.html

07/01 00:41, 5年前 , 1F
把你這次抓的時間記下來,下次再抓的時候做比對
07/01 00:41, 1F

07/01 01:27, 5年前 , 2F
直接對照前一筆資料就好啦
07/01 01:27, 2F

07/01 09:32, 5年前 , 3F
cache上一筆的時間
07/01 09:32, 3F

07/01 09:41, 5年前 , 4F
資料如果有必不重複的資訊如id就存sql,插入時重複的
07/01 09:41, 4F

07/01 09:41, 5年前 , 5F
id忽略掉
07/01 09:41, 5F

07/01 09:43, 5年前 , 6F
有可能新一筆跟舊一筆好死不死長一樣嗎?
07/01 09:43, 6F

07/01 13:20, 5年前 , 7F
p=hashlib.md5(r.text.encode('utf-8-sig')).hexdiges()
07/01 13:20, 7F

07/01 13:46, 5年前 , 8F
用md5把hash存起來然後比較頁面的md5 hash有沒有變更
07/01 13:46, 8F

07/01 23:54, 5年前 , 9F
謝謝以上各位
07/01 23:54, 9F
文章代碼(AID): #1U-ryGlq (Python)
文章代碼(AID): #1U-ryGlq (Python)