[討論] 新手請教 爬蟲拋出資料比對

看板Python作者 (cloverlover)時間4年前 (2021/02/11 09:06), 4年前編輯推噓5(502)
留言7則, 5人參與, 4年前最新討論串1/1
概念描述 : 定時爬ptt八卦板,收尋特定字符後拋出line訊息 問題: 若定時爬出的資料為相同的,要如何建立確認機制?等到有不同的再拋出。 目前作法是將數據存成list,再拋出 但第二次跑時不知道如何前後資料比對 先謝謝各位指導 補充程式概述: while True : def getdata(url): return 數據 Y = [ ] Y. append(數據) Line bot 拋出 Y 我想讓拋出的Y有辦法做前後比對,有差別後再拋line bot 主要卡在Y再跑第二次時會覆蓋第一次就無法比對 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 112.78.78.250 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1613005599.A.CD8.html

02/11 09:38, 4年前 , 1F
搜尋
02/11 09:38, 1F

02/11 10:23, 4年前 , 2F
考慮看看hash
02/11 10:23, 2F

02/11 11:02, 4年前 , 3F
用set存,當set長度增加時跳出通知
02/11 11:02, 3F

02/11 12:36, 4年前 , 4F
hash checksum
02/11 12:36, 4F
※ 編輯: cloverlover (112.78.78.250 臺灣), 02/11/2021 13:05:19 ※ 編輯: cloverlover (112.78.78.250 臺灣), 02/11/2021 13:07:27

02/11 17:45, 4年前 , 5F
用另一個set存之前抓下來的文件checksum 存之前先用i
02/11 17:45, 5F

02/11 17:45, 4年前 , 6F
n set判斷
02/11 17:45, 6F

02/13 17:45, 4年前 , 7F
我會直接抓編輯紀錄的時間 這樣最省效能
02/13 17:45, 7F
文章代碼(AID): #1W98CVpO (Python)
文章代碼(AID): #1W98CVpO (Python)