[請益] 自己刻 RSS Reader
最近心血來潮想要練習寫一個公司用的 RSS Reader,目的就是抓取一
些指定的網址之後將內容彙整進來,並且標示已讀未讀而已,想到幾
個問題想請教大家
1. 資料擷取時間:
我目前個人使用 Feedly,根據觀察的結果,我猜網址資料的開始,應
該是從第一個加入此網址的人起始,譬如說有個 Blog 叫 http://ww
w.aaa.com 從 2007 年開始,A 是在這個 RSS Reader 第一個使用該
網址的人,使用時間是 2014-11 月份,於是 Server 便會從這段時間
開始定期執行 cron job 去掃資料,可是這樣跑掃描時間間距不能太
長,否則的話如果是個更新頻繁的網站會有掉資料的機會,可是如果
database 有幾千幾萬個網站,這樣跑起來也是挺恐怖的。
2. 資料擷取問題:
可以在某些確定是有名的 Blog 形式例如說(blogger)可能利用 lo
gic 去找出對應的 RSS 檔案或者是 XML 擷取資料 ,可是像是一些掛
有個人 domain 的,例如像 http://blog.littlelin.info/,要怎麼
check 或 convert 他成為 seed 呢
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.234.173
※ 文章網址: https://www.ptt.cc/bbs/PHP/M.1423380393.A.F60.html
※ 編輯: chan15 (122.116.234.173), 02/08/2015 15:33:39
→
02/08 16:47, , 1F
02/08 16:47, 1F
→
02/08 16:48, , 2F
02/08 16:48, 2F
→
02/08 18:51, , 3F
02/08 18:51, 3F
→
02/09 11:28, , 4F
02/09 11:28, 4F
PHP 近期熱門文章
PTT數位生活區 即時熱門文章