[問題] 請教網頁爬蟲的技術

看板Programming作者 (巨蟹)時間10年前 (2015/04/04 11:12), 編輯推噓2(208)
留言10則, 5人參與, 最新討論串1/1
想請教比價網站的爬蟲 輸入關鍵字 自動去pchome 愛買 露天爬取資料呈現 html頗析跟紀錄資料庫 我做過 想問的是 關於"更新"的部分 使用者第二次再查詢 還要每個頁面都跑過一次看有沒有更新(降價)? 還是有什麼技術方法可以只爬取有更新過的網頁 使用的語言: PHP/C#/ASP.NET -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.18.183 ※ 文章網址: https://www.ptt.cc/bbs/Programming/M.1428117147.A.997.html

04/04 14:00, , 1F
意思是在爬之前就依照「是否為更新過的p
04/04 14:00, 1F

04/04 14:00, , 2F
age?」條件決定是否要爬嗎
04/04 14:00, 2F

04/04 16:33, , 3F
是的,不然就要每頁都爬很沒效率~
04/04 16:33, 3F

04/04 17:59, , 4F
看對方有沒有RSS之類的 不然你也只能去
04/04 17:59, 4F

04/04 17:59, , 5F
爬 再來就是看他更新頻率決定你爬的頻率
04/04 17:59, 5F

04/04 18:00, , 6F
不然就去爬人家比價網站XDD
04/04 18:00, 6F

04/04 21:09, , 7F
用Head verb去開那頁面找Last-Modified
04/04 21:09, 7F

04/04 21:11, , 8F
header吧 (雖然也不一定會有)
04/04 21:11, 8F

04/05 00:25, , 9F
感謝…看來是礙於協定沒有其他方法
04/05 00:25, 9F

04/28 02:44, , 10F
關鍵字:freshness and age
04/28 02:44, 10F
文章代碼(AID): #1L7rQRcN (Programming)
文章代碼(AID): #1L7rQRcN (Programming)