[問題] robots.txt處理

看板Programming作者 (wakaka)時間10年前 (2014/10/20 12:30), 編輯推噓0(004)
留言4則, 3人參與, 最新討論串1/1
在robots.txt中,會有許多Disallow或Allow path的設定 e.g. Disallow: /dir/myfile.html Allow: /dir/ (在/dir/目錄下只允許存取/dir/myfile.html) 我現在處理robots.txt的方式是逐條將Disallow或Allow的設定轉成regex, 並分別存在Disallow與Allow的array中。 每次有URL需要進行處理時,先逐條比對Disallow中的regex然後在比對Allow中的regex 想請問是否有其他比較妥當的處理方式? 我目前看到規定最多的是維基百科的robots.txt, 約有700條設定 還不確定這對fetch url效能上的影響有多大... 謝謝指教 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.169.89.15 ※ 文章網址: http://www.ptt.cc/bbs/Programming/M.1413779403.A.50A.html

10/20 13:58, , 1F
擔心效能的話 把輸入的所有 regex 都先
10/20 13:58, 1F

10/20 13:58, , 2F
合併成自動機呢
10/20 13:58, 2F

10/20 14:22, , 3F
喔 我會去試試看 謝謝建議
10/20 14:22, 3F

10/25 06:56, , 4F
同學,用之前查文件,沒有 Allow 這種東西
10/25 06:56, 4F
文章代碼(AID): #1KH8_BKA (Programming)
文章代碼(AID): #1KH8_BKA (Programming)