[問題] robots.txt處理
在robots.txt中,會有許多Disallow或Allow path的設定
e.g.
Disallow: /dir/myfile.html
Allow: /dir/
(在/dir/目錄下只允許存取/dir/myfile.html)
我現在處理robots.txt的方式是逐條將Disallow或Allow的設定轉成regex,
並分別存在Disallow與Allow的array中。
每次有URL需要進行處理時,先逐條比對Disallow中的regex然後在比對Allow中的regex
想請問是否有其他比較妥當的處理方式?
我目前看到規定最多的是維基百科的robots.txt, 約有700條設定
還不確定這對fetch url效能上的影響有多大...
謝謝指教
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.169.89.15
※ 文章網址: http://www.ptt.cc/bbs/Programming/M.1413779403.A.50A.html
→
10/20 13:58, , 1F
10/20 13:58, 1F
→
10/20 13:58, , 2F
10/20 13:58, 2F
→
10/20 14:22, , 3F
10/20 14:22, 3F
→
10/25 06:56, , 4F
10/25 06:56, 4F
Programming 近期熱門文章
PTT數位生活區 即時熱門文章