[請益] 網頁robots

看板PHP作者knme (knem)時間20年前 (2006/09/05 15:04)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

大家好，主要有兩個問題因為現在小弟正在做"使用php程式去抓取網頁內容資料" 遇到了問題 (*問題一) 為了找尋資料就查和製作robot相關的網頁其中有篇說到"如何防止robot" (問題二) http://www.hkwebs.net/catalog/teach/setting/robots.php 試著照上面來做我使用兩個server，一台為robot程式(簡單版) 一台為被搜尋端照示範網頁來做之後卻發現，結果無效 robot還是可以照常抓到網頁資料，但是看論壇其他人的回應，結果還不錯的樣子。 p.s. 1. 可能因為我不是server root管理者所以robots.txt沒有放到主目錄下因此不產生作用回到第一個問題，目標是 http://news.yahoo.com 請問在抓取網頁的時候，要如何避開防止robot的server端程式? 目前試過 1. 用file() 開啟網頁檔 (主頁面成功，支頁只能讀取部份) (檢視內容原始碼發現，我已經被判別出是robot了) 2. fsockopen() 不過目前只會用來搜尋主頁面，主頁面下的支頁不知如何搜尋懇請解答，感恩 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.39.218 ※ 編輯: knme 來自: 140.116.39.218 (09/05 15:42)