[請益] 網頁robots

看板PHP作者 (knem)時間19年前 (2006/09/05 15:04), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
大家好,主要有兩個問題 因為現在小弟正在做"使用php程式去抓取網頁內容資料" 遇到了問題 (*問題一) 為了找尋資料就查和製作robot相關的網頁 其中有篇說到"如何防止robot" (問題二) http://www.hkwebs.net/catalog/teach/setting/robots.php 試著照上面來做 我使用兩個server,一台為robot程式(簡單版) 一台為被搜尋端 照示範網頁來做之後卻發現,結果無效 robot還是可以照常抓到網頁資料,但是看論壇其他人的回應,結果還不錯的樣子。 p.s. 1. 可能因為我不是server root管理者 所以robots.txt沒有放到主目錄下因此不產生作用 回到第一個問題, 目標是 http://news.yahoo.com 請問在抓取網頁的時候,要如何避開防止robot的server端程式? 目前試過 1. 用file() 開啟網頁檔 (主頁面成功,支頁只能讀取部份) (檢視內容原始碼發現,我已經被判別出是robot了) 2. fsockopen() 不過目前只會用來搜尋主頁面,主頁面下的支頁不知如何搜尋 懇請解答,感恩 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.39.218 ※ 編輯: knme 來自: 140.116.39.218 (09/05 15:42)
文章代碼(AID): #14_I5z_u (PHP)
文章代碼(AID): #14_I5z_u (PHP)