[請益] 網頁robots
大家好,主要有兩個問題
因為現在小弟正在做"使用php程式去抓取網頁內容資料"
遇到了問題 (*問題一)
為了找尋資料就查和製作robot相關的網頁
其中有篇說到"如何防止robot" (問題二)
http://www.hkwebs.net/catalog/teach/setting/robots.php
試著照上面來做
我使用兩個server,一台為robot程式(簡單版)
一台為被搜尋端
照示範網頁來做之後卻發現,結果無效
robot還是可以照常抓到網頁資料,但是看論壇其他人的回應,結果還不錯的樣子。
p.s. 1. 可能因為我不是server root管理者
所以robots.txt沒有放到主目錄下因此不產生作用
回到第一個問題,
目標是 http://news.yahoo.com
請問在抓取網頁的時候,要如何避開防止robot的server端程式?
目前試過
1. 用file() 開啟網頁檔 (主頁面成功,支頁只能讀取部份)
(檢視內容原始碼發現,我已經被判別出是robot了)
2. fsockopen()
不過目前只會用來搜尋主頁面,主頁面下的支頁不知如何搜尋
懇請解答,感恩
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.39.218
※ 編輯: knme 來自: 140.116.39.218 (09/05 15:42)
PHP 近期熱門文章
PTT數位生活區 即時熱門文章