Re: [請益] 想請問一個抓網頁內容的問題

看板PHP作者 (摳屁蛋)時間15年前 (2010/07/11 21:29), 編輯推噓1(102)
留言3則, 2人參與, 最新討論串2/2 (看更多)
剛剛用推文說的用了USERAGENT 果然是可以抓網頁了,可是本來登入的資訊卻被登出了.... 不知道有沒有辦法抓完網頁可是facebook還是登入的狀態呢?? 因為要用FB的資源要在登入的狀態下比較好抓資料 我的程式碼如下@@ $useragent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1"; $url="http://www.facebook.com/srch.php?nm=%E5%A5%95%E7%BF%94&init=ffs"; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_HTTPHEADER, $header); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLINFO_HEADER_OUT, true); curl_setopt($ch, CURLOPT_USERAGENT, $useragent); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); $contents=curl_exec($ch); curl_close ($ch); echo $contents; ※ 引述《kobe04262002 (摳屁蛋)》之銘言: : 我要抓的是這個網址的資料 : http://www.facebook.com/srch.php?nm=%E5%A5%95%E7%BF%94&init=ffs : 自己測試不管有無登入,還是可以顯示頁面 : 可是在抓內容的時候 : 卻會顯示: : 你使用的是不相容的網路瀏覽器。 : 抱歉,您正在使用的瀏覽器實在太炫了,我們並未支援。請使用下列我們建議的瀏覽器: : Mozilla Firefox : Safari : Microsoft Internet Explorer 瀏覽器 : 不知道是否是甚麼原因,已經用了3種方法去抓網頁 : 1.file_get_contents() : 抓出來會顯示出上面的不相容瀏覽器 : 查出來這個function好像是要用URL編碼才行 : 可是這個網址是URI....所以嘗試了其他方法 : 2.curl : $url = "http://www.facebook.com/srch.php?nm=%E5%A5%95%E7%BF%94&init=ffs"; : $ch = curl_init(); : $timeout = 5; : curl_setopt($ch, CURLOPT_URL, $url); : curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); : curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); : $contents = curl_exec($ch); : curl_close($ch); : echo $contents; : 這個顯示出來是沒有東西@@ : 3.fopen : $handle = fopen ("http://www.facebook.com/srch.php?nm=%E5%A5%95%E7%BF%94&init=ffs", "rb"); : $contents = ""; : do { : $data = fread($handle, 8192); : if (strlen($data) == 0) { : break; : } : $contents .= $data; : } while(true); : fclose ($handle); : echo $contents; : 這個也是顯示不相容瀏覽器........ : 研究了好久,不知道是哪裡出了問題 : 希望板上高手給予解答 : 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 58.114.94.90

07/11 21:29, , 1F
麻煩大家了@@
07/11 21:29, 1F

07/11 21:31, , 2F
那就登入後記 cookie 下來再跟著送 cookie 過去試試看
07/11 21:31, 2F

07/11 22:43, , 3F
好,我先來研究COOKIE的用法@@
07/11 22:43, 3F
文章代碼(AID): #1CESSp96 (PHP)
文章代碼(AID): #1CESSp96 (PHP)