[請益] 抓取網頁html原始碼

看板PHP作者 (守備範圍:18~25歲)時間18年前 (2007/05/16 11:29), 編輯推噓2(201)
留言3則, 2人參與, 最新討論串1/4 (看更多)
急迫需要寫隻php來抓取某網頁的html 以便作parse切出所需要的 參考精華區 再到處亂找 結果改成四不像... <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=big5" /> <title>Network Programming Homework 3</title> </head> <body bgcolor=#CCC999 text="#FFFFFF"> <div align=center> <font size="3"> <form method="get"> <tr><td><center>URL: <input name="URL" SIZE="40"></td></tr> <tr><td><center><input type="submit" value="START"> <input type="reset" value="RESET"></center></td></tr> <?php $url = $_GET['URL'].$_POST['words']; $ch = curl_init(); //初始化curl,要準備開始抓網頁 curl_setopt($ch, CURLOPT_URL, $url); //告訴url要抓的是第一行的網頁 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //不要將抓回來的網頁秀到螢幕上, //等等我們要繼續分析 $content = curl_exec($ch); //抓吧,然後將資料存到$content curl_close($ch); $html = htmlentities($content); $tok = strtok($html, "<h3>posting history</h3>"); echo $tok; ?> </form> </font> </div> </body> </html> PHP網頁 : http://140.113.167.207/~nck/DM.php 輸入網頁 : http://del.icio.us/url/bc2930ff48e6bb275511c3ea0b451c37?all 需要切出 右下角 posting history那一大塊的tag資料 可是輸出切出後的$tok內容卻是 &l 想請問該怎樣改才能達到功能呢?? 第一次寫php請多指教 謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.167.221

05/16 14:10, , 1F
要達到什麼功能阿?
05/16 14:10, 1F

05/16 16:02, , 2F
就是想要從輸入的網頁取得html原始碼來作parse
05/16 16:02, 2F

05/16 16:04, , 3F
htmlentities抓回來的html字串 用strtok()切出來的跟預期不同~
05/16 16:04, 3F
※ 編輯: NCK 來自: 140.113.167.221 (05/16 16:16)
文章代碼(AID): #16IdgCUH (PHP)
文章代碼(AID): #16IdgCUH (PHP)