Re: [問題] 抓取網頁問題

看板Perl作者 ( )時間17年前 (2008/04/07 22:16), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串3/3 (看更多)
以我的來說 Firefox: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-TW; rv:1.8.1.13) Gecko/20080328 Firefox/2.0.0.13 (pigfoot) IE6: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 所以我才說Mozilla/4.76看起來有點怪... 可能是我少見多怪XDDD 不過我實際上碰過的情況, 某些web hosting會擋掉特殊的user agent, 所以我才建議你改agent看看, 隨便抄一組常見的上去用。 而LWP::simple 我不確定他的agent是啥, 他本身也沒提供更改agent的method 這只是個經驗啦,不過如果你撈到網頁了就好那也沒差:) ※ 引述《travellu (旅行)》之銘言: : 欲抓取網頁 http://www.dmoz.org/ : 抓網頁的副函式程式碼如下: : sub grasp_searchresult() { : my ( $query ) = @_; : my $browser = new LWP::UserAgent; : $browser->agent( 'Mozilla/4.76 [en] (WinXp; U)' ); : my $request = q(); : $request = new HTTP::Request( "Get", : "http://www.dmoz.org/" ); : my $html = $browser->request($request); : return $html->content; : } : 抓出來的東西是空的 : 抓其它網頁例如yahoo首頁則是沒問題 : 不曉得是不是這個網頁有什麼特殊的限制? : 謝謝! -- ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁ 國 立 聯 合 大 學 (理工/電資/管理/技術/客家)院所 招生中 National United University ─────────────────────────────────── 首頁 http://www.nuu.edu.tw BBS telnet://uun.twbbs.org -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.133.145.202

04/07 23:37, , 1F
謝謝了!應該就是擋agent的關係
04/07 23:37, 1F
文章代碼(AID): #17-YopIi (Perl)
討論串 (同標題文章)
文章代碼(AID): #17-YopIi (Perl)