Re: [問題] 抓取網頁問題
以我的來說
Firefox:
Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-TW; rv:1.8.1.13) Gecko/20080328
Firefox/2.0.0.13 (pigfoot)
IE6:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
所以我才說Mozilla/4.76看起來有點怪...
可能是我少見多怪XDDD
不過我實際上碰過的情況,
某些web hosting會擋掉特殊的user agent,
所以我才建議你改agent看看,
隨便抄一組常見的上去用。
而LWP::simple
我不確定他的agent是啥,
他本身也沒提供更改agent的method
這只是個經驗啦,不過如果你撈到網頁了就好那也沒差:)
※ 引述《travellu (旅行)》之銘言:
: 欲抓取網頁 http://www.dmoz.org/
: 抓網頁的副函式程式碼如下:
: sub grasp_searchresult() {
: my ( $query ) = @_;
: my $browser = new LWP::UserAgent;
: $browser->agent( 'Mozilla/4.76 [en] (WinXp; U)' );
: my $request = q();
: $request = new HTTP::Request( "Get",
: "http://www.dmoz.org/" );
: my $html = $browser->request($request);
: return $html->content;
: }
: 抓出來的東西是空的
: 抓其它網頁例如yahoo首頁則是沒問題
: 不曉得是不是這個網頁有什麼特殊的限制?
: 謝謝!
--
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
國 立 聯 合 大 學
(理工/電資/管理/技術/客家)院所 招生中
National United University
───────────────────────────────────
首頁 http://www.nuu.edu.tw BBS telnet://uun.twbbs.org
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.133.145.202
推
04/07 23:37, , 1F
04/07 23:37, 1F
討論串 (同標題文章)
Perl 近期熱門文章
PTT數位生活區 即時熱門文章