[問題] 抓取網頁中的pdf檔案

看板Perl作者 (來如春夢不多時)時間18年前 (2006/11/30 00:02), 編輯推噓4(402)
留言6則, 2人參與, 最新討論串1/1
我想要抓取某個網頁中的PDF檔案 PDF產生的方式是先傳序號給該網址 我使用 use IO::Socket; print $socket "GET Query.aspx?pn=00525881&imageindex=1 HTTP/1.1\r\n"; 而它顯示的網頁有html和pdf 我該如何把pdf存下來啊? #Server Response $result = ""; while (my $line=<$socket>) { $result .= $line; } #HTTP Server Response Header $result = substr($result,index($result,"\x0d\x0a\x0d\x0a")+4); #存檔 open F, "> PDF_file" or die "Can't write into filename"; print F $result; close F; -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.18.90

12/02 12:02, , 1F
use LWP::Simple;use IO::All;
12/02 12:02, 1F

12/02 12:03, , 2F
io('local.pdf') < get('http://example.com/remote.pdf');
12/02 12:03, 2F

12/02 12:04, , 3F
疑, 搞錯了, 妳應該需要 cookie 一類的東西吧 :p
12/02 12:04, 3F

12/04 14:58, , 4F
可能是需要cookie吧 但是還是不知道怎麼做 我嘗試用lynx
12/04 14:58, 4F

12/04 15:00, , 5F
去開那個網頁 結果也沒有辦法下載pdf檔
12/04 15:00, 5F

12/04 15:01, , 6F
lynx本身有支援cookie
12/04 15:01, 6F
文章代碼(AID): #15RQy3j- (Perl)
文章代碼(AID): #15RQy3j- (Perl)