[問題] 抓取完整網頁內容

看板Python作者時間13年前 (2012/05/29 19:29), 編輯推噓1(106)
留言7則, 6人參與, 最新討論串1/1
瀏覽器軟體可以直接手動存取完整網頁內容 存下來的html裡, 圖片或是javascript等的路徑會自動更改成相對路徑來做參考 但是好像不只是路徑有改, 其實整個html的部分編排好像都有改變 這目前有甚麼library可以做到嗎? 或是能做到一定的程度 原本想要自己parse內容的方式做出來 但是發現好像不是我想像的那樣容易... 所以想來問問看 (主要是希望之後網頁有可閱讀性, 而不是打開之後東缺西缺) 謝謝^^ -- Name Po Mins FG 3Pt FT Off Reb Ast Stl BS PF Pts V.Divac C 29.9 .467 .240 .711 2.00 7.20 3.5 1.05 1.32 3.00 10.0 C.Webber F 39.3 .461 .238 .606 2.40 10.6 5.4 1.59 1.33 3.10 23.1 P.Stojakovic F 34.1 .483 .387 .874 0.90 5.50 2.0 0.99 0.07 2.00 19.3 D.Christie G 33.9 .480 .399 .809 0.70 4.30 4.7 2.28 0.47 2.30 9.4 M.Bibby G 33.5 .469 .407 .863 0.60 2.70 5.2 1.31 0.15 1.70 15.9 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.82.131 ※ 編輯: kuan0817 來自: 140.116.82.131 (05/29 19:30)

05/29 19:41, , 1F
wget?
05/29 19:41, 1F

05/29 19:54, , 2F
推wget -k簡單又方便XD
05/29 19:54, 2F

05/29 23:54, , 3F
wget -k -E -p [-H(cross host)]
05/29 23:54, 3F

05/30 11:35, , 4F
BeautifulSoup ?
05/30 11:35, 4F

05/30 12:41, , 5F
推wget
05/30 12:41, 5F

06/16 14:22, , 6F
Try PyWebkit
06/16 14:22, 6F

06/16 14:23, , 7F
看錯內容了,我以為你要做 crawler Orz ...
06/16 14:23, 7F
文章代碼(AID): #1FnBCWfJ (Python)
文章代碼(AID): #1FnBCWfJ (Python)