[問題] wget抓取網頁內容疑問!?

看板Linux作者 (超越自己)時間8年前 (2017/07/10 18:47), 8年前編輯推噓0(0021)
留言21則, 4人參與, 最新討論串1/1
各位板友大家好, 想請問如果要用wget抓取網頁內容該如何操作呢? 我需要抓取http://24.23.159.200:8603/頁面的內容, 但是用wget只能抓到html的標籤, 懇請板上先進提供指引,謝謝大家。 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.193.176 ※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1499683676.A.263.html

07/10 19:14, , 1F
curl
07/10 19:14, 1F

07/10 19:19, , 2F
那個算是動態網頁內容,裡面有 js 語法讓瀏覽器去進行
07/10 19:19, 2F

07/10 19:26, , 3F
內容大概就是每隔一秒對某個 url 請求
07/10 19:26, 3F

07/10 19:26, , 4F
07/10 19:26, 4F

07/10 19:26, , 5F
測試看看
07/10 19:26, 5F

07/10 20:36, , 6F
謝謝二位,真的可以了!curl為什麼可以撈到後端產生的資料呢?
07/10 20:36, 6F

07/10 20:37, , 7F
如果我要寫個爬蟲程式,不用libcurl的話能夠做到嗎?
07/10 20:37, 7F

07/10 20:37, , 8F
其實我想問的是這件事 XDDD
07/10 20:37, 8F

07/10 20:47, , 9F
這個撈動態網頁資料的方式有沒有專有名詞呢?
07/10 20:47, 9F

07/10 20:48, , 10F
主要是好像用python或node.js相對於Qt好像比較好爬蟲..
07/10 20:48, 10F

07/10 20:49, , 11F
但是因為需要直接用qt程式碼進行爬蟲,所以想和板友請教一下
07/10 20:49, 11F

07/10 21:20, , 12F
就只是去分析網頁的行為啊
07/10 21:20, 12F

07/10 21:21, , 13F
他做的事情就是去 http://24.23.159.200:8603/stream
07/10 21:21, 13F

07/10 21:22, , 14F
拉資料 然後填充到網頁裡
07/10 21:22, 14F

07/10 21:23, , 15F
就是說 你要的網頁只是骨架 實際上內容是用 js
07/10 21:23, 15F

07/10 21:24, , 16F
拉東西下來 然後填進骨架 但是 wget 不會去處理 javascript
07/10 21:24, 16F

07/10 21:24, , 17F
所以你拉下來會是只有一點 html
07/10 21:24, 17F

07/10 21:24, , 18F
如果你用 wget http://24.23.159.200:8603/stream 也是有的
07/10 21:24, 18F

07/10 21:39, , 19F
疑,對耶!wget也是有的,因為我一開始沒有加stream..
07/10 21:39, 19F
※ 編輯: BIAO (61.230.201.147), 07/10/2017 22:31:17

07/10 22:33, , 20F
原來有這種東西...XD
07/10 22:33, 20F

07/11 10:06, , 21F
謝謝CP64大喔 ^^
07/11 10:06, 21F
文章代碼(AID): #1POrjS9Z (Linux)
文章代碼(AID): #1POrjS9Z (Linux)