[問題] httpclient遇到#document

看板java作者 (隨風而逝的是一份真)時間8年前 (2016/10/20 21:05), 編輯推噓0(004)
留言4則, 1人參與, 最新討論串1/1
我使用HttpClient要抓網頁原始檔 可是只要遇到網頁內含有 #document 該段就會被跳過 如圖一 http://i.imgur.com/VBDQIgC.png
這個網頁用chrome的檢查可以看到裏面有一段#document的內容 可是當我使用HttpClient搭配HttpGet之類的要把原始檔抓下來, 結果變成圖二 http://i.imgur.com/OmN99yt.png
可以看到#document一直到</frame>中間的內容全部消失 想請教大家都如何解決這種問題? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.252.180 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1476968746.A.944.html

10/20 21:36, , 1F
那就是frame裡的另一個網頁,你要parse frame的src另外發一
10/20 21:36, 1F

10/20 21:36, , 2F
個reuqest去抓才會有,#document只是chrome開發者工具標示
10/20 21:36, 2F

10/20 21:37, , 3F
frame中另一個網頁內容的方式而已
10/20 21:37, 3F

10/20 21:39, , 4F
另外Elements是chrome建的DOM,原始檔是Sources那個分頁的
10/20 21:39, 4F
文章代碼(AID): #1O2C4gb4 (java)
文章代碼(AID): #1O2C4gb4 (java)