Re: [問題] 如何抓取網頁上的文字

看板java作者 (null)時間15年前 (2009/02/16 13:31), 編輯推噓2(200)
留言2則, 2人參與, 最新討論串3/4 (看更多)
※ 引述《tkcn (小安)》之銘言: : ※ 引述《lin25 (鯊魚~!)》之銘言: : : 因為小弟的論文有一部份要用到抓取網頁文字的java程式 : : 所以參考了很多人寫的抓取網頁文字程式 : : 目前看過的方法是透過分析網頁的html檔之後 再將文字過濾出來 : : 但是現在的問題點就是我想要抓取的網頁文字不在該網頁的html檔裡 : : 像是Gmap幫你做的路線規劃 : : 圖: http://f8.wretch.yimg.com/noobking0/5/1768420813.jpg
: 我想應該是這張吧 : http://www.wretch.cc/album/show.php?i=noobking0&b=5&f=1768420813&p=0 : 這些文字並不是 "不在網頁的 html 檔裡", : 只是藏在 Frame 裡頭沒讓你找到而已。 : 想知道這頁的真實位址, : 在這 frame 裡頭滑鼠右鍵選內容即可。 : 雖然這頁絕對不是真正的 HTML, : 而可能是 php, asp, jsp...等等, : 但是送到 client 端時,你只需要把它當作普通的 html 處理即可。 可惜沒有那麼單純, 因為他是 javascript 另外送的 request http://farm4.static.flickr.com/3548/3283235099_4ee7619cc3_o.png
自己抓可能會有點麻煩, 看看 google map 有沒有直接的 API 吧 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.168.163

02/16 13:40, , 1F
唔 我想得太單純了 謝謝指教
02/16 13:40, 1F

02/16 14:24, , 2F
Just do what the browser do. XD
02/16 14:24, 2F
※ 編輯: qrtt1 來自: 140.112.168.163 (02/16 15:41)
文章代碼(AID): #19cFehq4 (java)
文章代碼(AID): #19cFehq4 (java)