Re: [問題] 如何抓取網頁上的文字
※ 引述《lin25 (鯊魚~!)》之銘言:
: 因為小弟的論文有一部份要用到抓取網頁文字的java程式
: 所以參考了很多人寫的抓取網頁文字程式
: 目前看過的方法是透過分析網頁的html檔之後 再將文字過濾出來
: 但是現在的問題點就是我想要抓取的網頁文字不在該網頁的html檔裡
: 像是Gmap幫你做的路線規劃
: 圖: http://f8.wretch.yimg.com/noobking0/5/1768420813.jpg
我想應該是這張吧
http://www.wretch.cc/album/show.php?i=noobking0&b=5&f=1768420813&p=0
這些文字並不是 "不在網頁的 html 檔裡",
只是藏在 Frame 裡頭沒讓你找到而已。
想知道這頁的真實位址,
在這 frame 裡頭滑鼠右鍵選內容即可。
雖然這頁絕對不是真正的 HTML,
而可能是 php, asp, jsp...等等,
但是送到 client 端時,你只需要把它當作普通的 html 處理即可。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.230.17.231
討論串 (同標題文章)
java 近期熱門文章
PTT數位生活區 即時熱門文章