Re: [問題] 如何抓取網頁上的文字

看板java作者 (鯊魚~!)時間15年前 (2009/02/19 16:42), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串4/4 (看更多)
※ 引述《tkcn (小安)》之銘言: : ※ 引述《lin25 (鯊魚~!)》之銘言: : : 因為小弟的論文有一部份要用到抓取網頁文字的java程式 : : 所以參考了很多人寫的抓取網頁文字程式 : : 目前看過的方法是透過分析網頁的html檔之後 再將文字過濾出來 : : 但是現在的問題點就是我想要抓取的網頁文字不在該網頁的html檔裡 : : 像是Gmap幫你做的路線規劃 : : 圖: http://f8.wretch.yimg.com/noobking0/5/1768420813.jpg
: 我想應該是這張吧 : http://www.wretch.cc/album/show.php?i=noobking0&b=5&f=1768420813&p=0 : 這些文字並不是 "不在網頁的 html 檔裡", : 只是藏在 Frame 裡頭沒讓你找到而已。 : 想知道這頁的真實位址, : 在這 frame 裡頭滑鼠右鍵選內容即可。 : 雖然這頁絕對不是真正的 HTML, : 而可能是 php, asp, jsp...等等, : 但是送到 client 端時,你只需要把它當作普通的 html 處理即可。 這幾天一直在研究google map api 以及如何用java做網頁 但....問題在剛剛解決了 解決的關鍵就是我閱讀別人網頁"如何在無名部落閣嵌入Google Map"的過程中 http://briian.com/?p=2628 發現我之前抓的網址並非真的google map路線規劃網址 google map路線規劃的內容 還是寫在他真的網址裡的html裡 而在測試多個google map路線規劃後 發現跟tkcn大講的一樣 真的html寫在原本的html裡 所以目前是打算分兩步驟抓取路線規劃資料內容 1.從原本的google map html裡抓取 路線規線規劃的html 有特徵: a. http://maps.google.com/maps?f=d&source=embed&saddr=%E5%A4%A7%E5%90%8C%E5%A4%A7%E5%AD%B8&daddr=%E5%8F%B0%E7%81%A3%E5%8F%B0%E5%8C%97%E7%B8%A3%E6%B0%B8%E5%92%8C%E5%B8%82&hl=zh-TW&geocode=&mra=ls&dirflg=w&sll=25.038483,121.504154&sspn=0.073254,0.109863&ie=UTF8&t=h&ll=25.065853,121.513596&spn=0.03864,0.054932&z=14 b. http://maps.google.com/maps?f=d&source=s_d&saddr=%E5%A4%A7%E5%90%8C%E5%A4%A7%E5%AD%B8&daddr=%E5%A3%AB%E6%9E%97%E5%8D%80%E5%B0%8F%E5%8C%97%E8%A1%97&hl=zh-TW&geocode=&mra=ls&dirflg=w&sll=25.055123,121.525784&sspn=0.077288,0.109863&ie=UTF8&t=h&z=14 都是http開頭 z14結尾 透過這兩個特徵應該可以簡單的抓取 2. 在從路線規劃的html裡抓取路線規劃資訊內容 呼 感謝大家的教導了 如果有人發現更簡單的抓取方式 麻煩告知我 我程式碼寫完或有任何何問題會在來分享以及請教 感恩 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.129.19.118
文章代碼(AID): #19dHjZ7m (java)
文章代碼(AID): #19dHjZ7m (java)