[問題] 抓網頁的問題
最近才開始接觸Python,希望拿來抓網頁的資訊
但是一直碰到瓶頸...希望板上常抓網頁的高手能指點一下!
嘗試丟一些關鍵字到這個網站(書目資料庫)去抓結果回來:
http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php
但是在使用urllib.urlopen後
在查看抓回來的html裡頭卻找不到螢幕上顯示的搜尋結果字串(要抓的目標物)
後來我再那個頁面點右鍵,觀看原始檔也找不到
但是! 若是直接另存新檔(完整網頁)抓回電腦來看 ,就可以找到我要的字串了
例如這個結果頁面 http://tinyurl.com/yba8p3l
那一筆書目紀錄的字串我完全無法在網頁原始碼裡頭看到
一定要抓回電腦(而且要選完整網頁)才能在<!== Hits ==>後面找到
所以在這種情形下,請問我該如何用python去抓那些搜尋結果的字串
因為單純用urllib都只是抓到沒有搜尋結果的原始檔回來而已
連想用正規表示法都不行...
--
以上,希望能幫我解答一下
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.180.213
→
04/13 18:28, , 1F
04/13 18:28, 1F
→
04/13 18:31, , 2F
04/13 18:31, 2F
→
04/14 07:29, , 3F
04/14 07:29, 3F
Python 近期熱門文章
PTT數位生活區 即時熱門文章