[問題] 用python抓網頁資料(抓link)

看板Python作者 (疾風)時間14年前 (2011/02/06 13:02), 編輯推噓3(305)
留言8則, 5人參與, 最新討論串1/2 (看更多)
小弟我剛開始學python 想用python去抓網頁資料,等抓到某個網頁之後 再看裡面有沒有其他的連結,繼續去抓 我爬了一下文跟找一些資料 import urllib sock = urllib.urlopen("http://www.google.com/") htmlSource = sock.read() sock.close() print (htmlSource) 我現在卡在一個問題 我的程式執行的時候會說 Traceback (most recent call last): File "D:\workspace\HW1\src\main.py", line 2, in <module> sock = urllib.urlopen("http://diveintopython.org/") AttributeError: 'module' object has no attribute 'urlopen' 我是用Eclipse開專案寫 2.7和3.0的Grammar version都試過 不過都不行 但是我查了一下 兩個版本都有支援 urllib 大概是我哪裡出了問題呢? 順便請問一下 有比較好用的HTML的parser嗎 可以用來抓網頁資料或是分析 新手上路 請大家多多指教 謝謝大家 -- 我不是宅 我只是比較居家 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 108.6.70.125

02/06 13:04, , 1F
htmllin好像之支援到2.4?
02/06 13:04, 1F

02/06 14:53, , 2F
Deprecated since version 2.6: The urlopen() function
02/06 14:53, 2F

02/06 14:54, , 3F
has been removed in Python 3.0 in favor of
02/06 14:54, 3F

02/06 14:54, , 4F
urllib2.urlopen().
02/06 14:54, 4F

02/06 15:08, , 5F
html parser 試試看 HTMLParser
02/06 15:08, 5F

02/06 17:23, , 6F
BeautifulSoup
02/06 17:23, 6F

02/06 17:52, , 7F
lxml
02/06 17:52, 7F

02/07 12:56, , 8F
文章代碼(AID): #1DJYjxit (Python)
文章代碼(AID): #1DJYjxit (Python)