[問題] 網頁資料擷取問題
有幾個問題想問問,本身沒程式基礎,參考一些文章使用下面的指令
import urllib2
from bs4 import BeautifulSoup
url = 'http://zh.divine-gate.wikia.com/wiki/1509'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)
print soup.text
問題1.最後顯示出來,仍然有許多不需要的部分,用Infolite取得表格文字在
td跟th部分嘗試改成print soup.select('td'),但卻變成似乎有亂碼的情況
問題2.現在是使用notebooks操作,如果要輸入成擋案成純文本該如何作?改成py檔
執行完就直接不見了
問題3.如果要大量擷取,要如何修改呢?
如:http://zh.divine-gate.wikia.com/wiki/xxxx XXXX=1~1500
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.237.87.78
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1450959371.A.535.html
推
12/24 23:41, , 1F
12/24 23:41, 1F
推
12/24 23:44, , 2F
12/24 23:44, 2F
→
12/24 23:44, , 3F
12/24 23:44, 3F
→
12/25 13:07, , 4F
12/25 13:07, 4F
→
12/25 13:07, , 5F
12/25 13:07, 5F
推
12/25 15:31, , 6F
12/25 15:31, 6F

推
12/25 15:33, , 7F
12/25 15:33, 7F
→
12/25 19:24, , 8F
12/25 19:24, 8F
→
12/25 19:25, , 9F
12/25 19:25, 9F
→
12/25 20:31, , 10F
12/25 20:31, 10F
→
12/25 20:32, , 11F
12/25 20:32, 11F
→
12/26 13:10, , 12F
12/26 13:10, 12F
Python 近期熱門文章
PTT數位生活區 即時熱門文章