Re: [問題] 抓網拍資料
自問自答一下
我看了露天拍賣網頁的原始檔
還有用Fiddler2這個看http協定的程式
他關鍵字都是直接送給 http://class.ruten.com.tw/category/sub00.php 這個php
不是靠javascript
所以就沒辦法像是改url直接去urlopen
也看不到.php裡面是怎麼實作的
找到一篇C#的做法 http://tinyurl.com/22jhagk
裡面提到用ReadyState判斷可以讓我讀到真正的內容
而python用pywin32去控制ie的話就可以用這個去判斷
import win32com.client
from time import sleep
ie = win32com.client.Dispatch("InternetExplorer.Application")
ie.Visible = 0
ie.Navigate('http://class.ruten.com.tw/category/sub00.php?c=0022000200150004')
while 1:
state = ie.ReadyState
if state == 4:
break
sleep(1)
print ie.Document.body.innerHTML
這樣子可以得到正確的結果HTML原始碼
--
目前還在尋找有沒有其他的不用靠pywin32的方式
如果有人知到煩請告知
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.136.123.26
※ 編輯: seedman 來自: 220.136.123.26 (09/05 11:43)
討論串 (同標題文章)
Python 近期熱門文章
PTT數位生活區 即時熱門文章