Re: [問題] 抓網拍資料

看板Python作者 (cc)時間15年前 (2010/09/05 11:39), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
自問自答一下 我看了露天拍賣網頁的原始檔 還有用Fiddler2這個看http協定的程式 他關鍵字都是直接送給 http://class.ruten.com.tw/category/sub00.php 這個php 不是靠javascript 所以就沒辦法像是改url直接去urlopen 也看不到.php裡面是怎麼實作的 找到一篇C#的做法 http://tinyurl.com/22jhagk 裡面提到用ReadyState判斷可以讓我讀到真正的內容 而python用pywin32去控制ie的話就可以用這個去判斷 import win32com.client from time import sleep ie = win32com.client.Dispatch("InternetExplorer.Application") ie.Visible = 0 ie.Navigate('http://class.ruten.com.tw/category/sub00.php?c=0022000200150004') while 1: state = ie.ReadyState if state == 4: break sleep(1) print ie.Document.body.innerHTML 這樣子可以得到正確的結果HTML原始碼 -- 目前還在尋找有沒有其他的不用靠pywin32的方式 如果有人知到煩請告知 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.136.123.26 ※ 編輯: seedman 來自: 220.136.123.26 (09/05 11:43)
文章代碼(AID): #1CWn3QRQ (Python)
文章代碼(AID): #1CWn3QRQ (Python)