PTT數位生活區 / Python

Re: [問題] python 爬取pchome資料

看板Python作者BigBank ( )時間10年前 (2016/08/06 00:28)推噓4(4推 0噓 8→)

留言12則, 2人參與討論串2/3 (看更多)

各位前輩好，最近也在嘗試爬pchome，雖然知道是javascript，但還是不太能解決爬文後很幸運挖到這篇也照了這不是ptt大的code測試

推

Thisisnotptt

04/11 13:38,

04/11 13:38

→

Thisisnotptt

04/11 13:39,

04/11 13:39

但同樣的code 執行好多次才能成功一次是我的電腦業障重嗎OAQQ 其餘的失敗也沒什麼訊息就是只抓回空殼 (我猜應該是沒有成功執行js?) 我目前要做的是已經有一堆pchome網址想要從網址爬回對應商品發現雖然head裡的meta就有了但也不知道該如何簡單的只抓回這個部分所以總結想請問各位前輩： 1.沒辦法每次都抓回網頁，是pchome的防範機制嗎？該何解QQ 2.還是說有更簡單的方法可以只抓回head那個部分，覺得抓回整個網站有點overkilled 但現在就連硬要抓整個網站回來都做不到...(￣▽￣＃)﹏﹏感謝各位前輩指點迷津OTZ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.153.225 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1470414533.A.802.html

推

ripple0129

08/06 05:00, , 1^F

08/06 05:00, 1^F

pchome 這裡似乎沒有防如果要爬露天可能就要偽裝一下

推

Thisisnotptt

08/06 20:46, , 2^F

08/06 20:46, 2^F

→

Thisisnotptt

08/06 20:47, , 3^F

08/06 20:47, 3^F

→

Thisisnotptt

08/06 20:47, , 4^F

08/06 20:47, 4^F

→

Thisisnotptt

08/06 20:48, , 5^F

08/06 20:48, 5^F

→

Thisisnotptt

08/06 20:49, , 6^F

08/06 20:49, 6^F

→

Thisisnotptt

08/06 20:50, , 7^F

08/06 20:50, 7^F

→

Thisisnotptt

08/06 20:51, , 8^F

08/06 20:51, 8^F

推

Thisisnotptt

08/06 20:53, , 9^F

08/06 20:53, 9^F

推

Thisisnotptt

08/06 22:06, , 10^F

08/06 22:06, 10^F

→

Thisisnotptt

08/06 22:07, , 11^F

08/06 22:07, 11^F

→

Thisisnotptt

08/06 22:07, , 12^F

08/06 22:07, 12^F

非常感謝這不是ptt大，也把解決步驟描述一下供後人參考：測試幾次後發現的確是時間的問題初步嘗試加入time.sleep()後能解決但更好的解決方法似乎是wait.until(): http://selenium-python.readthedocs.io/waits.html#explicit-waits 在這裡我設定的是等到#PriceTotal載入為止因為原本的框架沒有這東西，如： wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#PriceTotal"))) 至於直接request的部分因為已經寫好selenium了之後改版再來研究看看好了A_A ※ 編輯: BigBank (36.231.153.225), 08/07/2016 01:31:04

‣ 返回看板[ Python ] 程設

‣ 更多 BigBank 的文章

文章代碼(AID): #1NfBx5W2 (Python)