[問題] 新手爬蟲requests_selenium

看板Python作者 (new ID)時間3年前 (2022/04/17 13:42), 編輯推噓3(304)
留言7則, 4人參與, 最新討論串1/1
大家好 我是完全沒有任何程式資訊背景的老人家,純網頁自學,很多基本東西不懂 只想試著爬資料,還請鞭小力些~ 以下狀況描述 1 有成功爬取此網頁資料 https://www.samr.gov.cn/zw/wjfb/index.html 程式碼就抄抄改改網路教學 https://pastebin.com/wgppME9S 2 後來想爬下面這個網頁,request就會出現412的error code http://www.nhc.gov.cn/wjw/gfxwjj/list.shtml 想要學著用看看selenium但是一開始要打開網頁就有問題 (用edge不太打的開,用chrome就可以,用selenium操控chrome又打不開) 程式碼如下 https://pastebin.com/3mSJA6w1 3 試著使用chrome的外掛程式automa https://www.automa.site/ 則可以正確獲取單頁資料(標題+日期),然而不會設定迴圈或自定網址來爬完85頁的資料 想要請教狀況2 我該往什麼方向學習或者請告訴我要看哪些資料 (https://blog.csdn.net/bcfdsagbfcisbg/article/details/121741801) 有查過可能的原因(上面連結)但或許因為沒有相關基礎知識無法解決﹑也沒有方向 ,卡了很幾天 還是有版友可以教我使用automa感覺也不錯,是菜鳥新手的另一種解決方案 以上問題還請版友不吝指教~~先謝過了~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.184.2 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1650202940.A.8A3.html

04/20 17:29, , 1F
試了一下這篇,把headers加進去就可以了
04/20 17:29, 1F

04/20 17:29, , 2F

04/20 20:11, , 3F
推一樓好心
04/20 20:11, 3F

04/21 11:41, , 4F
謝謝樓上版友回覆,header中加入cookie我試過就是短暫
04/21 11:41, 4F

04/21 11:44, , 5F
可以,一段時間後又變412,目前還無法自行完成解決方案
04/21 11:44, 5F

05/09 17:33, , 6F
試了用較簡單的requests和beautifulsoup4組合似乎也可以。
05/09 17:33, 6F

05/09 17:34, , 7F
selenium一般我都是沒招時才會拿來用,例如對付javascript
05/09 17:34, 7F
文章代碼(AID): #1YN1ayYZ (Python)
文章代碼(AID): #1YN1ayYZ (Python)