[問題] 是網站改版?還是刻意防爬蟲?

看板Python作者 (UoU)時間3年前 (2021/08/16 15:52), 3年前編輯推噓2(2019)
留言21則, 5人參與, 3年前最新討論串1/1
因為工作的原因,還有暫時資料的擷取 需要到書店的網頁擷取資料 但是在爬了3個月之後,網站突然網址不一樣 然後request的內容跟開發者工具的HTML不一樣 但是因為image網站不穩定,那我直接到巴哈求助的內容 直接貼上來 https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212 這是爬蟲爬到的 requests https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729 完全沒有,我所需要如下的價錢,以及裝訂(peprback) 這是開發者的 HTML https://gist.github.com/cj044/9a889246299bb3562841e647706b438f 如果真的不行,我直接換網站好了 我只是要裡面的資料,不是要攻擊網站 還是用AMAZON 或是 ebay的API 直接代替爬蟲 但是Amazon 網路上沒有相關擷取書籍資料至EXCEL的python實作資料,實在很困擾 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.136.229.162 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1629100346.A.40F.html ※ 編輯: mejichoco (101.136.229.162 臺灣), 08/16/2021 17:54:27

08/16 18:40, 3年前 , 1F
https://i.imgur.com/tuGkFVm.jpg
我要的是這個! 非常感謝各位專家熱心幫忙,不過專業術語rendar是甚麼? 謝謝! 大大網指標的是 list_name=srh? 但是您怎麼知道list_name=i-r-zh_tw 這樣還有可能爬得到嗎?

08/16 23:20, 3年前 , 2F
老實說, 是你基礎不好, 天瓏沒這麼難爬
08/16 23:20, 2F

08/16 23:21, 3年前 , 3F
- 對方網站沒有太多的方式判斷你是不是要攻擊他, 對他來說
08/16 23:21, 3F

08/16 23:22, 3年前 , 4F
就是網路請求, 但這個請求如果太多太快, 對他來說可以用
08/16 23:22, 4F

08/16 23:22, 3年前 , 5F
這個特徵認為你是要攻擊。實際上,售票網站那種搶票狀況
08/16 23:22, 5F

08/16 23:23, 3年前 , 6F
對網站來說可以算是攻擊呀!因為會讓我伺服器無法正常處
08/16 23:23, 6F

08/16 23:24, 3年前 , 7F
理。你用自動化的方式去拿資料,沒有銷售行為,對他來說
08/16 23:24, 7F

08/16 23:24, 3年前 , 8F
也是種攻擊。
08/16 23:24, 8F

08/16 23:25, 3年前 , 9F
- robots.txt 並不會影響你送請求跟返回的訊息,他是給一
08/16 23:25, 9F

08/16 23:25, 3年前 , 10F
 些遵守規範的人/程式看的,有些自動化爬蟲程式看到不允
08/16 23:25, 10F

08/16 23:26, 3年前 , 11F
就不會去爬他,當然你的爬蟲也可以忽略他的聲明繼續爬,
08/16 23:26, 11F

08/16 23:26, 3年前 , 12F
順帶一提,如果對方 robots.txt 言明不想被爬但你還用自
08/16 23:26, 12F

08/16 23:27, 3年前 , 13F
化手段獲取資料,在某些國家是違法行為會吃官司的。
08/16 23:27, 13F

08/16 23:28, 3年前 , 14F
- 一樓的推文被你編輯文章刪掉了,我想他要說的是你想要的
08/16 23:28, 14F

08/16 23:28, 3年前 , 15F
資料,都可以在請求後所拿到的 HTML 原始文件中取得,而
08/16 23:28, 15F

08/16 23:29, 3年前 , 16F
這些資料被放在 <header> 元素中
08/16 23:29, 16F
既然書店不願意,那就不浪費時間了!

08/17 00:43, 3年前 , 17F
知道有robot.txt
08/17 00:43, 17F

08/17 00:43, 3年前 , 18F
知道有robot.txt
08/17 00:43, 18F

08/17 00:44, 3年前 , 19F
但是從來沒去認真看他 哈
08/17 00:44, 19F

08/17 08:31, 3年前 , 20F
降低爬速,加proxy
08/17 08:31, 20F
還是有沒有Amazon Python API的使用sample AMAZON API應該就合法了吧? 但是沒有Amazon ISBN的使用手冊! ※ 編輯: mejichoco (101.137.209.158 臺灣), 08/17/2021 16:36:59

08/18 22:55, 3年前 , 21F
我爬出來都很正常耶, 你是怎麼爬得要不要說一下
08/18 22:55, 21F
文章代碼(AID): #1X6XawGF (Python)
文章代碼(AID): #1X6XawGF (Python)