[問題] 碰到有筆數限制的網站該怎麼辦

看板R_Language作者 (小魚)時間3年前 (2020/10/13 23:56), 編輯推噓7(706)
留言13則, 3人參與, 3年前最新討論串1/1
大家好,不好意思我是小菜鳥,最近想要從司法院法學資料檢索系統抓取特定法條相關的 判決書內容,發現網站會限制顯示的筆數,例如總數2萬筆的資料,前台只會顯示500筆, 用R爬下來的資料,也只有500筆,在網路上爬了一陣子的文,找不太到相關的討論,想請 教各位先進,該怎麼做才能抓到完整的資料呢? 先謝謝提點了! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.111.239 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1602604562.A.7C7.html

10/14 01:08, 3年前 , 1F
有關爬蟲的問題基本上任何程式語言都是一樣的,就是模擬人
10/14 01:08, 1F

10/14 01:09, 3年前 , 2F
的操作方式,例如全部兩萬筆第一頁只顯示前五百筆,你會去
10/14 01:09, 2F

10/14 01:09, 3年前 , 3F
點下一頁,那麼爬蟲就是用程式碼下參數去取得第二頁之後的
10/14 01:09, 3F

10/14 01:09, 3年前 , 4F
資料,這部分概念細節跟html技術比較相關。說了這麼多,還
10/14 01:09, 4F

10/14 01:09, 3年前 , 5F
是建議你發問時明確一點,例如附上網址跟程式碼範例,不然
10/14 01:09, 5F

10/14 01:09, 3年前 , 6F
眾版友也是愛莫能助:)
10/14 01:09, 6F

10/14 16:52, 3年前 , 7F
司法院網站似乎是超過500筆則一律最多只給500筆,和分頁
10/14 16:52, 7F

10/14 16:53, 3年前 , 8F
造成的麻煩不太一樣。我想這是無解的,只能先做更精確的
10/14 16:53, 8F

10/14 16:53, 3年前 , 9F
查尋。
10/14 16:53, 9F

10/14 17:30, 3年前 , 10F
只給500這點滿奇怪的,意思是永遠都搜尋不到500筆以後的資
10/14 17:30, 10F

10/14 17:30, 3年前 , 11F
料嗎?
10/14 17:30, 11F

10/18 08:12, 3年前 , 12F
我爬過你必須做更精準查詢
10/18 08:12, 12F

10/18 08:13, 3年前 , 13F
而且司法站網站似乎很怕別人爬 三不五時改版...
10/18 08:13, 13F
文章代碼(AID): #1VXSuIV7 (R_Language)
文章代碼(AID): #1VXSuIV7 (R_Language)