[問題] 網路爬蟲相關問題

看板R_Language作者 (幻想天空)時間8年前 (2017/06/06 23:39), 編輯推噓0(0010)
留言10則, 2人參與, 最新討論串1/2 (看更多)
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 各位好,我想要抓取旅遊網站上面的金額的資訊,就是橘色的NT$的部分 https://goo.gl/rTUzDp (網址過長所以縮了一下) 但因為沒有處理過動態的網站而卡關, 目前進度是使用read_html以及readLines這兩個function試過, 發現抓到東西的與看到的網頁原始碼不一樣。 從開發者工具雖然有看到幾個.js的項目, 卻不太知道該用GET或是POST什麼東西給他們, 所以想問:該用什麼方法才能得到想要的資料呢? 謝謝! PS.只要能拿到網頁的原始碼就行了,後面的文字處理我可以自己來。 [關鍵字]: 網路爬蟲 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.119.176.235 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1496763553.A.9C0.html

06/06 23:46, , 1F

06/06 23:46, , 2F

06/07 00:02, , 3F
感謝!! 我試試看!!
06/07 00:02, 3F

06/07 00:22, , 4F
C大您好,我嘗試後發現得到的東西還是不一樣,是不是在
06/07 00:22, 4F

06/07 00:22, , 5F
程式上面我有寫錯呢?
06/07 00:22, 5F

06/07 00:24, , 6F
這是使用GET的 http://imgur.com/s2n0hfi
06/07 00:24, 6F

06/07 00:26, , 7F
使用POST似乎導向了不對的網址
06/07 00:26, 7F

06/07 00:26, , 8F

06/07 00:35, , 9F
也有試過在原網址後面加上?fp_count=1,結果也是同樣
06/07 00:35, 9F

06/07 12:29, , 10F
在GET的部分將fp_count改成=2就可以了(不清楚為什麼
06/07 12:29, 10F
文章代碼(AID): #1PDioXd0 (R_Language)
文章代碼(AID): #1PDioXd0 (R_Language)