[問題] html網路爬蟲,網頁無法跑出資料

看板R_Language作者 (EricZou)時間9年前 (2016/12/03 16:39), 編輯推噓2(209)
留言11則, 2人參與, 最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: 我想將某個網頁的資料讀取後分析資料,但是一開始就卡關 [程式範例]: library(XML) library(RCurl) ur1=getURL("https://www.kickstarter.com/discover/advanced?woe_id=23424900&sort=magic&seed=2467921&page=2") ur1.1 = readHTMLTable(ur1) test_doc = htmlParse(ur1,encoding="big5") test = readHTMLTable(test_doc) View(test) 我一開始是直接使用ur1="網址",後來在板上發現有另外一個方法就是getURL("網址") ,之後用readHTMLTable(ur1)去做,但是我不瞭解htmlParse不知道有什麼作用,我在 板上也看到許多econding寫成"big5"和"UT-8"(←這是印象),好像會發生編碼還是轉 碼上的問題導致之後R的操作中文部分都會變成亂碼,最後用View(test)去跑發生了 Error in View(test) : invalid 'x' argument 的問題 我想請問各位大大,關於kickstart我想取用裡面每一個project就是每一個分頁理面 的backers和pledge of MX$ goal還有days to go三項數字,但是我光是讀取頁面就已 經發生問題了,請問我在readHTMLTable這方面究竟出現什麼樣的問題呢? [環境敘述]: Windows 7 R 3.2.2 [關鍵字]: 網路爬蟲、html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.47.34.42 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1480754351.A.5E3.html

12/03 16:59, , 1F
請愛用rvest跟xml2
12/03 16:59, 1F

12/03 17:03, , 2F
cel大你好,因為我這次也是幫朋友代問,他說他跑之前
12/03 17:03, 2F

12/03 17:04, , 3F
那個html_table會出現亂碼,是因為沒有下載某個
12/03 17:04, 3F

12/03 17:04, , 4F
package嗎??
12/03 17:04, 4F

12/03 17:22, , 5F
windows都要跑Sys.setlocale("LC_ALL", 'C')
12/03 17:22, 5F

12/03 17:26, , 6F
每個步驟都有跑還是會有錯誤
12/03 17:26, 6F

12/03 17:59, , 7F
那可能要看網頁的encoding
12/03 17:59, 7F

12/03 17:59, , 8F
我不在電腦前可能不方便查,晚點幫看
12/03 17:59, 8F

12/03 19:23, , 9F
非常感謝
12/03 19:23, 9F

12/04 18:42, , 10F
你這個網址裡面看不出來有table阿
12/04 18:42, 10F

12/04 18:42, , 11F
用html_table抓不到東西就屬於正常了
12/04 18:42, 11F
文章代碼(AID): #1OGeIlNZ (R_Language)
文章代碼(AID): #1OGeIlNZ (R_Language)