Re: [問題] htmlParse
: [問題類型]:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
:
: [問題敘述]:
: 1.請問htmlParse返回的結果是否有size限制?
: 我用下面一段code htmlParse返回只有到[[288]],似乎沒有抓完?
: 如果是size的限制有辦法解決嗎?
這我不知道,但是我用RCurl有抓到全部,直接htmlParse就失敗了:
test_doc = getURL(URL,.encoding="big5")
test = htmlParse(test_doc, encoding="big5")
test["//tr"] %>% str() # List of 11655
test_doc = htmlParse(URL,encoding="big5")
test = test_doc["//tr"] %>% str() # List of 288
: 2.我試著用readLines讀同樣的網址,但因沒有換行符號,所有的資料只存成一行,
: 處裡這一類沒有換行符號的網址,有什麼好方法呢?
readLines之後用gsub把你要斷行的地方放進去
EX:
我要把每一個開始或結束的tag後面都放置一個斷行,
這個要用一些regular expression的知識
gsub("(</?[^>]*>)", "\\1\\\n", "<tr><td bgcolor=\"#FAFAD2\" colspan=\"7\"><b>
股票 <b> </b></b></td></tr>") %>% sprintf("%s", .) %>% cat()
output:
<tr>
<td bgcolor="#FAFAD2" colspan="7">
<b>
股票 <b>
</b>
</b>
</td>
</tr>
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.205.27.107
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1430715193.A.1AD.html
※ 編輯: celestialgod (123.205.27.107), 05/04/2015 13:10:06
推
05/05 01:42, , 1F
05/05 01:42, 1F
→
05/05 01:43, , 2F
05/05 01:43, 2F
→
05/05 01:45, , 3F
05/05 01:45, 3F
→
05/05 08:18, , 4F
05/05 08:18, 4F
→
05/05 08:19, , 5F
05/05 08:19, 5F
推
05/05 23:55, , 6F
05/05 23:55, 6F
→
05/06 00:02, , 7F
05/06 00:02, 7F
推
05/06 12:28, , 8F
05/06 12:28, 8F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章