[問題] 新手爬蟲post cookie問題

看板R_Language作者 (自閉哥)時間9年前 (2016/03/21 15:10), 編輯推噓0(0011)
留言11則, 2人參與, 最新討論串1/1
問題是這樣子,前陣子套件httr似乎有經過一些改變, 似乎採用了比較新的套件xml2裡面的函數, 因此,再爬取PTT八卦版文章出現了錯誤, 無法再使用httr的指令set_cookie("over18"="1") 搭配xpathSApply來抓取八卦板index跟裡面的文章內容。 所以想從RCurl套件中做一個Post的動作, 從網路上看高手用Python可以很輕鬆的就解決, 可是自己GOOGLE卻找不到用R解決的辦法QQ 不懂cookie這種東西是如何運作? 要如何用R讓他運作? 一些關鍵字: RCurl cookiefile cookiejar postForm -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.23.155 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1458544213.A.B30.html

03/21 15:30, , 1F
我用GET + set_cookie一樣可以抓阿@@
03/21 15:30, 1F

03/21 15:39, , 2F
x是GET下來的物件,要文字就用content(x, "text")
03/21 15:39, 2F

03/21 15:39, , 3F
配xml2的話就用下面的指令
03/21 15:39, 3F

03/21 15:40, , 4F
xml_find_all(content(x),
03/21 15:40, 4F

03/21 15:40, , 5F
"//div[@id='main-content']")
03/21 15:40, 5F

03/21 15:42, , 6F
再%>% xml_text就可以抓整篇文章下來了
03/21 15:42, 6F

03/21 15:42, , 7F
windows再搭配stri_conv轉成big5
03/21 15:42, 7F

03/21 15:43, , 8F
03/21 15:43, 8F

03/21 15:45, , 9F
如果是要用XML就把content(x, "text")丟到htmlParse
03/21 15:45, 9F

03/21 16:11, , 10F
太神啦 我等等來試試看!! 謝謝大大
03/21 16:11, 10F

03/21 16:11, , 11F
我弄這個弄到好幾天都睡不好 QQ
03/21 16:11, 11F
文章代碼(AID): #1MxvvLim (R_Language)
文章代碼(AID): #1MxvvLim (R_Language)