Re: [問題] xpathApply with lapply
library(XML)
library(data.table)
library(magrittr)
#library(purrr)
PDF <- xmlTreeParse("ideone_jqS8fo.xml", useInternalNodes=TRUE)
pages <- getNodeSet(PDF, "//Page[@number]")
words <- sapply(seq_along(pages), function(x) {
wx<- getNodeSet(PDF,
paste0("//Page[@number='",x,"']/Content/Para/Box/Word"))
length(wx)
}, simplify = TRUE)
out <- rbindlist(list(
#rep(xpathApply(PDF, path="//Page", fun= xmlGetAttr, 'number'), each=2),
#flatten(mapply(rep, times=words, x=seq_along(pages), USE.NAMES = F)),
as.list(do.call(function(x,times) {rep(x,times)},
args=list(x=seq_along(pages), times=words))),
xpathApply(PDF, path="//Page/Content/Para/Box/Word/Text", fun= xmlValue),
xpathApply(PDF, path="//Page/Content/Para/Box/Word/Box[@*]", fun= xmlAttrs)
)) %>% data.table::transpose()
#> out
V1 V2 V3 V4 V5
1: D1.2 70.87 43.56 94.53 31.56
2: Date 109.17 156.75 131.80 144.75
3: Forms 70.87 43.56 94.53 31.56
4: only 264.74 43.56 286.73 31.56
######################################### 隨意增加一段Text
#> out
V1 V2 V3 V4 V5 V6
1: 1 D1.2 70.87 43.56 94.53 31.56
2: 1 Date 109.17 156.75 131.80 144.75
3: 1 MyTry 10.17 15.75 13.80 14.75
4: 2 Forms 70.87 43.56 94.53 31.56
5: 2 only 264.74 43.56 286.73 31.56
※ 引述《lsshno1 ( )》之銘言:
: [問題類型]:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
: [軟體熟悉度]:
: 入門(寫過其他程式,只是對語法不熟悉)
: [問題敘述]:
: 各位前輩好, 我目前手邊有一個xml的檔案, 我想要取出其中的parent跟children node,
: merge在一起.
: Page(我的parent node)為分頁, 範例中有兩頁.
: Text與Box@llx, lly, urx, ury為我的children node.
: 我預期我的data.frame為:
: Page Text llx lly urx ury
: 1 D1.2 70.87 43.56 94.53 31.56
: 1 Date 109.17 156.75 131.80 144.75
: 2 Forms 70.87 43.56 94.53 31.56
: 2 only 264.74 43.56 286.73 31.56
: 目前參考這邊的做法 https://tinyurl.com/ya3yh5cj
: 連結的作法為, 取出每個page的node, 並放在list中.
: (就範例而言, 會創造出一個list, 其中有兩個element, 分別代表兩個page)
: 接著, 利用lapply結合xpathApply, 對每個element取出我要的children node.
: 但, 我發現在values這個list中, 她的確有兩個element,
: 其中每個elements都是重複page 1 and 2 的資訊.
: 如下:
: [[1]] [[2]]
: D1.2 D1.2
: Date Date
: Forms Forms
: only only
: 煩請各位指教, 謝謝!
: 程式碼: https://ideone.com/D2kbyw
: 範例檔案: https://ideone.com/jqS8fo
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.14.109
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1525446714.A.268.html
※ 編輯: cywhale (114.45.14.109), 05/04/2018 23:16:12
推
05/05 00:34,
7年前
, 1F
05/05 00:34, 1F
→
05/05 00:35,
7年前
, 2F
05/05 00:35, 2F
→
05/05 00:36,
7年前
, 3F
05/05 00:36, 3F
→
05/05 00:37,
7年前
, 4F
05/05 00:37, 4F
→
05/05 00:37,
7年前
, 5F
05/05 00:37, 5F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 00:56:56
→
05/05 00:57,
7年前
, 6F
05/05 00:57, 6F
推
05/05 01:26,
7年前
, 7F
05/05 01:26, 7F
→
05/05 01:27,
7年前
, 8F
05/05 01:27, 8F
→
05/05 01:28,
7年前
, 9F
05/05 01:28, 9F
→
05/05 01:29,
7年前
, 10F
05/05 01:29, 10F
→
05/05 01:29,
7年前
, 11F
05/05 01:29, 11F
→
05/05 01:30,
7年前
, 12F
05/05 01:30, 12F
→
05/05 01:30,
7年前
, 13F
05/05 01:30, 13F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 19:54:55
→
05/05 19:55,
7年前
, 14F
05/05 19:55, 14F
→
05/05 19:57,
7年前
, 15F
05/05 19:57, 15F
→
05/05 20:07,
7年前
, 16F
05/05 20:07, 16F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 20:07:38
→
05/05 20:11,
7年前
, 17F
05/05 20:11, 17F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 21:39:08
推
05/05 22:03,
7年前
, 18F
05/05 22:03, 18F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章