[問題] R 如何計算 txt 檔案中每個字出現的頻率

看板R_Language作者 (toxic)時間9年前 (2016/06/08 07:05), 編輯推噓1(106)
留言7則, 3人參與, 最新討論串1/1
[問題類型]: 程式諮詢 [軟體熟悉度]: 介於入門和使用者之間 [問題敘述]: 手邊有個txt文件,目前先使用read.table讀進R後,原本想使用text mining 的package (tm)來計算出每個字出現的頻率。 以一個兩列的文件為例: 第一列:I like it, can you share it? 第二列:Yes, I would like to! 想得到: I like it can you share yes would to 2 2 2 1 1 1 1 1 1 但翻了一下tm package還是不知道該怎麼套用,或是有其他作法可以得到呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.130.57 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1465340732.A.5ED.html

06/08 07:42, , 1F
英文嗎 ? 英文的話比較好處理, strsplit用 " " 隔開
06/08 07:42, 1F

06/08 07:43, , 2F
然後合併成一維向量後做元素統計就好了
06/08 07:43, 2F

06/08 10:11, , 3F
量大嗎?
06/08 10:11, 3F

06/08 18:25, , 4F
英文,量很大,檔案約有200MB
06/08 18:25, 4F

06/08 18:26, , 5F
這邊只是舉兩列的例子,但實際有超過百萬列。
06/08 18:26, 5F

06/08 18:59, , 6F
tm_lite?
06/08 18:59, 6F

06/09 10:24, , 7F
tmlite裡面的哪個functiin可以做到這件事呢?
06/09 10:24, 7F
文章代碼(AID): #1NLrCyNj (R_Language)
文章代碼(AID): #1NLrCyNj (R_Language)