[問題] 文字探勘 自訂辭典

看板R_Language作者 (野戰口糧)時間7年前 (2018/05/18 11:35), 7年前編輯推噓0(007)
留言7則, 2人參與, 7年前最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 想要分詞的時候,依我自訂的辭典分,例如:閃電狼>他會分成"閃電","狼" 姆咪>"姆","咪" 其實我已經利用edit_dict() 將我要的字詞輸入到裡面了, 但分出來還是不是我要的 [程式範例]: edit_dict() seg <- worker() seg$encoding corpus <- NULL for(i in 1:length(article)){ corpus[[i]] <- segment(article[i], seg) } [環境敘述]: R version 3.5.0 (2018-04-23) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) Matrix products: default locale: [1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese (Traditional)_Taiwan.950 [3] LC_MONETARY=Chinese (Traditional)_Taiwan.950 LC_NUMERIC=C [5] LC_TIME=Chinese (Traditional)_Taiwan.950 attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] tm_0.7-3 NLP_0.1-11 RCurl_1.95-4.10 bitops_1.0-6 XML_3.98-1.11 [6] jiebaR_0.9.99 jiebaRD_0.1 readr_1.1.1 loaded via a namespace (and not attached): [1] Rcpp_0.12.16 slam_0.1-43 R6_2.2.2 pillar_1.2.2 rlang_0.2.0 [6] xml2_1.2.0 tools_3.5.0 hms_0.4.2 parallel_3.5.0 yaml_2.1.19 [11] compiler_3.5.0 pkgconfig_2.0.1 tibble_1.4.2 [關鍵字]: -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.136.220 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1526614542.A.C79.html s ※ 編輯: zcyee (140.113.136.218), 05/18/2018 11:40:29

05/18 11:42, 7年前 , 1F

05/18 11:42, 7年前 , 2F
補上個人辭典
05/18 11:42, 2F

05/18 12:33, 7年前 , 3F
worker的user參數中的檔案就是使用者自訂字典,可把你的
05/18 12:33, 3F

05/18 12:33, 7年前 , 4F
字輸進去
05/18 12:33, 4F

05/18 16:13, 7年前 , 5F
對呀..我也是這樣用 打完儲存後 還是一樣...
05/18 16:13, 5F

05/18 19:09, 7年前 , 6F
如果你是用畫面中的格式,那不是他要求的格式哦
05/18 19:09, 6F

05/18 19:36, 7年前 , 7F
了解 謝謝大大 我用notepad++編輯就可以了
05/18 19:36, 7F
文章代碼(AID): #1Q_aeEnv (R_Language)
文章代碼(AID): #1Q_aeEnv (R_Language)