[問題] 中文資料集分類

看板DataScience作者 (【積π】)時間6年前 (2018/08/28 10:22), 編輯推噓1(102)
留言3則, 2人參與, 6年前最新討論串1/1
小弟初探資料科學 將中文信件資料集分類為兩類B、C(依信件內容機密度) 若是已經將內容用jieba切好了 也使用TfidfTransform計算出每封e-mail的TF-IDF值 想請問接下來該怎麼繼續操作 SVM k-means 可以請大大推薦可以讓我學習的文章或youtube教學嗎 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.67.6 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535422939.A.617.html

08/28 18:11, 6年前 , 1F
降維或選取特徵之類的吧 因為這樣切詞不是會很多嗎?
08/28 18:11, 1F

08/29 15:31, 6年前 , 2F
08/29 15:31, 2F

08/29 15:33, 6年前 , 3F
08/29 15:33, 3F
文章代碼(AID): #1RXB7RON (DataScience)
文章代碼(AID): #1RXB7RON (DataScience)