Re: [問題] Bag of words 中文單字詞問題

看板Python作者 (【積π】)時間7年前 (2018/06/27 08:42), 7年前編輯推噓1(102)
留言3則, 2人參與, 7年前最新討論串2/2 (看更多)
我自己來回答 預設過濾掉一個字符長度的詞 text = ["我|,|愛你|白Z", "他|愛狗", "貓|愛鼠" ] vectorizer = CountVectorizer(min_df=1, token_pattern='(?u)\\b\\w+\\b') vectorizer.fit(text) vector = vectorizer.transform(text) print (vectorizer.vocabulary_) print (vector.shape) print (vector.toarray()) --------------------------------------------------------------------- 輸出: {'我': 4, '愛你': 1, '白z': 5, '他': 0, '愛狗': 2, '貓': 6, '愛鼠': 3} (3, 7) [[0 1 0 ... 1 1 0] [1 0 1 ... 0 0 0] [0 0 0 ... 0 0 1]] -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1530060167.A.156.html ※ 編輯: ctr1 (59.124.158.195), 06/27/2018 08:43:30

06/27 08:55, 7年前 , 1F
你怎麼把上一篇的推文修掉了....
06/27 08:55, 1F

06/27 08:59, 7年前 , 2F
兄弟 你留言在另一個版~
06/27 08:59, 2F

06/27 10:45, 7年前 , 3F
不好意思XDD
06/27 10:45, 3F
文章代碼(AID): #1RCjs75M (Python)
文章代碼(AID): #1RCjs75M (Python)