Re: [問題] Bag of words 中文單字詞問題
我自己來回答
預設過濾掉一個字符長度的詞
text = ["我|,|愛你|白Z",
"他|愛狗",
"貓|愛鼠"
]
vectorizer = CountVectorizer(min_df=1, token_pattern='(?u)\\b\\w+\\b')
vectorizer.fit(text)
vector = vectorizer.transform(text)
print (vectorizer.vocabulary_)
print (vector.shape)
print (vector.toarray())
---------------------------------------------------------------------
輸出:
{'我': 4, '愛你': 1, '白z': 5, '他': 0, '愛狗': 2, '貓': 6, '愛鼠': 3}
(3, 7)
[[0 1 0 ... 1 1 0]
[1 0 1 ... 0 0 0]
[0 0 0 ... 0 0 1]]
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1530060167.A.156.html
※ 編輯: ctr1 (59.124.158.195), 06/27/2018 08:43:30
→
06/27 08:55,
7年前
, 1F
06/27 08:55, 1F
→
06/27 08:59,
7年前
, 2F
06/27 08:59, 2F
推
06/27 10:45,
7年前
, 3F
06/27 10:45, 3F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
Python 近期熱門文章
PTT數位生活區 即時熱門文章