Fw: [問題] Bag of words 中文單字詞問題
※ [本文轉錄自 Python 看板 #1RCQbiCM ]
作者: ctr1 (【積π】) 看板: Python
標題: [問題] Bag of words 中文單字詞問題
時間: Tue Jun 26 10:48:06 2018
from sklearn.feature_extraction.text import CountVectorizer
text = [
"我|愛你",
"他|愛狗",
"貓|愛鼠"
]
vectorizer = CountVectorizer()
vectorizer.fit(text)
vector = vectorizer.transform(text)
print (vectorizer.vocabulary_)
# 維度
print (vector.shape)
print (vector.toarray())
▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂
輸出:
{'愛你': 0, '愛狗': 1, '愛鼠': 2}
(3, 3)
[[1 0 0]
[0 1 0]
[0 0 1]]
▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂
想請問版上的各位大大
若是我希望單字(我、他、貓)也要放在bag內
要如何改寫這段程式
或要用什麼關鍵字去google查詢呢
謝謝打家
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1529981292.A.316.html
※ 編輯: ctr1 (59.124.158.195), 06/26/2018 10:50:29
※ 發信站: 批踢踢實業坊(ptt.cc)
※ 轉錄者: ctr1 (59.124.158.195), 06/26/2018 11:12:34
推
06/26 16:29,
6年前
, 1F
06/26 16:29, 1F
推
06/27 07:05,
6年前
, 2F
06/27 07:05, 2F
→
06/27 07:07,
6年前
, 3F
06/27 07:07, 3F
→
06/27 08:29,
6年前
, 4F
06/27 08:29, 4F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章