Re: [問題] Bag of words 中文單字詞問題
我自己來回答
預設過濾掉一個字符長度的詞
text = ["我|,|愛你|白Z",
"他|愛狗",
"貓|愛鼠"
]
vectorizer = CountVectorizer(min_df=1, token_pattern='(?u)\\b\\w+\\b')
vectorizer.fit(text)
vector = vectorizer.transform(text)
print (vectorizer.vocabulary_)
print (vector.shape)
print (vector.toarray())
完工
※ 引述《ctr1 (【積π】)》之銘言:
: 標題: Fw: [問題] Bag of words 中文單字詞問題
: 時間: Tue Jun 26 11:12:34 2018
:
: ※ [本文轉錄自 Python 看板 #1RCQbiCM ]
:
: 作者: ctr1 (【積π】) 看板: Python
: 標題: [問題] Bag of words 中文單字詞問題
: 時間: Tue Jun 26 10:48:06 2018
:
: from sklearn.feature_extraction.text import CountVectorizer
:
: text = [
: "我|愛你",
: "他|愛狗",
: "貓|愛鼠"
: ]
:
: vectorizer = CountVectorizer()
: vectorizer.fit(text)
: vector = vectorizer.transform(text)
:
: print (vectorizer.vocabulary_)
: # 維度
: print (vector.shape)
: print (vector.toarray())
:
: ▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂
:
: 輸出:
: {'愛你': 0, '愛狗': 1, '愛鼠': 2}
: (3, 3)
: [[1 0 0]
: [0 1 0]
: [0 0 1]]
:
: ▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂
:
: 想請問版上的各位大大
: 若是我希望單字(我、他、貓)也要放在bag內
: 要如何改寫這段程式
: 或要用什麼關鍵字去google查詢呢
: 謝謝打家
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195
: ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1529981292.A.316.html
: ※ 編輯: ctr1 (59.124.158.195), 06/26/2018 10:50:29
:
: ※ 發信站: 批踢踢實業坊(ptt.cc)
: ※ 轉錄者: ctr1 (59.124.158.195), 06/26/2018 11:12:34
: 推 jr55662003: 用結巴斷詞? 06/26 16:29
: 推 b24333666: 把 |換成空白 06/27 07:05
: → b24333666: google tokenization nlp 06/27 07:07
: → ctr1: |就是用結巴斷詞出來的,換成空白還是一樣呢。 06/27 08:29
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1530060065.A.CEA.html
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章