[問題] Unsupervised Clustering 問題求解

看板Python作者 (金牌台灣啤酒)時間4年前 (2020/10/13 23:22), 編輯推噓1(108)
留言9則, 4人參與, 4年前最新討論串1/1
嗨大家好 我現在有約莫 2000 個 entity,每個 entity 都有自己的 features,例如: ”LeBron”:[”NBA” ,”籃球”,”美國人”] ”電風扇”:[”家電”,”機械”] ...之類 而我的目的是要讓 entity 分群,例如 LeBron 就會跟 Westbrook 分成一堆,電風扇就會跟吹風機分成一堆。 目前有兩個卡住的點 1.每個 entity 所帶的 features 長度不同,可能有些有 5,6 個 features 有些只有一個,這樣子是否有方法可以餵給模型? 2.每個 entity 的 features 不盡相同,即使他們表示同一事物,例如 A 球員被標 NBA , B 球員被標 國家籃球協會,我得怎麼讓模型知道 NBA = 國家籃球協會 這件事? 以上兩點,還請不吝告知關鍵字,讓我有個查詢方向,謝謝各位。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.150.206 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1602602531.A.17D.html

10/14 00:29, 4年前 , 1F
李宏毅
10/14 00:29, 1F

10/14 00:30, 4年前 , 2F
好啦認真回,自然語言處理 NLP
10/14 00:30, 2F

10/14 00:46, 4年前 , 3F
感謝回應,NLP 算是我比較陌生的領域,想問有沒有處理
10/14 00:46, 3F

10/14 00:46, 4年前 , 4F
類似問題的 repo 可以推薦給我呢?謝謝
10/14 00:46, 4F

10/14 11:57, 4年前 , 5F
NBA 籃球 還不是feature,你要先把他們train成embedd
10/14 11:57, 5F

10/14 11:57, 4年前 , 6F
ing向量,這樣每個詞都會是一個可能512的向量,那fea
10/14 11:57, 6F

10/14 11:57, 4年前 , 7F
ture尺寸就都一樣了
10/14 11:57, 7F

10/14 11:58, 4年前 , 8F
關鍵字:embedding
10/14 11:58, 8F

10/14 14:02, 4年前 , 9F
非NN做法:bag of words+LSA/LDA來抽entity的特徵再分群
10/14 14:02, 9F
文章代碼(AID): #1VXSOZ5z (Python)
文章代碼(AID): #1VXSOZ5z (Python)