Re: [問題] 分群的問題

看板CSSE (電腦科學及軟體工程)作者 (豆仔)時間13年前 (2011/06/01 22:37), 編輯推噓2(201)
留言3則, 2人參與, 最新討論串2/3 (看更多)
※ 引述《jizzer5566 (陳雅姿噗滋)》之銘言: : 假設在一個二維的空間有許多點 : 每個點有三種屬性的其中一種 分別是A或B或C屬性 : 我想藉由點與點的距離來做分群 : 希望在同一群裡面都是相同屬性 : 假設我分10群 取10個中心點 : 某1中心點為B屬性 : 那該群內的每個點我都預測為B屬性 : 再以 猜對的點數/全部點數 算正確率 : 我想請問一下 : 如果將分群數提升為20群甚至30群後 : 正確率反而下降了 是合理的嗎 : 其原因可能有哪些? 分群的演算法看起來向k-means 所以我用k-means來分析 假設你資料在二維空間中 長這樣好了 AAAAAAAAA* B*BBBBBBB* C*CCCCCCC AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC 當K越大時 每個cluster的半徑越小 因此 在屬性交集的地方 ex:如a和b交接處 與b和c交接處 原本k很小時 群的半徑大 即使有些離群值離群中心(上圖的A' B' C')很遠 還是可以正確的分群 但當K變大時 會發現 有些ABC(上圖的A* B* C*)離它們的中心點很遠 反而這些離群值彼此比較近 互相結合成cluster 正確性就下降了 以上是小弟的一點看法 如果有錯請各位多多包含 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.230.186.124

06/02 03:02, , 1F
感謝你的講解
06/02 03:02, 1F

06/04 16:04, , 2F
恩...有些outlier會組成一群導致準確率下降
06/04 16:04, 2F

06/04 16:04, , 3F
因此還需要動態的去決定分群的個數會比較準確~~
06/04 16:04, 3F
文章代碼(AID): #1DvawzYO (CSSE)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 3 篇):
文章代碼(AID): #1DvawzYO (CSSE)