Re: [討論] 分團問題!?

看板DataScience作者peter308 (pete)時間5年前 (2021/02/18 12:15)推噓10(10推 0噓 18→)

留言28則, 3人參與討論串3/3 (看更多)

※ 引述《peter308 (pete)》之銘言： : 在處理龐大的數據的時候 : 經常會透過分團(Clique, cluster analysis) 來將數據做分類 : 我最近有觀察到這種分團問題都會附帶一個關聯矩陣 : 這個矩陣的長相大致上如下: : https://i.imgur.com/IgE8Y75.jpg

: 因為我之前修群論的時候 : 對於這樣的圖形常常接觸 : 像有一本量子力學的教科書的封面就是這類型的矩陣 : https://i.imgur.com/I9Aa6cU.jpg

: 通常有這樣的圖形出現就表示系統有某種對稱性! : 不知道各位在數據科學領域(非我的專長) : 可有聽過有什麼樣的對稱性的狀況或是討論嗎?? : 感謝!! 想再聊聊這個話題我覺得分群或是分團問題，本身就是一個大哉問。通常這類問題我們都會把哈密頓矩陣在一個比較直觀容易處理的基底ψs上做展開。但因為這些ψs所形成的矩陣比較稀疏或是矩陣元素散布各處我們通常會做一件事那就是矩陣對角化或是區塊矩陣對角化這件事情的幾何上意義，就是再做一個座標轉換 (similiarity transformation) 將原本的座標系統轉到一個新的座標系統上讓矩陣元素可以變成集中在區塊的對角線上，而非區塊對角線上的元素越小越好。這件事情其實在數據科學也常常看見像是 PCA, k-means,.....等等本質上和做block diagonization是非常類似的然而這件事情，其實可以從一另一個完全不同方向來著手。也就是從觀測系統的對稱性 S 上直接下手。 ================================================================ 比方說化學的分子點群就是一個很棒的例子如果用一個比較簡單的例子水分子 H20 ( 分子點群為C2v) 那麼水分子的哈密頓矩陣就可以被區塊對角化而區塊對角化後的矩陣所對應的座標系統我們給一個名稱叫做"不可化約的" 這個區塊對角化後的新的矩陣上的基底ψ' 會對應C2v的徵值表所能列出的所有不可化約表象, e.g. A1,A2,B1,B2 http://symmetry.jacobs-university.de/cgi-bin/group.cgi?group=402&option=4 ================================================================ 回到數據科學上針對某個數據資料集我們能否在還沒做分群前，就先知道數據資料集的對稱性Ω為何? 類似前面舉的那個水分子的分子對稱性'C2v'一樣事實上，我個人覺得找數據資料集的整體對稱性Ω這件事情已經有人再做了如果對稱性Ω能事先知道那麼理論上我們應該可以加速分群這件事因為，在分群前我們其實已經事先知道答案了。那就是最後的區塊對角化的矩陣一定會在Ω的不可化約表像基底所形成的線性空間上這些不可化約表象上的基底，會和這個資料集所具備的整體對稱性Ω有某些關係存在如果能知道Ω為何？以及其對應的徵值表和不可化約表象。那在對於資料及分群這件事情上應該會事半功倍進而設計出更有快有效率的新的分群演算法! 再找數據資料集的對稱性Ω上所花的時間，可能就能做完分群了。 (可能是這個原因做數據科學的人比較少在談Ω) 儘管如此，我還是覺得分析數據資料集的整體對稱性的這個課題在學術研究甚至是應用層面上都是非常有意義的! P.S. 似乎目前有看到一些人是用拓樸的方式來描述數據的結構或是對稱性 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.117.32.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1613621707.A.C0C.html ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:23:57 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:24:11 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:27:27 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:29:03 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:30:20

推