Re: [討論] 分團問題!?
※ 引述《peter308 (pete)》之銘言:
: 在處理龐大的數據的時候
: 經常會透過分團(Clique, cluster analysis) 來將數據做分類
: 我最近有觀察到這種分團問題都會附帶一個關聯矩陣
: 這個矩陣的長相大致上如下:
: https://i.imgur.com/IgE8Y75.jpg
: 因為我之前修群論的時候
: 對於這樣的圖形常常接觸
: 像有一本量子力學的教科書的封面就是這類型的矩陣
: https://i.imgur.com/I9Aa6cU.jpg
: 通常有這樣的圖形出現就表示系統有某種對稱性!
: 不知道各位在數據科學領域(非我的專長)
: 可有聽過有什麼樣的對稱性的狀況或是討論嗎??
: 感謝!!
想再聊聊這個話題
我覺得分群或是分團問題,本身就是一個大哉問。
通常這類問題 我們都會把哈密頓矩陣在一個比較直觀容易處理的基底ψs上做展開。
但因為這些ψs所形成的矩陣比較稀疏或是矩陣元素散布各處
我們通常會做一件事 那就是矩陣對角化或是區塊矩陣對角化
這件事情的幾何上意義,就是再做一個座標轉換 (similiarity transformation)
將原本的座標系統轉到一個新的座標系統上
讓矩陣元素可以變成集中在區塊的對角線上,而非區塊對角線上的元素越小越好。
這件事情其實在數據科學也常常看見
像是 PCA, k-means,.....等等
本質上 和 做block diagonization是非常類似的
然而這件事情,其實可以從一另一個完全不同方向來著手。
也就是從觀測系統的對稱性 S 上直接下手。
================================================================
比方說 化學的分子點群就是一個很棒的例子
如果用一個比較簡單的例子 水分子 H20 ( 分子點群為C2v)
那麼水分子的哈密頓矩陣就可以被區塊對角化
而區塊對角化後的矩陣所對應的座標系統我們給一個名稱叫做"不可化約的"
這個區塊對角化後的新的矩陣上的基底ψ'
會對應C2v的徵值表所能列出的所有不可化約表象, e.g. A1,A2,B1,B2
http://symmetry.jacobs-university.de/cgi-bin/group.cgi?group=402&option=4
================================================================
回到數據科學上
針對某個數據資料集
我們能否在還沒做分群前,就先知道數據資料集的對稱性Ω為何?
類似前面舉的那個水分子的分子對稱性'C2v'一樣
事實上,我個人覺得找數據資料集的整體對稱性Ω這件事情
已經有人再做了
如果對稱性Ω能事先知道
那麼理論上我們應該可以加速分群這件事
因為,在分群前我們其實已經事先知道答案了。
那就是最後的區塊對角化的矩陣
一定會在Ω的不可化約表像基底所形成的線性空間上
這些不可化約表象上的基底,會和這個資料集所具備的整體對稱性Ω有某些關係存在
如果能知道Ω為何?以及其對應的徵值表和不可化約表象。
那在對於資料及分群這件事情上
應該會事半功倍 進而設計出更有快有效率的新的分群演算法!
再找數據資料集的對稱性Ω上所花的時間,可能就能做完分群了。
(可能是這個原因 做數據科學的人比較少在談Ω)
儘管如此,我還是覺得分析數據資料集的整體對稱性的這個課題
在學術研究甚至是應用層面上都是非常有意義的!
P.S. 似乎目前有看到一些人是用拓樸的方式來描述數據的結構或是對稱性
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.117.32.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1613621707.A.C0C.html
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:23:57
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:24:11
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:27:27
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:29:03
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:30:20
推
02/18 17:11,
3年前
, 1F
02/18 17:11, 1F
推
02/18 17:13,
3年前
, 2F
02/18 17:13, 2F
→
02/18 17:14,
3年前
, 3F
02/18 17:14, 3F
→
02/18 17:14,
3年前
, 4F
02/18 17:14, 4F
→
02/18 17:15,
3年前
, 5F
02/18 17:15, 5F
→
02/18 17:15,
3年前
, 6F
02/18 17:15, 6F
→
02/18 17:17,
3年前
, 7F
02/18 17:17, 7F
→
02/18 17:17,
3年前
, 8F
02/18 17:17, 8F
推
02/18 17:22,
3年前
, 9F
02/18 17:22, 9F
對,是很接近的東西
不知道有沒辦法從checkbroad的圖形
去分析出資料可能的對稱性為何?
類似內文舉的水分子的C2v點群那樣
推
02/18 17:22,
3年前
, 10F
02/18 17:22, 10F
→
02/18 17:23,
3年前
, 11F
02/18 17:23, 11F
→
02/18 17:25,
3年前
, 12F
02/18 17:25, 12F
推
02/18 17:29,
3年前
, 13F
02/18 17:29, 13F
→
02/18 17:30,
3年前
, 14F
02/18 17:30, 14F
推
02/18 17:34,
3年前
, 15F
02/18 17:34, 15F
→
02/18 17:35,
3年前
, 16F
02/18 17:35, 16F
→
02/18 17:37,
3年前
, 17F
02/18 17:37, 17F
推
02/18 17:49,
3年前
, 18F
02/18 17:49, 18F
→
02/18 17:50,
3年前
, 19F
02/18 17:50, 19F
其實我的重點是再做分群前
如果能知道資料數據集的Ω
理論上,分群的速度會快非常多。
應該可以快10-100倍
→
02/22 22:17,
3年前
, 20F
02/22 22:17, 20F
→
02/22 22:18,
3年前
, 21F
02/22 22:18, 21F
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:20:25
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:33:26
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:34:47
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:23:02
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:30:27
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:36:28
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:52:24
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 15:15:15
推
02/25 01:06,
3年前
, 22F
02/25 01:06, 22F
→
02/25 01:06,
3年前
, 23F
02/25 01:06, 23F
推
02/25 14:57,
3年前
, 24F
02/25 14:57, 24F
推
02/25 15:00,
3年前
, 25F
02/25 15:00, 25F
→
02/25 15:01,
3年前
, 26F
02/25 15:01, 26F
→
02/25 15:01,
3年前
, 27F
02/25 15:01, 27F
→
02/25 15:05,
3年前
, 28F
02/25 15:05, 28F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章