[問題] 新手請教normality/correlation相關問題

看板DataScience作者 (電機肥宅)時間2年前 (2022/08/04 05:04), 編輯推噓2(3111)
留言15則, 6人參與, 2年前最新討論串1/1
使用工具: Python 問題內容:s 非本科系 第一次接觸 從沒上過statistics 如果內容很傷眼請多包容了… 我有個dataset 是這樣得到的:跑多次實驗、每次實驗採集出一組x & y results, 最終目的是尋找x和y的關聯性。 原本想法是找出x和y的correlation coefficient、再用regression model(linear/non-linear)分析關係。 後來才發現原來使用statistics method還需要注重data是否normal。像是假設non-normal,只能用non-parametric tests, e.g. Spearman’s correlation,Pearson’s r correlation就不適用。 —— 找了一些方法測試normality (1)用histogram看x&y x和y都不是bell shaped 這樣意思是兩個variable都是non-normal吧 (2)用Q-Q Plot 這部分很奇怪,我X和Y的Q-Q plot都分別得到一條x=0的垂直線,stackoverflow上有一樣的問題但未被解答。 (3)用Shapiro-Wilk Test 因為N>5000… 好像也不適用 還有用以上方法得到的p value 都是0 —— 只看histogram先結論我的data 的確是non-normal的話 第二個大問題是Regression analysis 不需要normal data 所以我不確定我是否有需要transform data? —— TLDR: 1.請問上述觀念有錯誤嗎? 2. 請問為什麼我的Q-Q plot是直立的線? 3. 請問什麼時候才需要transform non-normal data? 如果都要跑regression的話, transform或不transform的差別是什麼? 如果有人願意幫忙解答的話真的非常感謝 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.58.188.161 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1659560663.A.CAB.html

08/04 05:15, 2年前 , 1F
補圖 X和Y histogram df.hist()
08/04 05:15, 1F

08/04 05:15, 2年前 , 2F

08/04 05:16, 2年前 , 3F
Q-Q plot (X和Y長一樣)
08/04 05:16, 3F

08/04 05:16, 2年前 , 4F

08/04 07:59, 2年前 , 5F
08/04 07:59, 5F

08/04 07:59, 2年前 , 6F
on/72984094.html
08/04 07:59, 6F

08/04 08:00, 2年前 , 7F
簡單來說 你塞進去的資料格式有錯xD
08/04 08:00, 7F

08/04 08:00, 2年前 , 8F
看人家 QQ plot Data 怎麼造,塞進去應該就行了
08/04 08:00, 8F

08/04 20:46, 2年前 , 9F
線性回歸的假設不是資料常態,是殘差常態。
08/04 20:46, 9F

08/05 21:25, 2年前 , 10F
看完你的問題只想叫你去好好修統計...
08/05 21:25, 10F

08/06 00:40, 2年前 , 11F
下學期上 只是現在剛好要用到 第一句就說過從沒接觸過 這
08/06 00:40, 11F

08/07 16:48, 2年前 , 12F
如樓上說的,reg假設殘差常態,如果不服從則假設檢定
08/07 16:48, 12F

08/07 16:48, 2年前 , 13F
沒有意義,對y進行常態轉換,有機會使殘差服從常態
08/07 16:48, 13F

08/07 16:49, 2年前 , 14F
此時假設檢定就有意義。
08/07 16:49, 14F

08/22 09:35, 2年前 , 15F
好問題,推推
08/22 09:35, 15F
文章代碼(AID): #1YwkBNoh (DataScience)
文章代碼(AID): #1YwkBNoh (DataScience)