[問題] 新手請教normality/correlation相關問題
使用工具: Python
問題內容:s
非本科系 第一次接觸 從沒上過statistics 如果內容很傷眼請多包容了…
我有個dataset 是這樣得到的:跑多次實驗、每次實驗採集出一組x & y results,
最終目的是尋找x和y的關聯性。
原本想法是找出x和y的correlation coefficient、再用regression model(linear/non-linear)分析關係。
後來才發現原來使用statistics method還需要注重data是否normal。像是假設non-normal,只能用non-parametric tests, e.g. Spearman’s correlation,Pearson’s r correlation就不適用。
——
找了一些方法測試normality
(1)用histogram看x&y
x和y都不是bell shaped 這樣意思是兩個variable都是non-normal吧
(2)用Q-Q Plot
這部分很奇怪,我X和Y的Q-Q plot都分別得到一條x=0的垂直線,stackoverflow上有一樣的問題但未被解答。
(3)用Shapiro-Wilk Test
因為N>5000… 好像也不適用
還有用以上方法得到的p value 都是0
——
只看histogram先結論我的data 的確是non-normal的話
第二個大問題是Regression analysis 不需要normal data
所以我不確定我是否有需要transform data?
——
TLDR:
1.請問上述觀念有錯誤嗎?
2. 請問為什麼我的Q-Q plot是直立的線?
3. 請問什麼時候才需要transform non-normal data? 如果都要跑regression的話, transform或不transform的差別是什麼?
如果有人願意幫忙解答的話真的非常感謝
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.58.188.161 (美國)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1659560663.A.CAB.html
→
08/04 05:15,
2年前
, 1F
08/04 05:15, 1F
→
08/04 05:15,
2年前
, 2F
08/04 05:15, 2F
→
08/04 05:16,
2年前
, 3F
08/04 05:16, 3F
→
08/04 05:16,
2年前
, 4F
08/04 05:16, 4F
推
08/04 07:59,
2年前
, 5F
08/04 07:59, 5F
→
08/04 07:59,
2年前
, 6F
08/04 07:59, 6F
→
08/04 08:00,
2年前
, 7F
08/04 08:00, 7F
→
08/04 08:00,
2年前
, 8F
08/04 08:00, 8F
→
08/04 20:46,
2年前
, 9F
08/04 20:46, 9F
噓
08/05 21:25,
2年前
, 10F
08/05 21:25, 10F
→
08/06 00:40,
2年前
, 11F
08/06 00:40, 11F
推
08/07 16:48,
2年前
, 12F
08/07 16:48, 12F
→
08/07 16:48,
2年前
, 13F
08/07 16:48, 13F
→
08/07 16:49,
2年前
, 14F
08/07 16:49, 14F
推
08/22 09:35,
2年前
, 15F
08/22 09:35, 15F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章