Re: [問題] 用R做複線性迴歸方程分析
最後補一個總流程
1. 了解資料特性
2. 查看變數相關性,確保共線性問題不會出現
=> 出現共線性問題 就要考慮其他方法
3. 模型選擇,通常不會是單一標準
a. 最簡單的方式就是根據你設定的significant level篩選掉不顯著的變數
b. 用prediction error決定加入哪些變數 (資工最常用)
c. 用AIC or BIC選擇最好的模型
d. 有時候也會同時考慮R^2跟AIC
4. Model checking
a. Normality => 沒過就要考慮response要做轉換,很多時候b的方法會拿來用
b. Equal variance => 最常見的就是用power transformation or Box-Cox
(Note: 轉換以容易解釋為主)
c. outlier detection => influence大才建議刪除
5. 最終結果
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.164.79.227
※ 編輯: celestialgod 來自: 218.164.79.227 (09/06 02:02)
→
09/06 02:29, , 1F
09/06 02:29, 1F
推
09/06 14:49, , 2F
09/06 14:49, 2F
如果你的data存在dat這個object上,指令如下
dat[which(is.na(dat)]=0
推
09/06 15:23, , 3F
09/06 15:23, 3F
他會告訴你說有沒有standardized residual太大 在第一行
然後下面會列出最大的standardized residual....
我手邊沒有一個有outlier的data,不知道有outlier他會怎樣....
→
09/06 15:25, , 4F
09/06 15:25, 4F
離群值就你如果知道他的row number,rn 就 dat.new=data[-rn]
推
09/06 16:59, , 5F
09/06 16:59, 5F
→
09/06 16:59, , 6F
09/06 16:59, 6F
sorry, 不用which
airquality[is.na(airquality)]=0
→
09/06 17:00, , 7F
09/06 17:00, 7F
→
09/06 17:01, , 8F
09/06 17:01, 8F
→
09/06 17:01, , 9F
09/06 17:01, 9F
你有例子我可以幫你試試看....
還有我對function涉獵比較少...通常我都徒法煉鋼@@...
可能有好用的function可以用於刪除NA or Outliers...
推
09/06 17:06, , 10F
09/06 17:06, 10F
書的話下面有幾本 你可以在網路上找到低調
Linear Models with R
Extending_the_Linear_Model_with_R
Using R for Data Management, Statistical Analysis, and Graphics
這幾本都有用回歸作分析....而且都是用R
推
09/06 18:24, , 11F
09/06 18:24, 11F
→
09/06 18:25, , 12F
09/06 18:25, 12F
→
09/06 18:26, , 13F
09/06 18:26, 13F
推
09/06 18:34, , 14F
09/06 18:34, 14F
→
09/06 18:34, , 15F
09/06 18:34, 15F
還是不太明白什麼叫做文字離群值XD...
rn一定要數字啊!!! 因為那個是去掉那一列
如果你說的是去掉某一個國家的話,可以這樣
savings[-match("South Africa", rownames(savings)),]
這個就是我要去掉南非那一個row....當然可以一次去多個
savings[-match(c("South Africa","China"), rownames(savings)),]
因為你y裡面有0....(PS:你剛剛說要把NA轉成0....)
所以log(0)=-Inf...當然會有問題
補充:你可能會用到多項式的回歸
可以這樣寫 lm(y~I(x^2)+I(x^3)+log(x))
I()可以讓你在lm裡面做計算@@...
推
09/06 19:30, , 16F
09/06 19:30, 16F
→
09/06 19:31, , 17F
09/06 19:31, 17F
→
09/06 19:31, , 18F
09/06 19:31, 18F
→
09/06 19:33, , 19F
09/06 19:33, 19F
NA就是NA阿= = 給他0....實在不怎麼make sense除非有什麼合理解釋...
你PO程式碼之後 可以再研究看看
※ 編輯: celestialgod 來自: 218.164.79.227 (09/06 19:41)
→
09/07 00:06, , 20F
09/07 00:06, 20F
看了一下你的程式....
最後一行我前面有說明
還有 var.test 我不懂你在做什麼...
你可以說明一下 你那樣分組的意義跟原因嗎?
→
09/07 00:11, , 21F
09/07 00:11, 21F
→
09/07 00:12, , 22F
09/07 00:12, 22F
→
09/07 00:13, , 23F
09/07 00:13, 23F
忽略是正常的...
如果不想忽略 請找其他適合的模型配適
或是利用一些方法去估計
不是你隨便加值 可以搞定的...
資料最大!!! 你想對資料做什麼都要有合理理由!!
→
09/07 00:16, , 24F
09/07 00:16, 24F
影響點通常就是去畫scatter plot比較快
看圖真的比較容易~"~
→
09/07 00:40, , 25F
09/07 00:40, 25F
不可能XD 我指的影響點是說會嚴重影響回歸係數估計的點
有些點雖然有點超出正常群的範圍 可是他在回歸線上 那是可以的...
=> cook's distance plot不能正確找出影響點,但是可以縮小範圍
→
09/07 00:41, , 26F
09/07 00:41, 26F
規定= =? 不太懂這個規定有何用,不能用就是不能用...沒什麼好說的
而且那個是做two-sample variance F-test 完全不適用於此...
還有 15 則推文
還有 9 段內文
對 是看該點是否有嚴重影響斜率
→
09/07 13:27, , 42F
09/07 13:27, 42F
程式碼,我就不看了...我前面那篇寫的已經夠完整了....
→
09/07 13:27, , 43F
09/07 13:27, 43F
→
09/07 13:43, , 44F
09/07 13:43, 44F
→
09/07 15:12, , 45F
09/07 15:12, 45F
推
09/07 18:05, , 46F
09/07 18:05, 46F
→
09/07 21:59, , 47F
09/07 21:59, 47F
→
09/07 21:59, , 48F
09/07 21:59, 48F
版大說得很對QQ...不同領域處理相關問題的看法是極為不同的。
→
09/08 00:47, , 49F
09/08 00:47, 49F
→
09/08 00:49, , 50F
09/08 00:49, 50F
→
09/08 00:50, , 51F
09/08 00:50, 51F
→
09/08 00:51, , 52F
09/08 00:51, 52F
→
09/08 00:51, , 53F
09/08 00:51, 53F
最適怎樣叫做最適....
資工覺得Prediction Error or Test Error最低是最適
統計有些人認為AIC最低最適 有些人認為BIC最低最適
當然亦有人認為判定係數最高就最適 何謂最適?
這沒有一個準則...只能說你們教授教的就照教科書念一念而已吧~"~
→
09/08 00:54, , 54F
09/08 00:54, 54F
這不完全是你的錯@@...
→
09/08 01:06, , 55F
09/08 01:06, 55F
→
09/08 01:07, , 56F
09/08 01:07, 56F
→
09/08 01:08, , 57F
09/08 01:08, 57F
→
09/08 01:09, , 58F
09/08 01:09, 58F
→
09/08 01:14, , 59F
09/08 01:14, 59F
→
09/08 01:15, , 60F
09/08 01:15, 60F
恩 按照你教授的想法 大概資料會只剩下70%...這種事情常有XD
會不斷的刪....我以前就用過這種作業了XDDD
→
09/08 01:47, , 61F
09/08 01:47, 61F
→
09/08 01:47, , 62F
09/08 01:47, 62F
→
09/08 01:48, , 63F
09/08 01:48, 63F
那是經濟資料,我覺得選擇模型最重要的應該是預測未來的saving rate
→
09/08 02:10, , 64F
09/08 02:10, 64F
→
09/08 02:11, , 65F
09/08 02:11, 65F
→
09/08 02:13, , 66F
09/08 02:13, 66F
→
09/08 02:15, , 67F
09/08 02:15, 67F
只能說 迴歸分析是需要經驗來累積的....
不是上個課就會了...教授教得好不好是一回事
你有沒有認真學起來才是真的
※ 編輯: celestialgod 來自: 218.164.166.108 (09/08 02:21)
→
09/08 18:05, , 68F
09/08 18:05, 68F
→
09/08 18:05, , 69F
09/08 18:05, 69F
→
09/08 18:08, , 70F
09/08 18:08, 70F
→
09/08 18:09, , 71F
09/08 18:09, 71F
→
09/08 18:10, , 72F
09/08 18:10, 72F
→
09/08 18:11, , 73F
09/08 18:11, 73F
討論串 (同標題文章)
完整討論串 (本文為第 3 之 3 篇):
10
24
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章