PTT數位生活區 / R_Language

Re: [問題] 用R做複線性迴歸方程分析

看板R_Language作者celestialgod (攸藍)時間13年前 (2013/09/06 02:01)推噓8(8推 0噓 65→)

留言73則, 2人參與討論串3/3 (看更多)

最後補一個總流程 1. 了解資料特性 2. 查看變數相關性，確保共線性問題不會出現 => 出現共線性問題就要考慮其他方法 3. 模型選擇，通常不會是單一標準 a. 最簡單的方式就是根據你設定的significant level篩選掉不顯著的變數 b. 用prediction error決定加入哪些變數 (資工最常用) c. 用AIC or BIC選擇最好的模型 d. 有時候也會同時考慮R^2跟AIC 4. Model checking a. Normality => 沒過就要考慮response要做轉換，很多時候b的方法會拿來用 b. Equal variance => 最常見的就是用power transformation or Box-Cox (Note: 轉換以容易解釋為主) c. outlier detection => influence大才建議刪除 5. 最終結果 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.164.79.227 ※ 編輯: celestialgod 來自: 218.164.79.227 (09/06 02:02)

→

09/06 02:29, , 1^F

09/06 02:29, 1^F

推

09/06 14:49, , 2^F

09/06 14:49, 2^F

如果你的data存在dat這個object上，指令如下 dat[which(is.na(dat)]=0

推

09/06 15:23, , 3^F

09/06 15:23, 3^F

他會告訴你說有沒有standardized residual太大在第一行然後下面會列出最大的standardized residual.... 我手邊沒有一個有outlier的data，不知道有outlier他會怎樣....

→

09/06 15:25, , 4^F

09/06 15:25, 4^F

離群值就你如果知道他的row number,rn 就 dat.new=data[-rn]

推

09/06 16:59, , 5^F

09/06 16:59, 5^F

→

09/06 16:59, , 6^F

09/06 16:59, 6^F

sorry, 不用which airquality[is.na(airquality)]=0

→

09/06 17:00, , 7^F

09/06 17:00, 7^F

→

09/06 17:01, , 8^F

09/06 17:01, 8^F

→

09/06 17:01, , 9^F

09/06 17:01, 9^F

你有例子我可以幫你試試看.... 還有我對function涉獵比較少...通常我都徒法煉鋼@@... 可能有好用的function可以用於刪除NA or Outliers...

推

09/06 17:06, , 10^F

09/06 17:06, 10^F

書的話下面有幾本你可以在網路上找到低調 Linear Models with R Extending_the_Linear_Model_with_R Using R for Data Management, Statistical Analysis, and Graphics 這幾本都有用回歸作分析....而且都是用R

推

09/06 18:24, , 11^F

09/06 18:24, 11^F

→

09/06 18:25, , 12^F

09/06 18:25, 12^F

→

09/06 18:26, , 13^F

09/06 18:26, 13^F

推

09/06 18:34, , 14^F

09/06 18:34, 14^F

→

09/06 18:34, , 15^F

09/06 18:34, 15^F

還是不太明白什麼叫做文字離群值XD... rn一定要數字啊!!! 因為那個是去掉那一列如果你說的是去掉某一個國家的話，可以這樣 savings[-match("South Africa", rownames(savings)),] 這個就是我要去掉南非那一個row....當然可以一次去多個 savings[-match(c("South Africa","China"), rownames(savings)),] 因為你y裡面有0....(PS:你剛剛說要把NA轉成0....) 所以log(0)=-Inf...當然會有問題補充：你可能會用到多項式的回歸可以這樣寫 lm(y~I(x^2)+I(x^3)+log(x)) I()可以讓你在lm裡面做計算@@...

推

09/06 19:30, , 16^F

09/06 19:30, 16^F

→

09/06 19:31, , 17^F

09/06 19:31, 17^F

→

09/06 19:31, , 18^F

09/06 19:31, 18^F

→

09/06 19:33, , 19^F

09/06 19:33, 19^F

NA就是NA阿= = 給他0....實在不怎麼make sense除非有什麼合理解釋... 你PO程式碼之後可以再研究看看 ※ 編輯: celestialgod 來自: 218.164.79.227 (09/06 19:41)

→

09/07 00:06, , 20^F

09/07 00:06, 20^F

看了一下你的程式.... 最後一行我前面有說明還有 var.test 我不懂你在做什麼... 你可以說明一下你那樣分組的意義跟原因嗎？

→

09/07 00:11, , 21^F

09/07 00:11, 21^F

→

09/07 00:12, , 22^F

09/07 00:12, 22^F

→

09/07 00:13, , 23^F

09/07 00:13, 23^F

忽略是正常的... 如果不想忽略請找其他適合的模型配適或是利用一些方法去估計不是你隨便加值可以搞定的... 資料最大!!! 你想對資料做什麼都要有合理理由!!

→

09/07 00:16, , 24^F

09/07 00:16, 24^F

影響點通常就是去畫scatter plot比較快看圖真的比較容易~"~

→

09/07 00:40, , 25^F

09/07 00:40, 25^F

不可能XD 我指的影響點是說會嚴重影響回歸係數估計的點有些點雖然有點超出正常群的範圍可是他在回歸線上那是可以的... => cook's distance plot不能正確找出影響點，但是可以縮小範圍

→

09/07 00:41, , 26^F

09/07 00:41, 26^F

規定= =? 不太懂這個規定有何用，不能用就是不能用...沒什麼好說的而且那個是做two-sample variance F-test 完全不適用於此...

還有 15 則推文

還有 9 段內文

對是看該點是否有嚴重影響斜率

→

09/07 13:27, , 42^F

09/07 13:27, 42^F

程式碼，我就不看了...我前面那篇寫的已經夠完整了....

→

09/07 13:27, , 43^F

09/07 13:27, 43^F

→

09/07 13:43, , 44^F

09/07 13:43, 44^F

→

09/07 15:12, , 45^F

09/07 15:12, 45^F

推

09/07 18:05, , 46^F

09/07 18:05, 46^F

→

09/07 21:59, , 47^F

09/07 21:59, 47^F

→

09/07 21:59, , 48^F

09/07 21:59, 48^F

版大說得很對QQ...不同領域處理相關問題的看法是極為不同的。

→

09/08 00:47, , 49^F

09/08 00:47, 49^F

→

09/08 00:49, , 50^F

09/08 00:49, 50^F

→

09/08 00:50, , 51^F

09/08 00:50, 51^F

→

09/08 00:51, , 52^F

09/08 00:51, 52^F

→

09/08 00:51, , 53^F

09/08 00:51, 53^F

最適怎樣叫做最適.... 資工覺得Prediction Error or Test Error最低是最適統計有些人認為AIC最低最適有些人認為BIC最低最適當然亦有人認為判定係數最高就最適何謂最適？這沒有一個準則...只能說你們教授教的就照教科書念一念而已吧~"~

→

09/08 00:54, , 54^F

09/08 00:54, 54^F

這不完全是你的錯@@...

→

09/08 01:06, , 55^F

09/08 01:06, 55^F

→

09/08 01:07, , 56^F

09/08 01:07, 56^F

→

09/08 01:08, , 57^F

09/08 01:08, 57^F

→

09/08 01:09, , 58^F

09/08 01:09, 58^F

→

09/08 01:14, , 59^F

09/08 01:14, 59^F

→

09/08 01:15, , 60^F

09/08 01:15, 60^F

恩按照你教授的想法大概資料會只剩下70%...這種事情常有XD 會不斷的刪....我以前就用過這種作業了XDDD

→

09/08 01:47, , 61^F

09/08 01:47, 61^F

→

09/08 01:47, , 62^F

09/08 01:47, 62^F

→

09/08 01:48, , 63^F

09/08 01:48, 63^F

那是經濟資料，我覺得選擇模型最重要的應該是預測未來的saving rate

→

09/08 02:10, , 64^F

09/08 02:10, 64^F

→

09/08 02:11, , 65^F

09/08 02:11, 65^F

→

09/08 02:13, , 66^F

09/08 02:13, 66^F

→

09/08 02:15, , 67^F

09/08 02:15, 67^F

只能說迴歸分析是需要經驗來累積的.... 不是上個課就會了...教授教得好不好是一回事你有沒有認真學起來才是真的 ※ 編輯: celestialgod 來自: 218.164.166.108 (09/08 02:21)

→

09/08 18:05, , 68^F

09/08 18:05, 68^F

→

09/08 18:05, , 69^F

09/08 18:05, 69^F

→

09/08 18:08, , 70^F

09/08 18:08, 70^F

→

09/08 18:09, , 71^F

09/08 18:09, 71^F

→

09/08 18:10, , 72^F

09/08 18:10, 72^F

→

09/08 18:11, , 73^F

09/08 18:11, 73^F

‣ 返回看板[ R_Language ] 程式

‣ 更多 celestialgod 的文章

文章代碼(AID): #1IACS3PA (R_Language)

討論串 (同標題文章)

完整討論串 (本文為第 3 之 3 篇)：

排序：最新先 | 最舊先 | 留言數

8

73

Re: [問題] 用R做複線性迴歸方程分析

13年前, 09/06

10

24

Re: [問題] 用R做複線性迴歸方程分析

13年前, 09/05

1

7

[問題] 用R做複線性迴歸方程分析

13年前, 09/04

在新視窗開啟完整討論串 (共3篇)

R_Language 近期熱門文章

2

2

Re: [問題] geombar分類對齊函數

1年前, 04/24

2

2

[問題] geombar分類對齊函數

1年前, 04/21

1

2

徵求R studio家教

1年前, 01/17

1

7

[問題] 請問如何多次複製1筆資料? (求救)

1年前, 11/10

4

6

[問題] 如何將資料重組 (觀察值轉成變數)？

1年前, 10/28

2

8

[問題] 可否以RODBC去連Oracle??

1年前, 08/21

1

3

[問題] augPred function 出現錯誤訊息?

2年前, 07/27

2

8

[問題] IRT相關問題

2年前, 05/01

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

13

22

Re: [閒聊] 傳聞下周N卡漲20% 8月其他零件跟上

[ PC_Shopping ]

50分鐘前, 07/28

5

10

[方案] 遠傳 vs 台哥大 4G 吃到飽

4小時前, 07/28

17

25

[賣/雙北/面交] EVGA RTX 3070 Ti FTW3 Ultra

[ HardwareSale ]

5小時前, 07/28

25

38

[情報] iOS 26.6置底

12小時前, 07/28

1

43

[菜單] 100K遊戲機

[ PC_Shopping ]

14小時前, 07/28

-9

12

Re: [心得] iPhone沒有想像地那麼順暢

15小時前, 07/27

26

77

[新聞] 北捷已支援三星/Google錢包交通快速模式

16小時前, 07/27

8

52

Re: [心得] iPhone沒有想像地那麼順暢

17小時前, 07/27

更多即時熱門文章 >>

‣ 返回看板[ R_Language ] 程式

‣ 更多 celestialgod 的文章

文章代碼(AID): #1IACS3PA (R_Language)