[問題] 很多很蠢的問題?

看板DataScience作者 (filialpiety)時間5年前 (2019/04/05 14:18), 5年前編輯推噓6(6031)
留言37則, 9人參與, 5年前最新討論串1/1
抱歉,重新改寫,前幾天生病有工作,心有餘了而不足,頭腦有點昏又焦急,在這更新一 下,希望能幫助以後有同樣困擾的人。 小弟目前正在學習資料分析,想到kaggle 練功,所以在這想請問幾個問題......麻煩各 位了 首先是統計軟體的問題,請問SAS、RStdio、Python可以跑多大的資料? 第二個是bigquery,如果用私服器跑資料分析,一定得用linux嗎? 因為我看到RSudio s erver只能用linux...最主要是因為前陣子有興趣的變項很多都在biqquery,所以才想挑 戰看看 第三個是linux,如果我想操作linux,是否需要把電腦重灌作業系統? 又或者是買新的一台新的電競桌電(強的cpu、gpu、記憶體)? 因為之前用mac,結果sas不能用,今年一月才入手了一台七萬多的Thinkpad,現在已經有 兩台筆電了!所以很矛盾QAQ 抱歉 問題這麼多...最近真的很焦慮 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.79.151 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1554445133.A.05C.html

04/05 14:46, 5年前 , 1F
在本機上跑不需要 RStudio server,單純使用的狀況能跑
04/05 14:46, 1F

04/05 14:46, 5年前 , 2F
的資料大小受你的記憶體大小限制。
04/05 14:46, 2F

04/05 14:47, 5年前 , 3F
要上 Google Cloud 跑 bigquery 的話跟你本機的作業系
04/05 14:47, 3F

04/05 14:47, 5年前 , 4F
統沒有關係,Rstudio server 也是要部署在伺服器端。
04/05 14:47, 4F

04/05 14:49, 5年前 , 5F
Google 有官方文件說明怎麼在他們的主機部署 Rstudio
04/05 14:49, 5F

04/05 14:49, 5年前 , 6F
請詳讀說明文件:http://tinyurl.com/y6r8thvr
04/05 14:49, 6F

04/05 15:13, 5年前 , 7F
其實你標題可以取跟問題本身有關一點,然後有種技術叫雙系
04/05 15:13, 7F

04/05 15:13, 5年前 , 8F
統,windows+linux大讚
04/05 15:13, 8F

04/05 15:16, 5年前 , 9F
買新電腦CP應該不會比灌雙系統高,如果你電腦容量不夠,也
04/05 15:16, 9F

04/05 15:16, 5年前 , 10F
可以用行動硬碟灌linux,那顆硬碟帶到哪,linux就到哪
04/05 15:16, 10F

04/05 15:47, 5年前 , 11F
第一,先把 SAS 刪掉,貴又只在特定領域有用
04/05 15:47, 11F

04/05 15:48, 5年前 , 12F
R 跟 python,超過 10gb or 上億筆 data 都可
04/05 15:48, 12F

04/05 15:48, 5年前 , 13F
linux 好用多了,windows 簡直爛
04/05 15:48, 13F

04/05 15:49, 5年前 , 14F
mac 筆電不考慮,記憶體小,cp 值超低
04/05 15:49, 14F

04/05 20:26, 5年前 , 15F
還有個辦法 用VM開Linux
04/05 20:26, 15F

04/05 20:59, 5年前 , 16F
MAC缺點好像是同價位硬體都弱一截
04/05 20:59, 16F

04/05 20:59, 5年前 , 17F
基本上只要硬體夠塞,理論上沒到TB等級的資料沒問題
04/05 20:59, 17F

04/05 21:00, 5年前 , 18F
至少我用py自己跑幾百G都還滿OK的(完全看硬體等級啦)
04/05 21:00, 18F

04/06 00:23, 5年前 , 19F
KAGE? KAGGLE ?如果是KAGGLE就直接用KAGGLE KERNEL....
04/06 00:23, 19F

04/06 00:23, 5年前 , 20F
或是上COLAB就好 ...
04/06 00:23, 20F

04/06 01:37, 5年前 , 21F
當然是在server或雲上跑分析呀
04/06 01:37, 21F
※ 編輯: filialpiety (223.138.66.254), 04/06/2019 22:02:51

04/06 22:03, 5年前 , 22F
感謝樓上各位大大的協助,我會努力的
04/06 22:03, 22F

04/08 10:37, 5年前 , 23F
如果是實驗或比賽,用kernel或是Colab就好了。我自己的
04/08 10:37, 23F

04/08 10:37, 5年前 , 24F
經驗是python中有很多批量處理的方式,像是generator或
04/08 10:37, 24F

04/08 10:37, 5年前 , 25F
是pandas有專門給批量處理的生成方式,相對他就只佔固定
04/08 10:37, 25F

04/08 10:37, 5年前 , 26F
的記憶體,至於sklearn也有對應增量學習的方法,線性的s
04/08 10:37, 26F

04/08 10:37, 5年前 , 27F
vm可以用SGD改成hinge loss,非線性的話,目前沒有效的
04/08 10:37, 27F

04/08 10:37, 5年前 , 28F
方式處理(可以去聽吳恩達教授的課,他有說明),至於DL
04/08 10:37, 28F

04/08 10:37, 5年前 , 29F
本身就有batch的方式處理了。軟體解決的方案都考慮過,
04/08 10:37, 29F

04/08 10:37, 5年前 , 30F
在去處理硬體。詳細的軟體寫法可以去python 版問
04/08 10:37, 30F

04/08 12:52, 5年前 , 31F
基本上,colab的cpu跟gpu都很夠了,除非你的服務是要上
04/08 12:52, 31F

04/08 12:52, 5年前 , 32F
線的,要不然純粹開發階段,Colab就很爽啦,到哪都可以
04/08 12:52, 32F

04/08 12:52, 5年前 , 33F
開發,只要一條網路線就好了,我都在用文書機寫code了
04/08 12:52, 33F

04/08 13:03, 5年前 , 34F
最後就是還真的記憶體不夠用,記得檢查哪些記憶體是可以
04/08 13:03, 34F

04/08 13:03, 5年前 , 35F
釋放的,哪些可以重複使用,不要被高階語言跟硬體慣壞,
04/08 13:03, 35F

04/08 13:03, 5年前 , 36F
系統釋放跟管理系統資源是程式設計者的本分,創了一堆無
04/08 13:03, 36F

04/08 13:03, 5年前 , 37F
用的array當然記憶體會不夠用
04/08 13:03, 37F
文章代碼(AID): #1SflDD1S (DataScience)
文章代碼(AID): #1SflDD1S (DataScience)