[分享] Coursera的Data Science課程

看板R_Language作者 (いい天気!)時間11年前 (2013/07/12 23:01), 編輯推噓4(403)
留言7則, 4人參與, 最新討論串1/1
我想分享一下我的上課心得, 但其實不太知道發哪裡好, 我想R板的成員應該屬於比較新潮的使用者, 或許會對Data Science或是Big Data之類的議題較有興趣, 就PO在這邊了,如果不行的話再請告訴我我自刪。 Data Science算是一個嶄新的領域, 定義可能有許多種,不過整體而言用以下這句話概括應該還行: 資料的獲取、整理、儲存以及分析。 在傳統的領域上,我會覺得比較像是Programming & 統計學的一種綜合體, 當然也要包含資料所要運用領域的知識。 因為相當新,所以其實不像統計學有大量有系統性的整理教材, 之前在Coursera上看到一門新的課程, "Introduction to Data Science",目前已經完結,不過應該還可以上去看。 課程當初的大綱大概是: 1. Data Science的來源、運用領域、展望。 2. SQL、MapReduce、Hadoop、NoSQL的介紹。 3. Machine Learning概論: 一些基礎的監督\非監督學習法: 迴歸、k-means、隨機森林、SVM等等。 4. 數據可視化。 5. Graph Analytics、Text Analytics (其實我不太懂這是什麼) 課程一共8周,當初的規劃好像是要寫四次作業, 用Python兩次、SQL一次、R一次。 -----------------美好的願景分隔線--------------------- 之前自己學過一點Python跟R, 對於兩者在Data Science上的運用,大概的印象是: Python可以幹些髒活,處理raw data, R則在接下來的統計分析跟可視化上面很有用。 第一次作業的確就是運用Python去撈取twitter的資料, 然後將抓下來的raw data汲取資訊, 分析包含的字詞啦、hash-tag的熱門度啦等等, 這算是我在這門課程收穫最大的部分, 一來是撈資料來分析很好玩,二來是邊學邊做Python很有趣。 然後我覺得這就是我收穫最多的部分了。 先講課程編排: 上面講的大綱並沒有完整的執行,Text Analytics根本沒上。 數據可視化的部分非常的泛泛,聊了什麼顏色啊、形狀啊哪個比較吸引人之類的, 我本來期待在可視化的部分可以用R的套件來點實作發揮, 不過沒有,講了一堆人在看東西怎樣怎樣的理論就沒了。 機器學習的部分則是太趕,顯得空泛。 先講了基本的統計分析,但我覺得太多沒必要的內容..... 會講花時間講統計基本,應該就是假設學的人沒有很紮實的基礎, 花時間去扯Publication Bias、Meta-analysis這種通常是學了一些才回頭要看的東西, 我認為沒什麼必要,然後講Benford's Law或是貝式統計概念, 的確是很炫啦,但跟課程銜接不上吧。 因為同時間我有在上一樣是Coursera上Machine Learning的課, 同樣的範圍ML那邊可能用了五周,還蠻詳細的說明了演算法寫法跟例子, 這邊只有用兩三周,顯得就囫圇吞棗, 也沒有實作等等,就只是講個概念而已。 我本來沒有學過SQL之類的工具,SQL的部分有一個作業, 等於也就是讓我們學會一些SQL的語法基礎跟概念,這邊還行。 MapReduce也有一次作業,這個我就沒有做了,講解概念的部分則是有點收穫。 然後R的那次作業也神隱了。 這堂課本來就不是要讓我們去深入Data Science的每一個工具, 而是讓我們變成"進階的初學者",每一個概念跟工具都稍微會懂一些, 有興趣再自己去鑽。--如果以這樣的出發點來說, 我會覺得課程的編排廣而不深沒有關係, 能夠清晰的理解工具的概念跟背後的思考方法也是一種助益。 只是老師Bill Howe作不到這點。 同樣的課程大綱,不應該像上述的那樣有些地方太快太帶過, 有些地方又花時間講無謂的東西。 他的講課很沉悶,很容易自己講一講停住、不知道要說什麼, 或者是胡言亂語一陣之後又說喔這個不是重點我們回來吧, 投影片常常字超級多,但有時其實是不講也不會怎樣的東西。 相對的上Machine Learning的老師就很清晰, 雖然是華人但英文很容易聽懂(比Howe好聽), 上課節奏也掌握得很好、不冷場、有重點, 可以感受到每一個課程元素之間的鏈結。 當然Data Science本來就是相對多主題的學問, 但是可以讓我每次都想快轉也其實不容易......。 聽起來很像抱怨,不過我想我的意見不會沒有道理, 這門課還是有其用處: 推薦給: 1. 根本不知道Data Science、Machine Learning是什麼的人, 在痛苦地聽完8周課之後你真的會變成"進階的初學者" 2. 需要訓練定力跟英文聽力的人。 不推薦給: 1. 本來就大概知道Data Science這個領域在幹嘛, 想要來學點實用工具的人。 (我大概就屬於這種) 我們需要的是訂閱一下R-bloggers跟Data Science 101, http://www.r-bloggers.com/ http://datascience101.wordpress.com/ 看看演算法要怎麼運用、怎麼處理資料跟作數據可視化, 都有example code就自己做做看,順便關心一下這領域有啥新東西。 2. 已經在某個領域中精進(ML、統計、programming.....)想要多方面涉獵的人, 對你而言跳著有興趣的課程看就夠了, 但我覺得搜尋那些關鍵字(NoSQL、Hadoop之類的)看看網路上的介紹, 或去找本好書來看應該效率會比較高。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.239.26

07/12 23:34, , 1F
謝謝你的心得
07/12 23:34, 1F

07/12 23:35, , 2F
對我個人來說, 只是想學學怎麼使用AWS 和map reduce...
07/12 23:35, 2F

07/12 23:35, , 3F
就沒有仔細去聽他給的lecture了
07/12 23:35, 3F

07/21 17:47, , 4F
結果出來了
07/21 17:47, 4F

07/29 13:14, , 5F
Coursera的ML講者可是大名鼎鼎的Andrew Ng啊...
07/29 13:14, 5F

10/11 18:58, , 6F
我很推薦computing for data analysis,對於想學R的人
10/11 18:58, 6F

10/19 01:14, , 7F
寫得太好了
10/19 01:14, 7F
文章代碼(AID): #1Hu1emZf (R_Language)
文章代碼(AID): #1Hu1emZf (R_Language)