[分享] Coursera的Data Science課程
我想分享一下我的上課心得,
但其實不太知道發哪裡好,
我想R板的成員應該屬於比較新潮的使用者,
或許會對Data Science或是Big Data之類的議題較有興趣,
就PO在這邊了,如果不行的話再請告訴我我自刪。
Data Science算是一個嶄新的領域,
定義可能有許多種,不過整體而言用以下這句話概括應該還行:
資料的獲取、整理、儲存以及分析。
在傳統的領域上,我會覺得比較像是Programming & 統計學的一種綜合體,
當然也要包含資料所要運用領域的知識。
因為相當新,所以其實不像統計學有大量有系統性的整理教材,
之前在Coursera上看到一門新的課程,
"Introduction to Data Science",目前已經完結,不過應該還可以上去看。
課程當初的大綱大概是:
1. Data Science的來源、運用領域、展望。
2. SQL、MapReduce、Hadoop、NoSQL的介紹。
3. Machine Learning概論:
一些基礎的監督\非監督學習法: 迴歸、k-means、隨機森林、SVM等等。
4. 數據可視化。
5. Graph Analytics、Text Analytics (其實我不太懂這是什麼)
課程一共8周,當初的規劃好像是要寫四次作業,
用Python兩次、SQL一次、R一次。
-----------------美好的願景分隔線---------------------
之前自己學過一點Python跟R,
對於兩者在Data Science上的運用,大概的印象是:
Python可以幹些髒活,處理raw data,
R則在接下來的統計分析跟可視化上面很有用。
第一次作業的確就是運用Python去撈取twitter的資料,
然後將抓下來的raw data汲取資訊,
分析包含的字詞啦、hash-tag的熱門度啦等等,
這算是我在這門課程收穫最大的部分,
一來是撈資料來分析很好玩,二來是邊學邊做Python很有趣。
然後我覺得這就是我收穫最多的部分了。
先講課程編排:
上面講的大綱並沒有完整的執行,Text Analytics根本沒上。
數據可視化的部分非常的泛泛,聊了什麼顏色啊、形狀啊哪個比較吸引人之類的,
我本來期待在可視化的部分可以用R的套件來點實作發揮,
不過沒有,講了一堆人在看東西怎樣怎樣的理論就沒了。
機器學習的部分則是太趕,顯得空泛。
先講了基本的統計分析,但我覺得太多沒必要的內容.....
會講花時間講統計基本,應該就是假設學的人沒有很紮實的基礎,
花時間去扯Publication Bias、Meta-analysis這種通常是學了一些才回頭要看的東西,
我認為沒什麼必要,然後講Benford's Law或是貝式統計概念,
的確是很炫啦,但跟課程銜接不上吧。
因為同時間我有在上一樣是Coursera上Machine Learning的課,
同樣的範圍ML那邊可能用了五周,還蠻詳細的說明了演算法寫法跟例子,
這邊只有用兩三周,顯得就囫圇吞棗,
也沒有實作等等,就只是講個概念而已。
我本來沒有學過SQL之類的工具,SQL的部分有一個作業,
等於也就是讓我們學會一些SQL的語法基礎跟概念,這邊還行。
MapReduce也有一次作業,這個我就沒有做了,講解概念的部分則是有點收穫。
然後R的那次作業也神隱了。
這堂課本來就不是要讓我們去深入Data Science的每一個工具,
而是讓我們變成"進階的初學者",每一個概念跟工具都稍微會懂一些,
有興趣再自己去鑽。--如果以這樣的出發點來說,
我會覺得課程的編排廣而不深沒有關係,
能夠清晰的理解工具的概念跟背後的思考方法也是一種助益。
只是老師Bill Howe作不到這點。
同樣的課程大綱,不應該像上述的那樣有些地方太快太帶過,
有些地方又花時間講無謂的東西。
他的講課很沉悶,很容易自己講一講停住、不知道要說什麼,
或者是胡言亂語一陣之後又說喔這個不是重點我們回來吧,
投影片常常字超級多,但有時其實是不講也不會怎樣的東西。
相對的上Machine Learning的老師就很清晰,
雖然是華人但英文很容易聽懂(比Howe好聽),
上課節奏也掌握得很好、不冷場、有重點,
可以感受到每一個課程元素之間的鏈結。
當然Data Science本來就是相對多主題的學問,
但是可以讓我每次都想快轉也其實不容易......。
聽起來很像抱怨,不過我想我的意見不會沒有道理,
這門課還是有其用處:
推薦給:
1. 根本不知道Data Science、Machine Learning是什麼的人,
在痛苦地聽完8周課之後你真的會變成"進階的初學者"
2. 需要訓練定力跟英文聽力的人。
不推薦給:
1. 本來就大概知道Data Science這個領域在幹嘛,
想要來學點實用工具的人。 (我大概就屬於這種)
我們需要的是訂閱一下R-bloggers跟Data Science 101,
http://www.r-bloggers.com/
http://datascience101.wordpress.com/
看看演算法要怎麼運用、怎麼處理資料跟作數據可視化,
都有example code就自己做做看,順便關心一下這領域有啥新東西。
2. 已經在某個領域中精進(ML、統計、programming.....)想要多方面涉獵的人,
對你而言跳著有興趣的課程看就夠了,
但我覺得搜尋那些關鍵字(NoSQL、Hadoop之類的)看看網路上的介紹,
或去找本好書來看應該效率會比較高。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.192.239.26
推
07/12 23:34, , 1F
07/12 23:34, 1F
→
07/12 23:35, , 2F
07/12 23:35, 2F
→
07/12 23:35, , 3F
07/12 23:35, 3F
推
07/21 17:47, , 4F
07/21 17:47, 4F
→
07/29 13:14, , 5F
07/29 13:14, 5F
推
10/11 18:58, , 6F
10/11 18:58, 6F
推
10/19 01:14, , 7F
10/19 01:14, 7F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章