Fw: [心得] FinTech Data Scientist 的日常

看板DataScience作者 (vivce1994)時間4年前 (2020/06/20 12:23), 4年前編輯推噓7(700)
留言7則, 7人參與, 4年前最新討論串1/1
※ [本文轉錄自 Soft_Job 看板 #1UxOyUH_ ] 作者: vivceC (vivce1994) 看板: Soft_Job 標題: [心得] FinTech Data Scientist 的日常 時間: Sat Jun 20 12:22:52 2020 Medium 網頁好讀版 https://lihi1.cc/kpPyw 金融科技的資料科學家到底都在幹嘛!? 最近很多人對我的工作內容好奇,簡單的挑幾個完成跟進行中的專案跟大家分享。 這篇文章是跟我的天才好夥伴 Leo 一起完成的,非常感謝他的協助,讓我的用字能兼顧 技術宅、科普到親民,對我來說是一個很有趣的新嘗試! 以下他的 medium https://medium.com/@leo1125s 簡介 跟一般 Data Scientist 不一樣的地方是,我的背景是實驗/認知心理學。 認知科學的訓練讓我在分析行為資料時能提供更多的洞見, 也更關注所謂的個體差異(individual difference)。 我主要使用的工具是 Python,工作內容橫跨商業分析跟機器學習。 這次講機器學習的五個技術跟應用,分別有 1. 用戶分群 2. 信用風險模型 3. 光學字元辨識 4. 自然語言處理 5. 員工特質分析 為了方便理解,會舉拍發票的產品為例子。 用戶分群(Customer Segmentation) 機器學習的分群技術(Clustering),是一種將巨量資料分類成群的方法。 我們有許多產品及服務,用戶使用這些產品的過程都留下了豐富的資料。 利用人工智慧和機器學習的技術,分析用戶使用過程累積的資料, 計算出用戶的輪廓及行為模式。 有點難想像嗎? 舉例來說拍發票的行為就能被分成好幾種: 三天捕魚兩天曬網的、每天拍五張的、拿別人發票來拍的等等 XD 這些分類用人力判斷會非常耗時,甚至有時候人類會不知道該如何分類, 因此就需要人工智慧與機器學習的協助。沒有哪一種特別好,大家都可以自在的做自己。 因為分析的目的是讓我們更精確的知道用戶消費習慣。 未來就可以協助提供每位用戶個人化的服務,讓數據能讓每個人的生活變得更好。 Clustering Python 關鍵字:K-means, Mean Shift, DBSCAN, Agglomerative Hierarchical 信用風險模型(Credit Risk Modelling) 信用風險模型是大家最耳熟但也最陌生的了吧。 機器學習中的其中一個分支叫做深度學習,深度學習會模擬人類思考的模式, 讓電腦做到更理性客觀、沒有偏誤的決策。 深度學習其實不是一個新的概念,早在三四十年前就已經存在。 因為它模擬人類大腦的運算方式,被稱為類神經網路。 這樣的運算需要強大的硬體及算力,當時的技術還做不到, 所以早期類神經網路的應用非常的有限。 直到近幾年硬體技術提升,深度學習的概念才有真正的應用。 所以我們的大腦其實是複雜又精緻的東西,大家要好好珍惜使用啊~ 順帶一提,深度學習之父 — Geoffrey Hinton — 大學時期的本科系就是心理學哦! 一開始就是對大腦有興趣,想讓電腦可以像人一樣思考決策,才一頭栽進這個領域的! 這樣的深度學習能力除了用在自駕車、下圍棋、也廣泛的應用在決策管理, 在許多的金融決策上也開始佔有一席之地。 這樣的模型在金融、保險產業都時常出現,金融科技產業當然也不例外。 有趣的是,這樣的模型是不斷變動的, 原因是模型的許多參數會受到公司當下的發展方針、活動甚至是外部經濟環境影響。 所以絕對無法說被風險模型拒絕與否,就表示一個人的信用如何喔~ Classification Python 關鍵字:Random Forest, Logistic Regression, Gradient Descent, K-Nearest Neighbours 光學字元辨識(Optical Character Recognition) 光學字元辨識,也是我們常說的文字辨識(OCR), 是一個可以辨識圖片內文字的技術。 實名制在科技產業已經是一個趨勢!除了讓我們更認識用戶, 同時也代表高品質的真實用戶。在實名制文件的辨識上, 英文和數字辨識的研究已經漸趨成熟,準確度也都有一定的水平, 而中文字的辨識還有很大的進步空間。 主要的原因是英文只有 26 個字母,數字只有 10 個數字, 而博大精深的中文字庫則是數以萬計,所以中文的辨識一直有技術上的瓶頸。 我們團隊目前正在跟台灣大學合作,開發新的中文辨識, 我相信這會是一個突破性的技術! OCR Python 關鍵字:pytesseract, OpenCV 自然語言處理(Natural Language Processing) 根據維基百科的定義:自然語言處理(NLP)是計算機科學以及人工智慧的子領域, 專注在如何讓計算機處理並分析大量自然語言數據。 NLP 常見的挑戰有語音辨識、自然語言理解、機器翻譯以及自然語言的生成。 電腦傳遞訊息的方式就像我們在電影裡看到的,是由 0 與 1 組成的密密麻麻的數字。 而人與人之間的訊息傳遞習慣用簡短的句子表達複雜且大量的資訊, 因為我們希望對方很快就能理解我們的表達。 因此訊息傳遞的複雜程度大概比電腦多了一百萬倍吧! 自然語言處理,是希望讓機器透過各種模型、人工智慧技術,學習人類傳遞訊息的方式。 包含語音、文字、翻譯甚至希望機器可以自行造句(大多數人都讀得懂的那種句子)。 自然語言理解是我目前最關注的領域, 自然語言理解的技術可以讓機器理解人類字句的意義,協助我們處理大量的文字訊息。 像用戶拍的發票,上面有非常多的資訊,有些是較不重要的, 而有些則是重要的關鍵字。不重要的字例如:商家名稱中的股份有限公司, 這樣的氾濫字沒辦法帶給我們更多的資訊,而牛排、鍋貼、奶茶等等, 就是能讓我們熟悉用戶消費行為、甚至飲食習慣的重要關鍵字 。 教會電腦去判斷什麼是發票中的關鍵字、什麼是可以跳過的字, 就是我們在自然語言處理中主要在做的事情。 現實生活中,自然語言處理的技術也常用在客服聊天機器人上, 當用戶發問「請問你們幾點開始上班」, 這樣的句子會抓出重要關鍵字「幾點」、「上班」而被歸類在營業時間的問題, 而「請問」這樣的字就會被過濾掉,但也許機器會把你分群到禮貌的用戶, 所以面對機器時還是可以保持禮貌(笑。 不過呢,發票和客服的分析是完全不一樣的, 所以就算訓練出很厲害的發票自然語言處理模型, 讓這樣的模型去處理客服問題還是會表現得非常差,他會抓錯重點, 用戶也會不知道他在回什麼。也就是說,如果要處理客服問題, 我們需要重新打造一個專門處理客服訊息的新人工智慧模型。 題外話,「人工智慧會不會取代我的工作,造成社會的失業?」 這樣的問題,可以從前段內容得到答案,「不會!」。 因為機器學習的專一性,還是沒辦法取代多元又聰明的人類。 我們相信接下來會是一個斜槓的時代,當你擁有越多元的專業跟資源, 你在這個人工智慧的新時代會擁有更強的競爭力! 而如何聰明的分配資源,讓自己多元的發展,也是我們想幫助每個人達到的事! NLP Python 關鍵字:NLTK, LSTM, Jieba, keras 員工特質分析(Human Resource Analytics) 什麼!員工的人格特質分析居然跟資料科學有關係!? 在我們公司,我們相信團隊中最重要的就是良好溝通。除了坦率表達自我之外, 我們也思考如何讓團隊成員更了解彼此,透過瞭解彼此的特質與工作習慣, 不但提高溝通效率,還能讓分工更順暢。 我與 HR 部門合作,用數據分析了解團隊與成員的特質。 準備期間我們參考 MBTI 人格理論(Myers Briggs Type Indicator,MBTI) MBTI 是目前國際最為流行的職業人格評估工具。 每個加入公司的成員都會完成這個測驗,測驗主要分成四個象限, 包含內向/外向、實感/直覺、理性/感性、判斷/感知等分類, 測驗結果也會知道大家是如何理解世界、接收新資訊。 將測驗結果依照部門整理後我們有一些有趣的發現, 比如說產品跟資料科學部門都是做事理性有條理的夥伴、行銷都是外向好相處的夥伴。 我們也用推薦系統的方式,依照每個夥伴的特質給予幫忙配對最適合的跨部門合作夥伴。 心理學中非常在意個體差異,把每個特體都視為獨特的。而在一個組織中, 這樣的獨特性常常被抹滅,這是我們不希望發生的。我們非常在意每一位夥伴, 希望大家都能在舒服的氣氛、用自己最快樂的方式工作。 因此我們認真的對待每一個夥伴,用心理學家的方式研究每一個人, 再用科學的方法最佳化我們的團隊分工。 資料科學團隊常常理性接觸的數字、邏輯跟程式, 這次跟 HR 部門合作的計畫讓我有機會用科學化的分析人的資料, 是一件很好玩又創新的事情。 傳統的企業在員工分析上重視獎酬、年資、升遷等等, 但我們關注每個人是否有找到自己的成就感, 這邊我們結合組織心理學及資料科學的知識, 讓每個人找到自己的定位以及跨部門的好夥伴! Recommendation System Python 關鍵字:sklearn-recommender -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.22.90.210 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1592626974.A.47F.html ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: vivceC (211.22.90.210 臺灣), 06/20/2020 12:23:18 ※ 編輯: vivceC (211.22.90.210 臺灣), 06/20/2020 12:25:16

06/20 12:29, 4年前 , 1F
推推精華好文!
06/20 12:29, 1F
※ 編輯: vivceC (211.22.90.210 臺灣), 06/20/2020 12:40:42

06/22 01:50, 4年前 , 2F
06/22 01:50, 2F

06/22 18:27, 4年前 , 3F
推推
06/22 18:27, 3F

06/22 20:39, 4年前 , 4F
推推
06/22 20:39, 4F

06/26 05:36, 4年前 , 5F
06/26 05:36, 5F

07/13 08:21, 4年前 , 6F
07/13 08:21, 6F

08/09 06:41, 4年前 , 7F
推好文
08/09 06:41, 7F
文章代碼(AID): #1UxOytER (DataScience)
文章代碼(AID): #1UxOytER (DataScience)