Fw: [心得] FinTech Data Scientist 的日常已刪文

看板DataScience作者vivceC (vivce1994)時間6年前 (2020/06/20 12:23)推噓7(7推 0噓 0→)

留言7則, 7人參與討論串1/1

※ [本文轉錄自 Soft_Job 看板 #1UxOyUH_ ] 作者: vivceC (vivce1994) 看板: Soft_Job 標題: [心得] FinTech Data Scientist 的日常時間: Sat Jun 20 12:22:52 2020 Medium 網頁好讀版 https://lihi1.cc/kpPyw 金融科技的資料科學家到底都在幹嘛！？最近很多人對我的工作內容好奇，簡單的挑幾個完成跟進行中的專案跟大家分享。這篇文章是跟我的天才好夥伴 Leo 一起完成的，非常感謝他的協助，讓我的用字能兼顧技術宅、科普到親民，對我來說是一個很有趣的新嘗試！以下他的 medium https://medium.com/@leo1125s 簡介跟一般 Data Scientist 不一樣的地方是，我的背景是實驗/認知心理學。認知科學的訓練讓我在分析行為資料時能提供更多的洞見，也更關注所謂的個體差異（individual difference）。我主要使用的工具是 Python，工作內容橫跨商業分析跟機器學習。這次講機器學習的五個技術跟應用，分別有 1. 用戶分群 2. 信用風險模型 3. 光學字元辨識 4. 自然語言處理 5. 員工特質分析為了方便理解，會舉拍發票的產品為例子。用戶分群（Customer Segmentation）機器學習的分群技術（Clustering），是一種將巨量資料分類成群的方法。我們有許多產品及服務，用戶使用這些產品的過程都留下了豐富的資料。利用人工智慧和機器學習的技術，分析用戶使用過程累積的資料，計算出用戶的輪廓及行為模式。有點難想像嗎？舉例來說拍發票的行為就能被分成好幾種：三天捕魚兩天曬網的、每天拍五張的、拿別人發票來拍的等等 XD 這些分類用人力判斷會非常耗時，甚至有時候人類會不知道該如何分類，因此就需要人工智慧與機器學習的協助。沒有哪一種特別好，大家都可以自在的做自己。因為分析的目的是讓我們更精確的知道用戶消費習慣。未來就可以協助提供每位用戶個人化的服務，讓數據能讓每個人的生活變得更好。 Clustering Python 關鍵字：K-means, Mean Shift, DBSCAN, Agglomerative Hierarchical 信用風險模型（Credit Risk Modelling）信用風險模型是大家最耳熟但也最陌生的了吧。機器學習中的其中一個分支叫做深度學習，深度學習會模擬人類思考的模式，讓電腦做到更理性客觀、沒有偏誤的決策。深度學習其實不是一個新的概念，早在三四十年前就已經存在。因為它模擬人類大腦的運算方式，被稱為類神經網路。這樣的運算需要強大的硬體及算力，當時的技術還做不到，所以早期類神經網路的應用非常的有限。直到近幾年硬體技術提升，深度學習的概念才有真正的應用。所以我們的大腦其實是複雜又精緻的東西，大家要好好珍惜使用啊～順帶一提，深度學習之父 — Geoffrey Hinton — 大學時期的本科系就是心理學哦！一開始就是對大腦有興趣，想讓電腦可以像人一樣思考決策，才一頭栽進這個領域的！這樣的深度學習能力除了用在自駕車、下圍棋、也廣泛的應用在決策管理，在許多的金融決策上也開始佔有一席之地。這樣的模型在金融、保險產業都時常出現，金融科技產業當然也不例外。有趣的是，這樣的模型是不斷變動的，原因是模型的許多參數會受到公司當下的發展方針、活動甚至是外部經濟環境影響。所以絕對無法說被風險模型拒絕與否，就表示一個人的信用如何喔～ Classification Python 關鍵字：Random Forest, Logistic Regression, Gradient Descent, K-Nearest Neighbours 光學字元辨識（Optical Character Recognition）光學字元辨識，也是我們常說的文字辨識（OCR），是一個可以辨識圖片內文字的技術。實名制在科技產業已經是一個趨勢！除了讓我們更認識用戶，同時也代表高品質的真實用戶。在實名制文件的辨識上，英文和數字辨識的研究已經漸趨成熟，準確度也都有一定的水平，而中文字的辨識還有很大的進步空間。主要的原因是英文只有 26 個字母，數字只有 10 個數字，而博大精深的中文字庫則是數以萬計，所以中文的辨識一直有技術上的瓶頸。我們團隊目前正在跟台灣大學合作，開發新的中文辨識，我相信這會是一個突破性的技術！ OCR Python 關鍵字：pytesseract, OpenCV 自然語言處理（Natural Language Processing）根據維基百科的定義：自然語言處理（NLP）是計算機科學以及人工智慧的子領域，專注在如何讓計算機處理並分析大量自然語言數據。 NLP 常見的挑戰有語音辨識、自然語言理解、機器翻譯以及自然語言的生成。電腦傳遞訊息的方式就像我們在電影裡看到的，是由 0 與 1 組成的密密麻麻的數字。而人與人之間的訊息傳遞習慣用簡短的句子表達複雜且大量的資訊，因為我們希望對方很快就能理解我們的表達。因此訊息傳遞的複雜程度大概比電腦多了一百萬倍吧！自然語言處理，是希望讓機器透過各種模型、人工智慧技術，學習人類傳遞訊息的方式。包含語音、文字、翻譯甚至希望機器可以自行造句（大多數人都讀得懂的那種句子）。自然語言理解是我目前最關注的領域，自然語言理解的技術可以讓機器理解人類字句的意義，協助我們處理大量的文字訊息。像用戶拍的發票，上面有非常多的資訊，有些是較不重要的，而有些則是重要的關鍵字。不重要的字例如：商家名稱中的股份有限公司，這樣的氾濫字沒辦法帶給我們更多的資訊，而牛排、鍋貼、奶茶等等，就是能讓我們熟悉用戶消費行為、甚至飲食習慣的重要關鍵字。教會電腦去判斷什麼是發票中的關鍵字、什麼是可以跳過的字，就是我們在自然語言處理中主要在做的事情。現實生活中，自然語言處理的技術也常用在客服聊天機器人上，當用戶發問「請問你們幾點開始上班」，這樣的句子會抓出重要關鍵字「幾點」、「上班」而被歸類在營業時間的問題，而「請問」這樣的字就會被過濾掉，但也許機器會把你分群到禮貌的用戶，所以面對機器時還是可以保持禮貌（笑。不過呢，發票和客服的分析是完全不一樣的，所以就算訓練出很厲害的發票自然語言處理模型，讓這樣的模型去處理客服問題還是會表現得非常差，他會抓錯重點，用戶也會不知道他在回什麼。也就是說，如果要處理客服問題，我們需要重新打造一個專門處理客服訊息的新人工智慧模型。題外話，「人工智慧會不會取代我的工作，造成社會的失業？」這樣的問題，可以從前段內容得到答案，「不會！」。因為機器學習的專一性，還是沒辦法取代多元又聰明的人類。我們相信接下來會是一個斜槓的時代，當你擁有越多元的專業跟資源，你在這個人工智慧的新時代會擁有更強的競爭力！而如何聰明的分配資源，讓自己多元的發展，也是我們想幫助每個人達到的事！ NLP Python 關鍵字：NLTK, LSTM, Jieba, keras 員工特質分析（Human Resource Analytics）什麼！員工的人格特質分析居然跟資料科學有關係!？在我們公司，我們相信團隊中最重要的就是良好溝通。除了坦率表達自我之外，我們也思考如何讓團隊成員更了解彼此，透過瞭解彼此的特質與工作習慣，不但提高溝通效率，還能讓分工更順暢。我與 HR 部門合作，用數據分析了解團隊與成員的特質。準備期間我們參考 MBTI 人格理論（Myers Briggs Type Indicator,MBTI) MBTI 是目前國際最為流行的職業人格評估工具。每個加入公司的成員都會完成這個測驗，測驗主要分成四個象限，包含內向/外向、實感/直覺、理性/感性、判斷/感知等分類，測驗結果也會知道大家是如何理解世界、接收新資訊。將測驗結果依照部門整理後我們有一些有趣的發現，比如說產品跟資料科學部門都是做事理性有條理的夥伴、行銷都是外向好相處的夥伴。我們也用推薦系統的方式，依照每個夥伴的特質給予幫忙配對最適合的跨部門合作夥伴。心理學中非常在意個體差異，把每個特體都視為獨特的。而在一個組織中，這樣的獨特性常常被抹滅，這是我們不希望發生的。我們非常在意每一位夥伴，希望大家都能在舒服的氣氛、用自己最快樂的方式工作。因此我們認真的對待每一個夥伴，用心理學家的方式研究每一個人，再用科學的方法最佳化我們的團隊分工。資料科學團隊常常理性接觸的數字、邏輯跟程式，這次跟 HR 部門合作的計畫讓我有機會用科學化的分析人的資料，是一件很好玩又創新的事情。傳統的企業在員工分析上重視獎酬、年資、升遷等等，但我們關注每個人是否有找到自己的成就感，這邊我們結合組織心理學及資料科學的知識，讓每個人找到自己的定位以及跨部門的好夥伴！ Recommendation System Python 關鍵字：sklearn-recommender -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.22.90.210 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1592626974.A.47F.html ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: vivceC (211.22.90.210 臺灣), 06/20/2020 12:23:18 ※ 編輯: vivceC (211.22.90.210 臺灣), 06/20/2020 12:25:16