Re: [問題] Word2Vec LSTM sentiment classification

看板DataScience作者 (lucein)時間6年前 (2018/04/11 02:55), 編輯推噓8(800)
留言8則, 8人參與, 6年前最新討論串2/2 (看更多)
還是忍不住來回一下文 感覺版上的大家 大部分是做影像辨識 自然語言處理的比較少 但是自然語言處理真的很有意思阿 像這個sentiment analysis 語意分析真的特別有趣 而且特別難 先跟大家介紹一下這個研討會SemEval 應該是語意分析最大的會 會有shared tasks 有點像kaggle的比賽 大會給每個參賽團隊同一組training dataset 和test dataset 時間到了大家回傳prediction 看誰最接近gold standard SemEval 2017 Task 4 A 就是twitter tweets 的語意分析 訓練集長這樣 tweet1 -> positive tweet2 -> neutral tweet3 -> nagative ... 任務就是給你一段tweet 你猜是哪個:{positive,negative,neutral} 三選一 http://www.aclweb.org/anthology/S17-2088 結果成績第一名團隊也才拿到 68.1%的準確率 這其實好多難關要過 1. tweet 是很特殊的文體 雜質很高 (好用的tweet 預處理的工具: http://www.cs.cmu.edu/~ark/TweetNLP/ ) 2. 再來是自然語言本身的複雜度,舉例來說: 張三很開心 -> positive 張三不開心 -> negative 張三很開心嗎 -> neutral 張三不開心嗎 -> neutral 如果張三很開心 -> neutral 現在把'開心' 換成'傷心' 正負值又要翻面了 另外還有諷刺的用法 像是 '你長的最好看了' 每個詞都是正面的 合在一起變負面 ######################### 這裡我找了一個參加semEval2017 task4的團隊的github 或許你可以試著複製他們的成果: https://github.com/cbaziotis/datastories-semeval2017-task4 ######################### 之前不是有人再問 DL可以選股票嗎? DL + NLP就可以幫你選股票! 這個semEval 就有選股票的比賽 SemEval 2017 task5就是搞這個 這個heuristic很簡單 就是看看網路大家對xyz公司的評價是好是壞 好的話股價比較可能會漲 所以選股票除了看 財報 股價歷史紀錄 其他的數據 還可以看這個sentiment analysis ※ 引述《CaptPlanet (ep)》之銘言: : ctrl + y 可以刪除一整行,請將不需要的內容刪除 : 文章分類提示: : - 問題: 當你想要問問題時,請使用這個類別。 : - 討論: 當你自己已經有答案,但是也想聽聽版友意見時。 : - 情報: 當你看到消息時,請使用這個類別。 : 根據板規規定,做適當的轉換,以及摘錄重要文意。 : - 心得: 當你自己想要分享經驗時,請使用這個類別。 : (回答並非義務,所以當有人回答時,哪怕句謝謝也好,多多回應,大E可編輯文章) : (如果用不到以下框架,如觀念問題請自行視情況刪除作業系統,使用工具等項目) : 作業系統:(win10) : 問題類別:(DL, RNN, NLP) : 使用工具:(python,keras,gensim word2vec) : 問題內容: : 最近嘗試對文本進行正負面評價分類 : 先自己訓練了word2vec模型(一個詞256維) : 然後參考網路上的code : https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html : 利用tokenizer和sequence padding把文章轉成對應的編碼(400維向量) : 再利用embedding 層設置權重讓匯入的文章變成400*256的矩陣 : Embedding層後接著三層LSTM然後Flatten和Dense輸出2維向量用softmax和crossentropy : 預測正負面 : 目前已經都訓練完成,但是現在想要實際丟入一些新資料進去預測,新的文章該如何轉換 : 成這個model的輸入呢? : 直接參考上面的code用一樣的方法將文章編碼就可以輸入了嗎? : 感謝各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.135.165.10 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523386559.A.522.html

04/11 16:58, 6年前 , 1F
推~
04/11 16:58, 1F

04/11 19:10, 6年前 , 2F
04/11 19:10, 2F

04/11 20:08, 6年前 , 3F
推!
04/11 20:08, 3F

04/12 01:39, 6年前 , 4F
04/12 01:39, 4F

04/12 07:59, 6年前 , 5F
04/12 07:59, 5F

04/12 17:46, 6年前 , 6F
04/12 17:46, 6F

04/12 20:19, 6年前 , 7F
04/12 20:19, 7F

06/05 11:11, 6年前 , 8F
推分享!
06/05 11:11, 8F
文章代碼(AID): #1QpGY_KY (DataScience)
文章代碼(AID): #1QpGY_KY (DataScience)