Re: [問題] Word2Vec LSTM sentiment classification
還是忍不住來回一下文
感覺版上的大家 大部分是做影像辨識 自然語言處理的比較少
但是自然語言處理真的很有意思阿 像這個sentiment analysis 語意分析真的特別有趣
而且特別難
先跟大家介紹一下這個研討會SemEval
應該是語意分析最大的會 會有shared tasks
有點像kaggle的比賽 大會給每個參賽團隊同一組training dataset 和test dataset
時間到了大家回傳prediction 看誰最接近gold standard
SemEval 2017 Task 4 A 就是twitter tweets 的語意分析
訓練集長這樣
tweet1 -> positive
tweet2 -> neutral
tweet3 -> nagative
...
任務就是給你一段tweet 你猜是哪個:{positive,negative,neutral} 三選一
http://www.aclweb.org/anthology/S17-2088
結果成績第一名團隊也才拿到 68.1%的準確率
這其實好多難關要過
1. tweet 是很特殊的文體 雜質很高
(好用的tweet 預處理的工具: http://www.cs.cmu.edu/~ark/TweetNLP/ )
2. 再來是自然語言本身的複雜度,舉例來說:
張三很開心 -> positive
張三不開心 -> negative
張三很開心嗎 -> neutral
張三不開心嗎 -> neutral
如果張三很開心 -> neutral
現在把'開心' 換成'傷心' 正負值又要翻面了
另外還有諷刺的用法 像是 '你長的最好看了' 每個詞都是正面的 合在一起變負面
#########################
這裡我找了一個參加semEval2017 task4的團隊的github
或許你可以試著複製他們的成果:
https://github.com/cbaziotis/datastories-semeval2017-task4
#########################
之前不是有人再問 DL可以選股票嗎?
DL + NLP就可以幫你選股票!
這個semEval 就有選股票的比賽 SemEval 2017 task5就是搞這個
這個heuristic很簡單 就是看看網路大家對xyz公司的評價是好是壞
好的話股價比較可能會漲
所以選股票除了看 財報 股價歷史紀錄 其他的數據
還可以看這個sentiment analysis
※ 引述《CaptPlanet (ep)》之銘言:
: ctrl + y 可以刪除一整行,請將不需要的內容刪除
: 文章分類提示:
: - 問題: 當你想要問問題時,請使用這個類別。
: - 討論: 當你自己已經有答案,但是也想聽聽版友意見時。
: - 情報: 當你看到消息時,請使用這個類別。
: 根據板規規定,做適當的轉換,以及摘錄重要文意。
: - 心得: 當你自己想要分享經驗時,請使用這個類別。
: (回答並非義務,所以當有人回答時,哪怕句謝謝也好,多多回應,大E可編輯文章)
: (如果用不到以下框架,如觀念問題請自行視情況刪除作業系統,使用工具等項目)
: 作業系統:(win10)
: 問題類別:(DL, RNN, NLP)
: 使用工具:(python,keras,gensim word2vec)
: 問題內容:
: 最近嘗試對文本進行正負面評價分類
: 先自己訓練了word2vec模型(一個詞256維)
: 然後參考網路上的code
: https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html
: 利用tokenizer和sequence padding把文章轉成對應的編碼(400維向量)
: 再利用embedding 層設置權重讓匯入的文章變成400*256的矩陣
: Embedding層後接著三層LSTM然後Flatten和Dense輸出2維向量用softmax和crossentropy
: 預測正負面
: 目前已經都訓練完成,但是現在想要實際丟入一些新資料進去預測,新的文章該如何轉換
: 成這個model的輸入呢?
: 直接參考上面的code用一樣的方法將文章編碼就可以輸入了嗎?
: 感謝各位
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.135.165.10
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523386559.A.522.html
推
04/11 16:58,
6年前
, 1F
04/11 16:58, 1F
推
04/11 19:10,
6年前
, 2F
04/11 19:10, 2F
推
04/11 20:08,
6年前
, 3F
04/11 20:08, 3F
推
04/12 01:39,
6年前
, 4F
04/12 01:39, 4F
推
04/12 07:59,
6年前
, 5F
04/12 07:59, 5F
推
04/12 17:46,
6年前
, 6F
04/12 17:46, 6F
推
04/12 20:19,
6年前
, 7F
04/12 20:19, 7F
推
06/05 11:11,
6年前
, 8F
06/05 11:11, 8F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章