[問題] 時間序列資料分類問題

看板DataScience作者 ( )時間5年前 (2019/05/10 21:15), 5年前編輯推噓10(10013)
留言23則, 4人參與, 5年前最新討論串1/1
大家好, 想問一個資料在時間上相關的分類問題。 假設我有10000筆資料,每筆有20個feature,跟一個label(假設是1到5), 這10000筆有時間上先後順序的關係。 要解的任務是去分類另外100筆從訓練資料中隨機抽出的測試資料, 我目前想做的是一次隨機取連續10筆給LSTM然後預測第10筆時的label, 但是label有很嚴重的imbalance(訓練資料中1佔40%,5佔2%), 而label隨著時間會很像這樣: 1111222111122223322111111122223333433222111111 隨便增加4 or 5的資料量感覺怪怪的,也不知道要插在哪裡, 我如果試著在train的時候把ground truth為5的10筆重複餵給model, 這樣算是合理的解決方法嗎? 因為目前什麼都不做,在驗證資料裡幾乎都會判斷1,沒什麼意義。 另外,有的feature視覺化後跟label的趨勢幾乎無關(有點像雜訊那樣), 有的看起來有週期性,有的大致上符合label的起伏, 我想做的是用不同的LSTM來處理這些feature, 最後再用linear層把多個lstm的output結合起來預測出label, 不知道有沒有人推薦如何把feature分群(哪些feature用同一個LSTM), 或者說有人推薦其他解決方法嗎? 感覺這是feature engineering,小弟經驗很少QQ 以上,有講不清楚或說錯的歡迎指正!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.212.6 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1557494115.A.E37.html

05/11 09:37, 5年前 , 1F
先用其他方法解決imbalance class 比較重要,lstm 沒
05/11 09:37, 1F

05/11 09:37, 5年前 , 2F
有保證能解決這個問題
05/11 09:37, 2F

05/11 10:39, 5年前 , 3F
如果你要預測5,那你最好先確定5的出現是存在規律的,若5
05/11 10:39, 3F

05/11 10:41, 5年前 , 4F
出現的時機並沒有很明顯的規律性,這問題大概是無解
05/11 10:41, 4F

05/11 10:42, 5年前 , 5F
若沒辦法先確認資料之間的關係的話,大概怎麼做都是GIGO
05/11 10:42, 5F

05/11 10:45, 5年前 , 6F
LSTM沒那麼神奇,通常也就只是把輸入跟輸出背起來而已
05/11 10:45, 6F
回c大,因為label其實是代表系統正不正常,5是最異常所以最少,我目前比較可以確定 的是通常如果要出現5幾乎是1慢慢提升變成5(類似111122234454432221111) 因為不太可能從1突然變成5,所以我想說一組10筆如果ground truth是5(第10筆的label) ,就重複多餵幾次,不知道這樣解決得了嗎? 回s大,你是指出現5的時候,feature要有固定的pattern嗎?我覺得應該有因為5出現不 是隨機的,如同我上一段回覆,但現在我不太確定視覺化像雜訊的feature要不要給lstm ,會不會破壞它的學習呢?比起我只給視覺化比較合理的feature ※ 編輯: y956403 (110.26.126.119), 05/11/2019 19:15:56

05/11 19:22, 5年前 , 7F
如果4、5出現的機率很低,又沒有規則,你應該要把這些fe
05/11 19:22, 7F

05/11 19:22, 5年前 , 8F
ature 視為是outlier,可以用很多聚類的方式one class s
05/11 19:22, 8F

05/11 19:22, 5年前 , 9F
vm做異常檢測。如果有規則,但你不知道規則,試試看有沒
05/11 19:22, 9F

05/11 19:22, 5年前 , 10F
有辦法用生成模型(hmm)產出,產不出來代表這就真的是
05/11 19:22, 10F

05/11 19:22, 5年前 , 11F
異常點。
05/11 19:22, 11F

05/11 19:23, 5年前 , 12F
異常點理論上機器是學不出產出4.5 label的。
05/11 19:23, 12F

05/11 21:15, 5年前 , 13F
機器學習適用的範圍是在於你可以明確知道
05/11 21:15, 13F

05/11 21:16, 5年前 , 14F
規則,但是不容易寫成code的應用,比方說
05/11 21:16, 14F

05/11 21:17, 5年前 , 15F
是辨認貓的圖片這種。
05/11 21:17, 15F

05/11 21:18, 5年前 , 16F
我覺得你應該先試著看看人工有沒有辦法寫下
05/11 21:18, 16F

05/11 21:19, 5年前 , 17F
明確的判斷規則,再決定下一步要怎麼做
05/11 21:19, 17F

05/11 21:20, 5年前 , 18F
你剛才提的feature特性我覺得代表性不足
05/11 21:20, 18F

05/11 21:23, 5年前 , 19F
因為出現4為出現5的必要條件但並非充分條件
05/11 21:23, 19F

05/11 21:26, 5年前 , 20F
慢慢的出現1234跟「必然會出現5」之間是否
05/11 21:26, 20F

05/11 21:27, 5年前 , 21F
有足夠的因果關係,你可能要自己想一下
05/11 21:27, 21F

05/12 01:18, 5年前 , 22F
1~5是ordinal嗎? 是的話要不要先用arima尻尻看
05/12 01:18, 22F

05/12 01:18, 5年前 , 23F
搞不好label本身有自回歸?
05/12 01:18, 23F
文章代碼(AID): #1SrNbZut (DataScience)
文章代碼(AID): #1SrNbZut (DataScience)