[問題] 時間序列資料分類問題
大家好,
想問一個資料在時間上相關的分類問題。
假設我有10000筆資料,每筆有20個feature,跟一個label(假設是1到5),
這10000筆有時間上先後順序的關係。
要解的任務是去分類另外100筆從訓練資料中隨機抽出的測試資料,
我目前想做的是一次隨機取連續10筆給LSTM然後預測第10筆時的label,
但是label有很嚴重的imbalance(訓練資料中1佔40%,5佔2%),
而label隨著時間會很像這樣:
1111222111122223322111111122223333433222111111
隨便增加4 or 5的資料量感覺怪怪的,也不知道要插在哪裡,
我如果試著在train的時候把ground truth為5的10筆重複餵給model,
這樣算是合理的解決方法嗎?
因為目前什麼都不做,在驗證資料裡幾乎都會判斷1,沒什麼意義。
另外,有的feature視覺化後跟label的趨勢幾乎無關(有點像雜訊那樣),
有的看起來有週期性,有的大致上符合label的起伏,
我想做的是用不同的LSTM來處理這些feature,
最後再用linear層把多個lstm的output結合起來預測出label,
不知道有沒有人推薦如何把feature分群(哪些feature用同一個LSTM),
或者說有人推薦其他解決方法嗎?
感覺這是feature engineering,小弟經驗很少QQ
以上,有講不清楚或說錯的歡迎指正!!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.212.6
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1557494115.A.E37.html
推
05/11 09:37,
5年前
, 1F
05/11 09:37, 1F
→
05/11 09:37,
5年前
, 2F
05/11 09:37, 2F
推
05/11 10:39,
5年前
, 3F
05/11 10:39, 3F
→
05/11 10:41,
5年前
, 4F
05/11 10:41, 4F
→
05/11 10:42,
5年前
, 5F
05/11 10:42, 5F
推
05/11 10:45,
5年前
, 6F
05/11 10:45, 6F
回c大,因為label其實是代表系統正不正常,5是最異常所以最少,我目前比較可以確定
的是通常如果要出現5幾乎是1慢慢提升變成5(類似111122234454432221111)
因為不太可能從1突然變成5,所以我想說一組10筆如果ground truth是5(第10筆的label)
,就重複多餵幾次,不知道這樣解決得了嗎?
回s大,你是指出現5的時候,feature要有固定的pattern嗎?我覺得應該有因為5出現不
是隨機的,如同我上一段回覆,但現在我不太確定視覺化像雜訊的feature要不要給lstm
,會不會破壞它的學習呢?比起我只給視覺化比較合理的feature
※ 編輯: y956403 (110.26.126.119), 05/11/2019 19:15:56
→
05/11 19:22,
5年前
, 7F
05/11 19:22, 7F
→
05/11 19:22,
5年前
, 8F
05/11 19:22, 8F
→
05/11 19:22,
5年前
, 9F
05/11 19:22, 9F
→
05/11 19:22,
5年前
, 10F
05/11 19:22, 10F
→
05/11 19:22,
5年前
, 11F
05/11 19:22, 11F
推
05/11 19:23,
5年前
, 12F
05/11 19:23, 12F
推
05/11 21:15,
5年前
, 13F
05/11 21:15, 13F
→
05/11 21:16,
5年前
, 14F
05/11 21:16, 14F
→
05/11 21:17,
5年前
, 15F
05/11 21:17, 15F
推
05/11 21:18,
5年前
, 16F
05/11 21:18, 16F
→
05/11 21:19,
5年前
, 17F
05/11 21:19, 17F
推
05/11 21:20,
5年前
, 18F
05/11 21:20, 18F
推
05/11 21:23,
5年前
, 19F
05/11 21:23, 19F
推
05/11 21:26,
5年前
, 20F
05/11 21:26, 20F
→
05/11 21:27,
5年前
, 21F
05/11 21:27, 21F
推
05/12 01:18,
5年前
, 22F
05/12 01:18, 22F
→
05/12 01:18,
5年前
, 23F
05/12 01:18, 23F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章