[問題] RNN-T 與 CTC 差異
大家好,想討論一下
RNN-T(Transducer)與CTC(Connectionist Temporal Classification)有哪些差異?
我目前參考的論文是:
Sequence Transduction with Recurrent Neural Networks
(https://arxiv.org/abs/1211.3711)
目前的結論有以下幾點:
1. RNN-T為CTC的改進
2. 相較於CTC,RNN-T多了Prediction Network(PN)
3. 兩者解碼過程不同
4. Transcription Network(TN)用雙向RNN,原版的CTC是單向的。
我目前在思考以下幾點問題:
1. 不知道以上結論是否有誤?或者需要補充的地方。
2. 我聽說RNN-T訓練困難,是否是因為記憶體需求過大?又或者有記憶體外的原因?
3. 他龐大的記憶的需求是來自哪裡?(PN?TN?解碼方式?)
目前我知道Bi-LSTM應該造成不小的影響,但是否還有其他龐大的記憶體需求?
因為現在Bi-LSTM也算是常見架構,但記憶體被說話的好像不多。
4. 假設不使用PN會如何?感覺PN有點類似LM的概念,如果不使用效果會差很多嗎?
不知道在速度以及效能差異如何?
5. 我能不能拿CTC模型加上額外訓練的PN視為一個簡易RNN-T這樣會有問題嗎?
乍看之下,感覺PN是可以獨立,在CTC分數上,額外加上PN分數,感覺概念上也很類似
6. 假設想改RNN-T的PN不知道有沒有建議的資源?目前手上的程式PN TN是包一起的。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.122.53.124 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1606353168.A.B30.html
※ 編輯: st1009 (1.163.137.194 臺灣), 12/01/2020 22:11:14
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章