[問題] RNN-T 與 CTC 差異

看板DataScience作者st1009 (前端攻城師)時間4年前 (2020/11/26 09:12)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

大家好，想討論一下 RNN-T(Transducer)與CTC(Connectionist Temporal Classification)有哪些差異？我目前參考的論文是: Sequence Transduction with Recurrent Neural Networks (https://arxiv.org/abs/1211.3711) 目前的結論有以下幾點: 1. RNN-T為CTC的改進 2. 相較於CTC，RNN-T多了Prediction Network(PN) 3. 兩者解碼過程不同 4. Transcription Network(TN)用雙向RNN，原版的CTC是單向的。我目前在思考以下幾點問題: 1. 不知道以上結論是否有誤？或者需要補充的地方。 2. 我聽說RNN-T訓練困難，是否是因為記憶體需求過大？又或者有記憶體外的原因？ 3. 他龐大的記憶的需求是來自哪裡？(PN?TN?解碼方式？) 目前我知道Bi-LSTM應該造成不小的影響，但是否還有其他龐大的記憶體需求？因為現在Bi-LSTM也算是常見架構，但記憶體被說話的好像不多。 4. 假設不使用PN會如何？感覺PN有點類似LM的概念，如果不使用效果會差很多嗎？不知道在速度以及效能差異如何？ 5. 我能不能拿CTC模型加上額外訓練的PN視為一個簡易RNN-T這樣會有問題嗎？乍看之下，感覺PN是可以獨立，在CTC分數上，額外加上PN分數，感覺概念上也很類似 6. 假設想改RNN-T的PN不知道有沒有建議的資源？目前手上的程式PN TN是包一起的。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.122.53.124 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1606353168.A.B30.html ※ 編輯: st1009 (1.163.137.194 臺灣), 12/01/2020 22:11:14