[問題] RNN-T 與 CTC 差異

看板DataScience作者 (前端攻城師)時間4年前 (2020/11/26 09:12), 4年前編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
大家好,想討論一下 RNN-T(Transducer)與CTC(Connectionist Temporal Classification)有哪些差異? 我目前參考的論文是: Sequence Transduction with Recurrent Neural Networks (https://arxiv.org/abs/1211.3711) 目前的結論有以下幾點: 1. RNN-T為CTC的改進 2. 相較於CTC,RNN-T多了Prediction Network(PN) 3. 兩者解碼過程不同 4. Transcription Network(TN)用雙向RNN,原版的CTC是單向的。 我目前在思考以下幾點問題: 1. 不知道以上結論是否有誤?或者需要補充的地方。 2. 我聽說RNN-T訓練困難,是否是因為記憶體需求過大?又或者有記憶體外的原因? 3. 他龐大的記憶的需求是來自哪裡?(PN?TN?解碼方式?) 目前我知道Bi-LSTM應該造成不小的影響,但是否還有其他龐大的記憶體需求? 因為現在Bi-LSTM也算是常見架構,但記憶體被說話的好像不多。 4. 假設不使用PN會如何?感覺PN有點類似LM的概念,如果不使用效果會差很多嗎? 不知道在速度以及效能差異如何? 5. 我能不能拿CTC模型加上額外訓練的PN視為一個簡易RNN-T這樣會有問題嗎? 乍看之下,感覺PN是可以獨立,在CTC分數上,額外加上PN分數,感覺概念上也很類似 6. 假設想改RNN-T的PN不知道有沒有建議的資源?目前手上的程式PN TN是包一起的。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.122.53.124 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1606353168.A.B30.html ※ 編輯: st1009 (1.163.137.194 臺灣), 12/01/2020 22:11:14
文章代碼(AID): #1Vlm4Gim (DataScience)
文章代碼(AID): #1Vlm4Gim (DataScience)