[問題] 背景電視講話聲去除或人聲提取

看板DataScience作者 (做工的人)時間9月前 (2023/07/07 19:21), 編輯推噓3(305)
留言8則, 5人參與, 8月前最新討論串1/1
請問如果場景中有背景電視人聲 或背景講話聲 要怎麼在語音辨識前去除呢? 或是有辦法在語音辨識以前單獨抽出想要辨識的人聲音嗎? 先謝謝各位任何建議了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 46.15.133.255 (挪威) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1688728872.A.66A.html

07/08 16:04, 9月前 , 1F
想知道FFT效果好嗎
07/08 16:04, 1F

07/09 09:20, 9月前 , 2F
用別的NN model去解決
07/09 09:20, 2F

07/09 17:53, 9月前 , 3F
07/09 17:53, 3F

07/15 18:32, 9月前 , 4F
meta那邊去年好像還有推出語音分離,可以把多人分開
07/15 18:32, 4F

08/18 16:14, 8月前 , 5F
tasnet
08/18 16:14, 5F

08/30 07:33, 8月前 , 6F
先套個speech enhancement模型
08/30 07:33, 6F

08/30 07:34, 8月前 , 7F
還是有背景人聲就再做speaker separation
08/30 07:34, 7F

08/30 07:34, 8月前 , 8F
得說一下 這些處理多少會影響語音辨識的準度
08/30 07:34, 8F
文章代碼(AID): #1af_KePg (DataScience)
文章代碼(AID): #1af_KePg (DataScience)