[問題] 有關語音辨識的問題

看板DataScience作者 ( )時間6年前 (2018/12/04 14:54), 6年前編輯推噓2(207)
留言9則, 3人參與, 6年前最新討論串1/1
各位先進們好 最近在做語音辨識的research, 並對同事做了一些技術分享 當下被問到了一些問題, 我發現這部分我還真的不知道 我的問題如下, 以現今的語音辨識APP, 如apple的siri Q1. 當我們輸入喚醒詞 "Hey siri" 或者其他內建的語音命令時 它的語音辨識機制應該是在手機(local)端做掉, 也可以說是離線處理的部分 而這邊所用的語音辨識機制, 也是先將時域訊號透過傅立葉轉成頻域訊號, 然後經過特徵 提取, 再做聲學辨識? 還是local端是採用其他較快速的辨識方式? Q2. 比較複雜的句子的語音辨識(聲學/語意分析), 應該都是上傳到雲端處理 而此時上傳的data是原始的語音訊號? 還是會先做一些前處理, 比如降噪/轉頻域訊號... 等 是否要考慮那一種上傳格式的data資料量較小 感謝 - ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.223.48 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1543906448.A.78B.html ※ 編輯: oe725 (114.136.223.48), 12/04/2018 14:56:03

12/05 22:31, 6年前 , 1F
y Siri 的做法,基本上是跑在手機上的小 DNN 沒錯
12/05 22:31, 1F

12/05 22:36, 6年前 , 2F
抱歉推文跑掉了,連結在這 https://goo.gl/6tKXKa
12/05 22:36, 2F

12/06 17:31, 6年前 , 3F
感謝回覆, 至於Q2的部分在原文中並沒有提及Orz
12/06 17:31, 3F

12/16 12:39, 6年前 , 4F
Q2不確定siri怎麼做,google是傳原始訊號~
12/16 12:39, 4F

12/17 14:51, 6年前 , 5F
感謝回覆, 我有在apple的developer forum上提問, 不過對方
12/17 14:51, 5F

12/17 14:52, 6年前 , 6F
的有點籠統, 後續再問也沒得到進一步訊息 Orz
12/17 14:52, 6F

12/17 14:53, 6年前 , 7F
That 'pre-work', as you call, is processing done on the
12/17 14:53, 7F

12/17 14:54, 6年前 , 8F
device, for use on the device. Additionally,
12/17 14:54, 8F

12/17 14:54, 6年前 , 9F
encapsulated voice data is transmitted off the device.
12/17 14:54, 9F
文章代碼(AID): #1S1YIGUB (DataScience)
文章代碼(AID): #1S1YIGUB (DataScience)