ZHCAEK6 October 2024 TAC5212
本節(jié)討論 VAD 性能。算法性能由受試者工作特征 (ROC) 曲線顯示,該曲線說明了不同工作閾值(–12dB 至 –3dB)下的檢測性能。以下 ROC 圖顯示的是來自 Aurora 噪聲數(shù)據(jù)庫的噪聲場景(圖 3-1 表示汽車噪聲,圖 3-2 表示餐廳噪聲,圖 3-3 表示火車噪聲)和來自 NOIZEUS 語音數(shù)據(jù)庫的語音信號。測試向量是通過以所需的 12dB、18dB 和 24dB SNR(SNR 是語音功率級別和噪聲信號功率級別之間的差值)混合噪聲和語音信號來生成的(例如,12dB SNR 意味著噪聲功率級別比語音功率級別低 12dB)。根據(jù)麥克風(fēng)的常見輸出值而選擇了這些 SNR 值。這些數(shù)據(jù)也是以 8kHz 的采樣率獲取,以實(shí)現(xiàn)出色的預(yù)期性能。
ROC 圖從最左上角的 -12dB 閾值開始,并隨著閾值的增加而向右移動。語音命中率是當(dāng) VAD 出現(xiàn)在輸入信號中時(shí),VAD 正確檢測語音的精度。非語音命中率是 VAD 正確忽略噪聲信號中動態(tài)移動的精度。語音和非語音的高命中率表明該算法能夠在有語音時(shí)正確檢測語音,在沒有語音時(shí)防止誤報(bào)。
圖 3-1 針對汽車噪聲的非語音命中率與語音命中率
圖 3-2 針對餐廳噪聲的非語音命中率與語音命中率
圖 3-3 針對火車噪聲的非語音命中率與語音命中率在分析收集到的數(shù)據(jù)之后,選擇了 –5dB 閾值,以在不同噪聲類型下提供合適的語音命中率和非語音命中率。針對不同噪聲類型(6dB、12dB、18dB 和 24dB SNR)在 –5dB 閾值下的 ROC 曲線如圖所示。
圖 3-4 針對 6dB SNR 在 –5dB 閾值下的非語音命中率與語音命中率
圖 3-6 針對 18dB SNR 在 –5dB 閾值下的非語音命中率與語音命中率
圖 3-5 針對 12dB SNR 在 –5dB 閾值下的非語音命中率與語音命中率
圖 3-7 針對 24dB SNR 在 –5dB 閾值下的非語音命中率與語音命中率