Allion Labs / Greg Tsai

语音识别,量测环境与技术是关键 

为了评估语音识别的有效性及指向范围,环境的声学条件必须尽量和日常生活环境一致。因此需要建立一套声学量测环境,用以评估语音识别性能,为求量测的可靠性,这套量测系统与工具本身的一致性与重复性也必须获得确认。

就我们的经验,评估量测环境架设是否稳定,最可行的做法是:「评估每次重复量测到的延迟时间是否一致」。因此我们需要量测各个扬声器延迟时间的具体偏移量,如此一来,我们就可以找出量测环境潜在的不确定因素。

对于智慧音箱的语音识别量测环境,我们需要两个扬声器,一个扬声器用来仿真人员讲出语音指令,另一个用来模拟背景声音。将前述两个扬声器及智慧音箱,依据测试情境摆放,再放置一支量测用的自由场麦克风在这三个音箱约略等距的位置上,当这些都设置好就可以开始进行延迟时间的评估。

图1: 扬声器及麦克风连接示意图

图2:实际布置场景

智慧音箱 时间延迟量测 大不易 

或许一般人以为测量扬声器的延迟似乎不难,只要量S扬声器到M麦克风从激发到接收到的时间就可以了!这对于传统的模拟扬声器来说,的确如此;但对于智慧音箱的扬声器来说,就有点挑战了!

智慧扬声器没有模拟输入端子可以直接馈入信号,必须要从网络上播放测试音;因此如何精准地控制播放测试音是个难题,收音后又很难以人工方式找到测试音的精确起始时间。

因此,百佳泰的声学团队及软件开发团队共同合作,开发了一套量测方法,可以自动化并高效地起始智慧音箱播放,并且运用数字信号处理技术来精确判断各个扬声器声音信号的起始时间

时间延迟量测示范与结果分享

我们以Audio Precision APx500 来确认基本架设,首先在扬声器与麦克风相距2.5m的条件下,我们量测到 7.35ms的时间差, 当时的温度大约25度C. 透过公式C=331+0.6T可以求得声速346 m/s.

换算距离Distance = Speed * Time = 346 * 0.00735 ≈ 2.54 m.

可知该量测系统可以测出声音延迟。

图说 – 声延迟量测之验证 – 扬声器与麦克风相距约2.5 公尺

为了比较人工手动与自动化量测所产生的差异,我们同时进行了手动量测与自动化量测,人工完成的结果如下:

表1:人工量测数据-逐次误差

折线图比较如下:

图表:人工量测数据折线图 – 逐次误差

可以看到Speaker A、Speaker B 以及Smart Speaker 在重复量测之后,每次的差异量都很明显。这些差异较大的来源:包含了人为触发时间的差异、也有可能是来自人工对齐的差异…等。在这种人工手动量测的作法下,难以有效发掘量测系统环境的不稳定因素,因为都被人工量测的误差给淹没了。

接着,我们以百佳泰开发的量测系统来完成图2的架设,实测结果如下:

表2:自动化量测数据

图表:自动化量测数据折线图-逐次误差

从结果中可以看到,播放语音的扬声器A及播放环境音的扬声器B,其延迟时间在经历20次的测试后皆相当一致,其变化范围分别在0.0024s 与0.001s左右。

而播放背景声音的智慧音箱扬声器,存在着类似 “抖动(Jitter)” 的现象,即每一次量测到的延迟时间,都有一点点变化,这个变化量大约有 0.15秒之间,主要是无线网络联机与来源内容的变动性所引起。

如此比较我们可以了解,声音延迟量测的自动化,排除了人工量测所引入的不确定性,让Smart Speaker 播放路径的延迟特性可以真正呈现出来,为后续的语音辨认测试奠定良好的基础。

由此可知,百佳泰的电声延迟评估工具,其精确度可以量测出人力所不能及的程度!除一方面达到品牌大厂所要求的质量精度与可重复性,屏除人为误差与不确定性,另一方面也做到全自动化,大量节省量测及分析时间!