一起聊聊，智能座舱语音交互的发展现状和趋势

时间：2022-09-21 来源：

‍之前有车企的负责人咨询当前智能座舱语音交互的现状和发展趋势，笔者借此做个简单的总结和归纳，以下内容将分为语音交互的唤醒、聆听、理解、播报4个部分。

一、唤醒

1. 声源定位从双音区发展到四音区

使用声源定位的目的主要有两个，第一个目的是知道是谁在说话并提供个性化服务，例如副驾说“打开窗户”，这时只有副驾的窗户会被打开；第二个目的是实现定向拾音，由于车内外环境的噪音较大，同时乘客之间的讨论和回声会影响语音交互的拾音质量，因此声源定位能让麦克风阵列锁住某个方向的声音。

双音区的意思是将座舱分为左侧和右侧，无法识别是驾驶员还是后排左侧的乘客说话，因此局限性较大。四音区可以将座舱区分为驾驶员、副驾、后排左侧和后排右侧四个区域，能较好地解决双音区的问题。

以下是腾讯腾讯AI Lab总结的各种车载麦克风阵列分布形式，及其优缺点。

2. 语音交互支持One-Shot

部分语音技术供应商支持“One-Shot”技术，这也被称为“唤醒连说”。它的意思是“唤醒词+意图识别”一体化，支持用户可以在说出唤醒词之后不作停顿，立刻说出后续需求。

例如用户直接说“Alexa帮我打开车窗”，Alexa就能直接把车窗打开。这种方式摒弃传统的一问一答的形式，极大减少用户语音操控的步骤，化繁为简，操作简便。“One-Shot”不会改变语音交互设计的任何逻辑，但它能明显提升使用时的体验。

3. 语音交互支持唤醒词+离线意图识别

离线识别就是为了解决信号不好导致指令无法执行的问题。为了控制硬件成本和体积大小，客户端的算力远不如云端，其次核心算法放在本地有被竞争对手盗取机密的可能，所以我们不可能将所有的识别技术放在本地进行。

一般离线识别主要服务于常用简单的指令，例如“打开车窗”、“调节温度”等等，它们会通过正则表达式获取关键词，匹配指令后执行。

4. 语音交互支持免唤醒指令

部分语音技术供应商支持“免唤醒”技术，例如省略“Alexa”直接说“打开车窗”，车窗会直接打开。

其实“免唤醒”正是用了唤醒词技术，只不过把默认唤醒词改为指令，新的唤醒词被命中后会直接执行相关指令。

但是，我们不能把所有的指令设置为免唤醒，首先唤醒词识别有自己的局限性，不是所有的文字都能被正确识别，其次，越多的唤醒词意味着被误唤醒的几率越高。用户对其他乘客说打开车窗时，语音系统会误以为用户对自己发出的指令从而执行了相关操作。所以“免唤醒”要慎用。

5. 语音交互支持多模唤醒

语音交互唤醒方式除了常见的唤醒词和方向盘按键，姿态追踪和眼动追踪在未来有可能成为语音交互唤醒的新方式。

在人和人的交流过程中，当A转向并看着B时，B大概率知道A要发起交流，而且A也不会先说：“你好，B”，除非两者关系较差或者场景比较微妙。

在人机交流过程中应该满足以上场景，如果智能座舱中拥有一个实体机器人或者在屏幕里有较大面积能显示一个语音助手，我们可以通过用户头部姿态的转向和注视时长判断用户是否想和语音助手发起交流，用户也有可能向语音助手挥手，以上动作触发后语音助手应该激活并开始聆听。

有读者可能会问，为什么要做这么多方式来唤醒语音助手？

因为自然交互和多模交互有个特点就是要考虑冗余的设计，用户在不同场景下有可能采用不同的方式向语音助手发起交互，例如在上车场景时用户心情较好确实有可能向语音助手挥手Say Hi，如果语音助手没有任何动静，用户的心情有可能受到打击；还有另外一个例子是小孩的交流方式是多样的，语音助手应该有相应的配合。

眼动追踪在未来有可能成为一种唤醒方式，当用户看向哪个地方并发起语音交互时，这时用户眼睛看向的地方会成为语音指令中的主语，例如仪表盘上突然出现一个红色图标，用户有可能看着它直接问这是什么意思？这时语音助手可以做相应的解答。

二、聆听

1. 全双工语音交互成为主流

持续监听可以理解为一旦唤醒语音助手，语音助手会把麦克风一直打开。用户可以一直说，语音助手会针对用户每一句话分别作出响应。

但是持续监听的体验依然存在很多问题，因为麦克风一直打开，语音助手会把所有的声音进行聆听并做出响应。假设上一轮对话未结束，这时候语音助手听到其他人说的话，误以为这是新的语音任务，会把上一轮对话直接结束并播报新的内容。

还有些具备持续监听能力的语音助手一旦听到其他声音会立刻停止播报，这对用户来说无疑是一种断断续续的体验，效果可能比单轮交互、多轮交互还要差。

目前很多车厂已经宣称自己的车配备了全双工语音交互技术，相比简单地把麦克风打开，全双工语音交互不会像持续监听一样容易被噪音打断整个对话过程。要实现以上效果，全双工语音交互需要拥有更强的抗噪能力和上下文理解能力，它能理解每一句噪音是否跟当前任务有关，并且能猜测当前任务下一轮对话是什么，这对于技术的要求非常高。

全双工语音交互可以简单地理解为真正的“边听边说”，用户一旦习惯了全双工语音交互，就很难回到以上单轮交互、多轮交互和持续监听三种交互模式，因为它们都不是自然的交互方式。

2. ASR支持自动校正

笔者发现以前自己在手机地图使用语音输入，它会根据你的口音、地理位置和历史记录等因素进行ASR的校正，以及将ASR中出现一些同音字、二义性词以及用户发音不标准或者说错的字词进行校正。

百度地图、高德地图的手机地图做得好的原因是地图是用了自己的语音交互系统，以及十多年的地图数据积累，但是车载地图的语音交互系统有可能采用的是思必驰、科大讯飞等供应商，在ASR校正时缺乏地图数据的校验导致识别准确率较低，这个问题的解决需要多个供应商一起配合才能较好地解决。

3. 声纹识别在未来有一定作用

声纹识别在聆听过程中能有效区分不同人正在说的话，对于上下文理解有一定的帮助，而且根据应用场景为车内驾乘人员提供差别化服务，但目前有可能因为技术仍未成熟暂未看到有车企使用了声纹识别技术，在未来有一定的发展空间。

三、理解

1. 支持一句话包含多个任务的理解

这是一项体现语音交互高效率的重要特性。一般来说GUI完成一项任务需要分几个步骤，语音交互可以一句话就搞定，在导航场景下用户可以说“我想去广州机场，途中先去趟超市和充电站”，语音交互可以帮助用户一次性设置三项途经点，效率提升了不少。手机百度地图在几年前已率先支持该能力。

2. Shortcuts成为基础能力

iOS应用Shortcuts允许用户设置多个指令，然后命名为一条语音指令，用户只要对Siri说出这条语音指令就能把相关指令按顺序执行。小鹏汽车在2020年已经支持了Shortcuts功能。

3. VUI和GUI融合将成为系统底层设计

小鹏汽车在2020年发布的全场景语音交互正是将语音交互和GUI进行深度打通，它能有效实现语音交互直接控制GUI上的控件和组件，极大提升了驾驶员对于系统控制的效率。

一起聊聊，智能座舱语音交互的发展现状和趋势

上一篇：拼多多的本质是《羊了个羊》

下一篇：办公桌轮用制”，上班前要先占座！员工：这很Meta

常见问题

全国统一热线

4000-163-301

联系在线客服