情感化&多模态：车载语音交互的下一站_中安新闻_中安新闻客户端

情感化&多模态：车载语音交互的下一站

中关村智能网联研究汇智汇哥阅读

1秒响应，11种方言口音，多语种支持，95%车载场景识别率，90%高噪环境识别率……在科大讯飞所披露的车载语音交互数据中不难发现，说句话就能把车开走的梦想，已经照进现实。

“软件定义汽车”的概念在智能电动汽车时代已经深入人心，随着科技的不断发展，汽车的传统机械属性逐渐被颠覆，智能汽车开始被赋予了越来越多的功能。但也让更多人意识到，无论是按键还是触屏都变的不再安全，而语音交互则为汽车使用场景提供了切实可行的解决方案。

语音交互是人车交互的方式之一，而人车交互则是智能座舱的系统之一。智能座舱在近年来成为智能汽车创新的热点，日益成为新车的标配。

说句话就能把车开走，正从牛皮变成黑科技。而这，正是语音识别所带来的无限可能。

车载语音的“天花板”

“当自动驾驶真正到来的时候，在车上的时间，你会做些啥？”科大讯飞智能汽车事业部副总经理雷琴辉在与智汇哥（ID：autozlink）的交谈中提到，“其实未来的智能驾舱，无非就是书房+办公+卧室的结合体，人们可以完全自由自在地休息、娱乐、开会……几乎在完全无感的状况下，实现高速地出行穿梭。”

因此，在还没有实现全自动驾驶之前，「触控」几乎不可能做到的盲操，唯有「语音」可以完成。

然而，也有不少消费者表示，除了多一些营销的噱头外，实际上根本感受不到车载语音的智能。“反应迟钝、不能正确理解需求，还不如手动来的方便。”车主王先生向智汇哥（ID：autozlink）说到。

去年9月份，外媒报道，新梅赛德斯-奔驰A级车的车载语音将很快可以实现驾驶员与汽车的深度融合，利用本地数据和云端数据解锁更多丰富的场景和功能。例如，当用户饿了，可以向语音助手寻求有关餐厅的建议，包括食物种类、餐厅风格等个性化需求。

据智汇哥（ID：autozlink）了解，目前所讨论的语音交互一般包括三个模块：语音识别ASR（将声音转化为文字）、自然语言处理NLP（机器理解人类表达的意思，并给与反馈）和语音合成TTS（将文字转化为声音）。

语音识别对于国内外具有一定技术研发实力和积累的公司已经不是一个紧迫的问题。科大讯飞车载目前已收录11种方言，包含粤语、四川话、东北话、合肥话等。日语、俄语、西班牙语等语种也将陆续面世。车载场景识别率95%，高噪环境识别率高达90%，从唤醒到响应往往仅需1秒。

真正现在困扰供应商和用户的是自然语言处理部分，即语义理解，不仅是识别到用户的语音指令，更重要的是理解用户指令的含义。

语音交互争夺战

今年受疫情影响，车市销量成绩惨淡，但语音功能在车载前端的搭载率却在稳步上升，成为车联网至关重要的交互入口。据公开数据显示，目前，车载语音的日活设备数已高达650万台，每日语音交互数达10620万次。

根据高工智能汽车研究院预计，2020年中国前装车载语音市场规模（软硬件）约为17亿元人民币。到2025年，市场规模将增长至30亿元人民币。

如此市场前景，使得这个赛道里聚集了众多玩家。

早在2011年，博泰与科大讯飞合作推出的全球第一台自然语言交互系统iVoka就赢得了广泛瞩目。

2012年，云知声以及出门问问成立。也是在这一年，已在剑桥成立5年的思必驰联合创始人俞凯在上海创建智能语音技术实验室，将人机口语对话系统技术引入国内。

往后的一段时期，车载语音交互不再只是语音厂商的独角戏，越来越多的OEM、供应商开始重视语音交互在智能座舱中的应用，纷纷与语音厂商建立深度合作关系，或者直接投资入股。云知声13 亿元人民币的C轮系列融资总额，创下语音技术领域单轮融资最高记录。

如果某个细分市场出现了巨大的市场机遇，那一定少不了BAT的身影。

2017年百度正式对外发布DuerOS开放平台，其应用领域之一就是车载交互。同年，腾讯发布腾讯车联“AI in car生态系统”，以腾讯语音助手为车载语音输出控制能力，建立车载交互中心。阿里的AliOS，则在同上汽合作成功后，替换掉了Nuance，开始研发自己的语音交互系统。

与此同时，主机厂们为了掌握自己的用户，也在车载语音领域加速布局。

特斯拉首席执行官埃隆·马斯克曾表示，特斯拉正在研究一系列新的语音命令，努力为车辆带来更好的人工智能助理体验。

随着技术的不断推进，车载语音交互平台的竞争愈发白热化，也逐渐从自然语言处理(NLP)+自然语言理解(NLU)引擎能力的竞争，衍生向数据和计算能力+资源整合能力的下一步竞争。

车载语音的多模态方向

在智能化的风潮下，用户从最初对车载语音只要求能听到听懂就好，变成希望它能够像真正的人工智能助手一样，不只是一问一答的简单人机对话，而是真正倾听他们的需求，给予情感上的反馈。

就如同在科幻电影《Her》中，主人公西奥多爱上了人工智能系统OS1的化身萨曼莎，虽然萨曼莎是基于深度学习算法而形成的虚拟女友，但她对人类情感的洞察却丝毫不亚于真实的人类，不仅可以精确地捕捉到主人公语言表达的意图，还能分析出当时的情绪状态和变化。

“未来，车载语音功能也应该是向多模态方向发展，也就是说，人脸、手势、情绪都可以成为触发指令的开关。人类表达自己的情感和内容，90%都是通过语音，所以你想命令车，让车听懂你。但是人类获取世界的信息，可能80%要去靠眼睛。”科大讯飞智能汽车事业部副总经理雷琴辉告诉智汇哥（ID：autozlink）。

通过眼动跟踪和情绪识别，人机交互系统可提前感知用户的交互意图，叠加语音识别等交互模式，最终可以为用户提供一个高效、便捷、舒适的人机交互系统。

雷琴辉表示，车载语音中的语音交互不只局限在车机里，而是构建了人+车+生活，在车内、车外和人之间做了相当大的融合。

对于汽车智能网联产业来说，重点是三块，天上的云，车内的智能驾舱，以及路上的自动驾驶。但是要达到云交互的水平，需要有稳定的网络，还要有5G、大数据、车路协同等基础设施的完善。

语音交互的下一个时代

随着软硬件的快速迭代，如今的语音识别技术已近成熟，未来智能语音交互的核心竞争力在于在复杂场景下准确理解用户的意图，并为其提供差异化服务。

更加智能的自然连续对话能力；将让语音交互系统更具人类的亲和力特质和逻辑思维能力；以及能带给用户更具情景化、更有温度的用车体验和服务潜力。

从1996年通用汽车Onstar，到2001年宝马7系iDrive，再到2018年奥迪A4L的Mini，语音识别及交互技术正在激活传统汽车座舱向数字化、智能化座舱升级。

智能座舱的核心始终离不开「人」，L4之前更多的是去围绕驾驶员和车的交互展开设计，而当L4-L5来临，所有车内用户角色皆转变为“乘客”时，则更多的是去围绕乘客角度进行HMI设计。

智汇哥（ID：autozlink）认为，语音交互的下一个时代，智能不再只是空谈，而是真正走进人们的体验当中：语音+眼动、语音+手势、语音+生物识别、语音+全息……通过一系列技术的深度融合，完整的去表达信息。

随着5G和车联网技术的发展，科技、智能、人性化，正在重新定义未来汽车人机交互新体验。

构建“都市、科技、生态”

创新产业社区示范样板

打造安徽智能网联产业聚集区

中关村协同创新智汇园诚邀优质企业入驻

联系人：王先生（13865909681）；徐先生（13955155664）

邮箱：hfzgc@hfzcdi.com

地址：合肥市包河区重庆路与兰州路交口东北200米

编辑：安徽新媒体

384

打开中安新闻客户端阅读全文