中安观察|拿下一等奖!科大讯飞这项技术有多牛?
中安在线、中安新闻客户端讯 安徽又一科技创新成果出圈!
6月24日,国家科学技术奖励大会上,由科大讯飞牵头,联合中国科学技术大学、清华大学、华为终端有限公司、中移(杭州)信息技术有限公司等高校及行业领军企业联合完成的“多语种智能语音关键技术及产业化”项目荣获2023年度国家科学技术进步奖一等奖。
一、含金量高
科技创新,始终是国家关心关切的大事,是推动国家发展的核心动力,也是当今发展新质生产力的“牛鼻子”。
1984年,国务院创立国家科学技术进步奖,设一、二两个奖励等级,旨在激励科技人才,促进成果转化。如今,该奖已成为国务院设立的国家科学技术奖五大奖项(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、中华人民共和国国际科学技术合作奖)之一。
科大讯飞牵头项目荣获2023年度国家科学技术进步奖一等奖
为突出质量优先、宁缺毋滥,进一步增强奖项的学术性、权威性和荣誉性,2017年,国家自然科学奖、国家技术发明奖、国家科学技术进步奖三大奖,总数由不超过400项减少到不超过300项,此后经多次变革,让其竞争难度进一步提升,换言之,能获奖的,在当今中国,都可谓科技创新的巅峰之作。
如何才能获奖?
根据《国家科学技术奖励条例》规定,国家科学技术进步奖,授予完成和应用推广创新性科学技术成果,以及为推动科学技术进步和经济社会发展作出突出贡献的个人、组织。
可见,想获奖,满足创新性科学技术成果的同时,成果还要得到应用和推广。
值得一提的是,受过去两年国家科技奖暂停的缘故,2023年度国家科技奖积累了大量优秀成果,堪称国奖史上最难一年,提名环节指标难拿、初评环节网评难过,答辩环节竞争极其激烈。
以此次获奖的科大讯飞牵头“多语种智能语音关键技术及产业化”项目为例,该项目所属计算机与自动控制组评审组,据悉,今年该组受理45个项目,通过初评的仅有8项,通过率不到18%。因此,荣获此次殊荣,含金量不言而喻。
二、应用度广
作为智能语音行业的执牛耳者,来自合肥高新区的科大讯飞,长期聚焦多语种智能语言技术研发和应用,在迎接市场环境新挑战的同时,不断进行技术创新,推动应用落地。如今,在全球化背景下,乘势而上,让技术成果逐步从实验室走向应用场,在各行各业诸多场景中,得到广泛应用。
此次获奖“多语种智能语音技术”,是科大讯飞联合多个单位研发的包含多语种语音识别、多语种语音合成、多语种翻译技术等为一体的综合技术,不仅硬核,还很实用。
先看技术本身,大体来看,多语种智能语音技术功能有三:
·语音识别:通过先进的算法,如深度学习,系统能够准确地将人类的语音转换为文本。
·语音合成:利用自然语言处理技术,可以将文本转换为流畅自然的语音输出。
·机器翻译:结合语言学和计算机科学,实现不同语言之间的高质量自动翻译。
据悉,连同6个联合国通用语种(汉语、英语、法语、西班牙语、俄语、阿拉伯语在内),此技术共支持世界69个语种,其中不乏挪威语、丹麦语等54个小语种,且均达到使用门槛。
同时,项目还覆盖维、藏、蒙、哈、朝、壮、彝等24种主要中国方言,未来还将覆盖更多方言。
这项技术有多牛?
记者从科大讯飞了解到,在CHiME、openASR、Blizzard Challenge、IWSLT等国际权威比赛中,该技术的成绩可谓“遥遥领先”,近五年就累计获得国际权威评测冠军20余项;在与谷歌、微软等国际厂商的盲测对比中,该技术也实现了多个语种整体并跑,14个重点语种领跑。
在产业化方面,据德勤数据发布的《2020-2021中国语音产业发展白皮书》及华经产业研究院的《2023-2028年中国智能语音行业市场发展现状及投资方向研究报告》,国内市场份额科大讯飞稳居第一,在全球多语种市场中,占比也在持续提升。
眼前便是例证。会议转写方面,截至2024年,借用该项技术的讯飞听见APP,已全面覆盖人大政协各个驻地会议三周年。
讯飞听见APP助力听障人士日常交流
今年全国两会,为更好辅助会议简报记录工作,科大讯飞推出“讯飞听见智慧简报系统”,实现将会议发言,实时转成文字,且全程离线进行,在保证简报记录原汁原味,内容详实的同时,也确保了会议的信息安全。
与此同时,讯飞多语种智能语音技术,已助力国内车企以及华为等品牌的产品出海。其中,中国汽车出海10强企业中有8家和科大讯飞合作,覆盖23个语种,出口60余个国家。
还有在业界开创的智能翻译机、智能录音笔、智能办公本等新品类。以讯飞翻译机为例,可在线翻译支持85个语种,覆盖全球200多个国家和地区,支持17个语种无网络翻译,35个语种自动识别翻译,32个语种拍照翻译,可解决用户全球旅游、商务等跨语言沟通问题,已在北京冬奥会、进博会、博鳌论坛、海关等重大活动和场景中获广泛应用。
还有助力公益。2017年,科大讯飞发起“方言保护计划”,截至目前,方言库收集近170万条方言,贡献人数超过85万,其成果已在影视、教育、文旅、媒体等多个行业寻找到可切实落地的应用场景。
此外,自2019年起,科大讯飞联合中国聋协、中国残疾人艺术团发起“听见AI的声音”公益关爱行动,为听力障碍人士提供免费的实时语音转文字服务、捐赠免费时长。截至今年6月,已累计捐赠时长超一亿分钟。
三、大模型时代
2023年,可谓AI元年,大模型兴起、诸多公司跑步进场,“大模型是AI时代的基础设施”的提法渐渐深入人心。
2024消博会上科大讯飞带来AI消费新体验
与此同时,语音是人类信息传播的基本方式,多语种智能语音技术,在支撑人机交互、人类语言互通等方面,都具有重大战略意义。
将AI大模型与多语种智能语音技术进行结合,将会是怎样的未来?这是当今国际科技竞争的焦点,也是科大讯飞正着力描绘的未来。
语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值。
今年1月30日,科大讯飞发布星火语音大模型,迅速实现了对openAI2023年11月发布的whisper_v3多语种大模型的大幅领先。
6月9日,科大讯飞成立25周年司庆活动上,科大讯飞董事长刘庆峰表示,利用语音合成、语音识别、机器翻译等单点技术,再通过大模型的理解能力、文本生成能力的后台加持,科大讯飞已实现了语义理解、指令跟随、多轮对话、情绪感知、超拟人合成的技术突破,真正使得语音交互得到提升。
而行业应用,永远是技术生命力的源泉。
在此背景下,语音领域的几乎所有应用,都值得用新方式重构一遍:
医疗导诊机器人、酒店服务机器人、所有企业的客服机器人等都可以重新做一遍;7*24小时营业场所的部分岗位、企业中的服务类岗位等都可以用数字员工;汽车、手机、家庭助手等终端的智能语音服务也能得到很大提升。
类似的应用领域和产业空间不胜枚举……
总之,大模型时代的语音技术,本质上是一次推动万物互联和原有人机交互场景重构的巨大产业机会,科大讯飞也正着力抓住其中的核心技术和应用红利。
创新引领,步履不停,6月27日,科大讯飞将发布讯飞星火V4.0,底座能力将全面对标GPT-4 Turbo,语音大模型也将迎来全新升级,在科大讯飞国际领先的智能语音技术基础之上,讯飞星火将进一步向着“解放生产力、释放想象力,为每个企业和每个人打造专属AI助手”的更大愿景。(记者 孟一凡)
编辑: 王莉婷