作为一名合格且优秀的智能助理,Siri肯定不是只会讲笑话的“人工智障”。
只需要动动嘴,Siri就能打电话、发短信、定闹钟、放音乐,也可以帮你这个“金鱼脑子”记记琐事——比如“我车又停哪里了?”。
图源:Apple官网
能干的Siri,能干的远不止这些。在语音识别技术进入车载导航、家居电气、客服服务等领域后,智能生态系统不断完善,调节灯光亮度、找个加油站,它也能轻松拿捏。
虽然Siri在2007年才成立,但“人类通过语音命令操作机器”这个想法早在20世纪60年代便出现了,并在1962年西雅图世博会上成功现世后引起了人们极大的兴趣。
世博创新A-Z:语音识别
A to Z of Innovations at Expos
1961年:语音识别技术诞生
1957年10月4日,苏联发射了第一颗人造地球卫星,美国随后急起直追,“太空竞赛”由此拉开序幕。以“太空时代的人类”为主题的1962年西雅图世博会是一个科学博览会,以“让科学占据显著的地位,为人类进步和幸福而努力”为方针,将未来与空间紧密联系在一起。
1962年西雅图世博会展馆内景
格雷厄姆公司设计的标志性建筑“太空针”就充分体现了时代精神。拔地而起的3支钢架凌空会合又彼此张开,轻轻托举着一只硕大的“飞碟”,充满了神奇浪漫的科幻气息。“太空针”高184米,“飞碟”直径42米,成为密西西比河西部首屈一指的地标。
1962年西雅图世博会
“太空针”
加州理工大学和华盛顿大学建筑系教授参与了工程设计,“太空针”足以承受每小时320公里的飓风和9级地震,这种超常的稳定性和安全性来自10米深、6000吨重的钢筋水泥基础。当地下部分的质量几乎和地上部分相等,“太空针”的重心仅仅高于地面1.5米。
世博会博物馆第3展厅“乐观信念”展出的
太空针模型
作为IBM于1961年设计的实验性设备,Shoebox是掌握语音识别的早期尝试。它的开发者William C. Dersch在该博览会上首次展示。
Shoebox(图源:IBM官网)
机器将识别对着麦克风说的16个单词,并将这些声音转换成电脉冲。与现代语音识别系统一样,用户可以看到他们说的话,确保没有“误解”。
1962年西雅图世博会科技馆
该技术在世博会上的展出让语音识别技术的发展得以加速,对后来Siri、Alexa和Watson AI也造成一定影响,但直到进入21世纪,语音识别技术才变得普遍。
Watson AI
现在,语音识别远不局限于简单的数学运算,而是在我们的手机、电脑、手表、汽车上,以及在我们的家中,帮助人们执行或完成大量的任务,并对查询做出回应。
实时同声翻译的实现
语音识别技术可以在语言翻译系统中实现输入、输出、分类等功能:将语音信号捕捉并转换为文本,从而实现语言翻译系统的输入;帮助语言翻译系统识别输入语言的类型,从而选择合适的翻译模型;将翻译后的文本转换为语音信号,从而实现语言翻译系统的输出。
在语言翻译系统中,语音识别技术可以实现实时、高效、方便的语言翻译,因而被广泛应用于会议翻译、远程会议、语音邮件等场景。
华为AI字幕
华为 AI 字幕可以将手机内的视频或他人说的话实时转为文字,并以字幕的形式呈现在屏幕上,使看视频更方便;也可以帮助听力不佳人士,打电话时可以将接收的语音转为文字,还可以将输入的文字转为语音发送给对方;当与他人进行面对面交流时,将对方说的话转换成文字字幕,并可以将输入的文字实时转换成语音播放给对方听。
百度AI同传助手
提供高质量、低延迟的机器同传服务解决方案——百度 AI 同传助手,支持同传双语字幕投屏,手机扫码会议二维码即可收听同传语音,视听一体的沉浸式同传体验;支持中、英、日、韩等多语种同传;会议后自动生成双语会议纪要,不漏掉任何会议细节,助力会议内容快速整理。
支持方言的“转文字”
在开发Shoebox的过程中,有人观察到不同的单词会使用更高或更低的音调,从而实现了通过音频过滤器来调节音调,以便正确区分每个单词。但发展早期(1950年代至1970年代)的语音识别技术主要基于手工设计的特征提取和模式识别方法,如傅里叶变换、波形比较等。这些方法的准确率相对较低,且对不同语言和口音的适应性较差。
Shoebox(图源:IBM官网)
信息时代下,语音信息的交流越来越多,“转文字”功能的运用也深入人心。但发语音的人有时更偏好方言,“转文字”却听不明白,输出的结果也五花八门,等到能听语音时,沟通效率难免大打折扣。
中国电信人工智能研究院(TeleAI)于近日发布了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境。
和Siri说“侬好”,它还真可能听得懂。
1962年西雅图世博会上首次展现的语音识别设备仅能识别特定音节,在人工智能技术和深度学习技术的快速发展下,语音识别技术得以突破,能够处理连续的语音流,并准确反馈。现在,语音识别技术不仅能够应用于会议记录、翻译交流、AI字幕、智能家居等场景,还能够在方言环境下实现信息传递功能。未来,该技术将会更加智能化、个性化。
编辑:赵翊苓