如何让听障人群接听电话,如何让语言障碍人群与外界对话?在脑机接口技术并不成熟的现阶段,要想完成这种不可能之事,就要指望人工智能和机器学习了。
▲LiveTranscribe
今年2月,Google在Android手机上推出的LiveTranscribe应用程序,再到5月的GoogleI/O,发布了能够实时转录语音/文字支持通话的LiveRelay,以及能够为语言障碍者实现语音转写的ProjectEuphonia项目。
在「帮助人们更好地沟通」这件事情上,这些应该是人工智能目前最前沿,并且能广泛应用的进展了。
应该是目前世界上最先进的语音识别应用产品
LiveTranscribe
LiveTranscribe是Google针对耳聋及听力障碍人群开发的一款免费Android无障碍服务。基于此前在自动语音识别技术(ASR)的研究,LiveTranscribe将自动生成字幕的功能引入了手机设备。
▲较亮的内部同心圆代表噪声层,外部同心圆表示手机麦克风对说话人声音的接收状况。
使用LiveTranscribe的场景是这样的:打开LiveTranscribe这个软件后,它会实时读取外界的语音,并实时讲语音转录成为文字,在手机屏幕上显示出来。即使是说话者大笑、吹口哨等细节,也会有相应的文字提示。
也就是说只需一部联网的手机,便可实现实时的语音转文字功能。目前该软件已经支持超过70种语言。
但LiveTranscribe的实时转录,不仅需要手机设备上的神经网络做声音分类,还需要依赖云端的三个神经网络模型,去完成语音转录成为文字的过程。
▲SagarSavla在展示LiveTranscribe
在爱范儿向GoogleAIResearchGroup产品经理SagarSavla问及,何时LiveTranscribe才能实现完全在本地运行、不依赖云端网络时,他告诉我们:
我们正在做这样的工作,但目前没有准确的时间表。比如像中文这个语种,需要很大的模型,要想把很大的模型融入到终端设备并且保证其准确性,是很有挑战的。
LiveRelay
Google在今年的开发者大会上展示了LiveRelay的能力:如何在听不到或者没法开口说话的情况下,轻松地打电话。
如果你因为语言障碍、社恐、拔牙等各种情况没法开口说话,在LiveRelay的页面输入单词,这个文本会被迅速转换为音频,发到另一个人的手机上。
如果你因为听力障碍、身处噪音等情况没法听到声音,LiveRelay也可以把通话对方的语音转录成为文本。
目前LiveRelay依然处于研究阶段,只能在特定的Pixel手机上使用,并且暂时只支持英文。
LiveRelay将完全在设备上运营,通过使用设备上的语音识别和文本到语音识别功能。
借助即时响应和预测性输入建议(smartrelay和smart