神经耳聋

注册

 

发新话题 回复该主题

无障碍的新定义,一种确保用户意图被理解的 [复制链接]

1#

如何让听障人群接听电话,如何让语言障碍人群与外界对话?在脑机接口技术并不成熟的现阶段,要想完成这种不可能之事,就要指望人工智能和机器学习了。

▲LiveTranscribe

今年2月,Google在Android手机上推出的LiveTranscribe应用程序,再到5月的GoogleI/O,发布了能够实时转录语音/文字支持通话的LiveRelay,以及能够为语言障碍者实现语音转写的ProjectEuphonia项目。

在「帮助人们更好地沟通」这件事情上,这些应该是人工智能目前最前沿,并且能广泛应用的进展了。

应该是目前世界上最先进的语音识别应用产品

LiveTranscribe

LiveTranscribe是Google针对耳聋及听力障碍人群开发的一款免费Android无障碍服务。基于此前在自动语音识别技术(ASR)的研究,LiveTranscribe将自动生成字幕的功能引入了手机设备。

▲较亮的内部同心圆代表噪声层,外部同心圆表示手机麦克风对说话人声音的接收状况。

使用LiveTranscribe的场景是这样的:打开LiveTranscribe这个软件后,它会实时读取外界的语音,并实时讲语音转录成为文字,在手机屏幕上显示出来。即使是说话者大笑、吹口哨等细节,也会有相应的文字提示。

也就是说只需一部联网的手机,便可实现实时的语音转文字功能。目前该软件已经支持超过70种语言。

但LiveTranscribe的实时转录,不仅需要手机设备上的神经网络做声音分类,还需要依赖云端的三个神经网络模型,去完成语音转录成为文字的过程。

▲SagarSavla在展示LiveTranscribe

在爱范儿向GoogleAIResearchGroup产品经理SagarSavla问及,何时LiveTranscribe才能实现完全在本地运行、不依赖云端网络时,他告诉我们:

我们正在做这样的工作,但目前没有准确的时间表。比如像中文这个语种,需要很大的模型,要想把很大的模型融入到终端设备并且保证其准确性,是很有挑战的。

LiveRelay

Google在今年的开发者大会上展示了LiveRelay的能力:如何在听不到或者没法开口说话的情况下,轻松地打电话。

如果你因为语言障碍、社恐、拔牙等各种情况没法开口说话,在LiveRelay的页面输入单词,这个文本会被迅速转换为音频,发到另一个人的手机上。

如果你因为听力障碍、身处噪音等情况没法听到声音,LiveRelay也可以把通话对方的语音转录成为文本。

目前LiveRelay依然处于研究阶段,只能在特定的Pixel手机上使用,并且暂时只支持英文。

LiveRelay将完全在设备上运营,通过使用设备上的语音识别和文本到语音识别功能。

借助即时响应和预测性输入建议(smartrelay和smart

分享 转发
TOP
发新话题 回复该主题