主页 > 头条 > 谷歌悄悄改变了PixelBuds耳机的支持页面和安卓手机

谷歌悄悄改变了PixelBuds耳机的支持页面和安卓手机

佚名 头条 2021年11月27日

10月25日,据《连线》杂志报道,涉及知名语音识别公司科大讯飞的“人工智能同声传译造假”风波仍在发酵,引发对人工智能实时翻译技术的更多关注。

不久前,谷歌悄悄更换了Pixel Buds耳机的支持页面,并写道:“所有经过谷歌助手优化的耳机和安卓手机,现在都可以使用谷歌翻译了。” 此前,此功能仅限于 Pixel Buds 耳机和 Pixel。手机用户。虽然谷歌没有大张旗鼓地宣布这个消息,但这个小调整值得注意。

要知道原因,首先我们来了解一下谷歌耳机的历史。谷歌去年推出了无线耳机 Pixel Buds。该公司此前曾将该产品宣传为支持实时翻译的革命性工具。只需点按 Pixel Buds 并说“帮帮我”,它就会在您的手机上打开 Google 翻译应用程序。现在,Pixel 手机也支持此功能。

然后,您可以说出这句话谷歌翻译出现恶毒攻击中国词汇,谷歌翻译会将其翻译成您手机上的目标语言,转录,然后读出。理论上,谷歌的新技术甚至会让口译员担心失业。这款产品在舞台上的实时翻译演示取得了巨大的成功,但当它开始出货时,人们似乎对其产生了怀疑:翻译质量没有达到公众的期望。

科技网站 Tech Insider 测试了十种不同语言的实时翻译功能。它成功翻译了一些基本问题,例如“最近的医院在哪里”,但是当句子变得更复杂或说话者有口音时,翻译就会出错。评论员总结说,实时翻译似乎有点“有欺骗性”,谷歌助手需要努力理解对方所说的内容。

消费技术高级分析师丹尼尔·格里森(Daniel Gleeson)表示:“掌握自然语言非常困难。对于谷歌来说,这将是一个巨大的成就,而当他们实现这一目标的那一天,他们就可以自豪地站出来发声了。” 可能有人会说,这也可能是Pixel Buds支持页面更新信息被隐藏的原因。

谷歌的问题不在于翻译过程本身。事实上,这几年公司一直在提升翻译应用水平。2016 年,谷歌将其谷歌翻译转换为基于深度学习的人工智能 (AI) 驱动系统。在此之前,该工具单独翻译每个单词,并应用语言规则来保持句子的语法正确,从而产生了非常熟悉和碎片化的翻译效果。另一方面,神经网络将句子作为一个整体考虑,根据之前训练过的大量文本数据猜测正确的输出结果。通过机器学习,这些系统可以考虑句子的上下文以提供更准确的翻译。

整合机器学习是谷歌大脑团队的任务,该团队是谷歌致力于深度学习研发的部门。Google Brain 还将神经网络应用到另一个工具中,这是实时翻译的关键,但这似乎很容易在语音识别中出错。事实上,经过几个小时的语音训练,Google Assistant 会使用机器学习工具来识别模式,最终正确识别需要翻译的内容。

那么,如果谷歌在一定程度上成功地将神经网络应用于文本到文本的翻译,为什么谷歌助手仍然不能使用同样的技术来准确地进行语音识别呢?根据剑桥大学自然语言处理研究员 Matic Horvat 的说法,这一切都归结为用于训练神经网络的数据集。

Horvath 说:“系统可以适应他们得到的训练数据集。当你把它介绍给它以前从未听过的东西时,语音识别的质量就会下降。例如,如果你的训练数据集是会话语音,那么在繁忙的环境中,语音识别效果不会很好。”

干扰是任何致力于改进语音识别技术的计算机科学家的克星。去年,谷歌通过其数字新闻创新基金会向伦敦初创公司 Triint 投资了 1. 5 亿欧元,该基金会是自动语音转录领域的领导者,尽管其算法与谷歌不同。但是,Triint 的算法在处理基本干扰问题上表现并不好。

事实上,Triint 的公司网站专门专门介绍了如何在安静的环境中录制演讲。该公司声称其操作有5%到10%的误差,但明确表示这适合在安静的环境中录音。Trint 首席执行官杰夫·科夫曼 (Jeff Kofman) 表示:“最大的挑战是向我们的用户解释,我们的性能只能与他们给我们的音频一样好。在回声、噪音甚至压力的情况下,算法会出错。”

现场演讲带来的挑战意味着,在创建神经网络的过程中,训练过程是成本最高、最耗时的部分。而且就像谷歌对 Pixel Buds 所做的那样,只支持在有限数量的设备上进行实时翻译,当然对系统学习没有帮助。事实上,它处理的语音越多,它可以添加到算法中的数据就越多,机器就越能学会识别不熟悉的语音模式。

对于高级消费者技术分析师格里森来说,这是谷歌将该功能扩展到更多硬件的原因之一。他说:“语音识别中最困难的问题之一是收集足够的关于特定口音、谚语和习语的数据,所有这些都是高度区域化的。仅在 Pixel 上使用此功能永远不会让 Google Contact 接触到那些区域化数据,然后无法处理足够的数据。”

然而,积累数据有一个缺点。性能最好的神经网络是那些数据最多的网络,但是因为数据需要在CPU上处理,CPU的压力会随着信息量的增加而增加。这种CPU远没有达到与移动设备完美融合的程度谷歌翻译出现恶毒攻击中国词汇,使得实时语音处理在今天仍然不可能成为现实。事实上,每次使用谷歌助手时,语音信息都会被发送到数据中心进行外部处理,然后再发送回用户手机。这些计算不是在本地完成的,因为现有的手机无法存储神经网络处理语音所需的海量数据。

Horvath 表示,虽然 Google Assistant 可以相当快地完成这个过程,但离实时语音识别还有很长的路要走。该公司目前面临的挑战之一是如何在手机中集成神经网络处理,以提高实时翻译等功能的无缝性。事实上,开发人员已经在致力于开发适合神经网络高效处理的小型外部芯片,这些芯片可以集成到手机中。例如,本月早些时候,华为宣布了一款人工智能芯片,该公司声称可以在几分钟内训练神经网络算法。

虽然谷歌有自己的芯片Edge TPU,但它是为企业用户而不是智能手机设计的。对于 Horvath 来说,这是它的致命弱点:作为一家软件公司,谷歌对制造商没有太多控制权,无法保证开发出一款让所有 Android 设备都能够使用本地神经网络处理的产品,这与苹果完全不同. 不同的。

在不久的将来,谷歌可能会被迫采取更小的措施来改进其语音识别技术。尽管实时翻译招致了不少批评,但对于 Counterpoint 的行业分析师兼物联网、移动和生态系统研究负责人 Neil Shah 而言,扩大实时翻译将有利于谷歌参与竞争:“谷歌已经赢得了 201 亿 Android 用户. 随着越来越多的用户开始在 Android 手机上使用最新的语音交互,它可以比竞争对手更快地扩展并接受大量输入数据流的培训。”

格里森也同意这个观点。不管关于实时翻译的评论是否坚持温和讽刺的语气,谷歌的举动最终都会带来显着的改善。和所有的AI产品一样,这个工具也是需要学习的,它的进入市场的过程还没有完成。格里森说:“人们可能会说谷歌的实时翻译和承诺的不一样,但这是实现其目标的唯一途径。” 口译员现在不必担心会立即失去工作。

广告位
标签: pixel   谷歌   谷歌手机