随着语音成为企业和客户之间越来越受欢迎的接触点,语音转文本(STT)API 也成为 Google Cloud 中增长最快的 API 之一。
谷歌的 STT 拥有最接近人类水平的理解能力,每月处理超过 10 亿分钟的语音,服务于不同口语的各行各业的企业客户。
其也获得了众多大厂的信任:HubSpot 正在使用 STT 为其对话智能工具提供支持,MRV 利用 API 将客户服务时间缩短了三分之一,而 Spotify 则在其语音界面 Car Thing 中利用 STT。
今年三月,谷歌发布了有关通用语音模型进展的研究。而在近期的在 Google I/O 大会上,谷歌宣布将把新版本的通用语音模型 Chirp 带到云端。Chirp 将成为 Google Cloud 中语音 AI 的基础模型。那么如何利用 Chirp 的大模型能力来应用于我们的 Speech API?
Chirp 是 Google Cloud 的 2B 参数语音模型,通过对数百万小时的音频和280亿个跨越100多种语言的句子进行自我监督训练而构建。在英语中,Chirp 提供了98%的语音识别准确率,并且在少于1000万使用者的一些其他语言中实现了超过300%相对改进。
Chirp 不仅比以前的语音模型更大,而且还采用了新的训练方法。Chirp 的编码器首先使用来自100多种语言的数百万小时未监督(即无标签)音频数据进行训练, 然后使用少量受监督数据对每种特定语言进行转录微调。这与传统的语音识别技术形成对比,后者专注于大量特定于语言的受监督数据。这些技术帮助 Chirp 在具有很少说话者和小量标记培训数据的语言和口音中实现如此大的质量改进。通过将 Chirp 添加到 Cloud 中,更多语言和口音的语音识别质量接近最广泛使用的语言。
GDELT 项目正在应用 Google Cloud 的语音转文本和翻译API 来与互联网档案馆的电视新闻档案合作,转录和翻译全球各地的电视新闻,这使研究人员和记者能够理解并引用来自不同语言和方言的当地事件。
“电视新闻是世界各国社会获取信息的主要来源,但缺乏可搜索和可翻译的文字记录使其大多数时候无法被使用。通过结合 Google Cloud 的语音转文本和翻译 AI 技术,截至目前为止 GDELT 已经将超过 66,000 次广播节目进行了转录,并将这些内容总计超过 3.28 亿个单词进行了翻译。随着 Google 新版 Chirp 语音模型发布,我们现在可以提高这些记录准确性,并显著扩展我们可以探索的语言范围,从而极大地拓宽了我们在全球范围内传播信息的渠道。”
—— GDELT 项目创始人 Kalev Leetaru
谷歌很期待看到其他公司如何利用 Chirp,在各种不同语言中实现新型 Speech AI 应用场景。目前,Chirp 已经在预览版中提供给用户使用,在 Speech-to-Text API 中可以查看操作文档并使用 Speech-to-Text 控制台。