Meta的新“Voicebox”人工智能是一种文本转语音工具,类似于ChatGPT的学习方式

Meta AI最近推出了一款声音转文本(TTS)生成器,声称其产生的结果比同类性能的最先进的人工智能模型快20倍。

这个新系统被称为Voicebox,它摒弃了传统的TTS架构,而采用了更类似于OpenAI的ChatGPT或Google的Bard的模型。

与ElevenLabs Prime Voice AI等类似的TTS模型相比,Voicebox的主要区别在于Meta的产品可以通过上下文学习进行概括。

与ChatGPT或其他变形器模型一样,Voicebox使用大规模的训练数据集。以前使用大量音频数据的尝试导致严重降低的音频输出。因此,大多数TTS系统使用小型、高度策划的、标记数据集。

Meta通过一种新颖的训练方案克服了这个限制,该方案放弃了标签和策划,而采用了一种能够“填充”音频信息的架构。

正如Meta AI在6月16日的博客文章中所说,Voicebox是“第一个能够在没有特定训练的情况下推广到语音生成任务,并具有最先进性能的模型。”

这使得Voicebox可以将文本翻译成语音,通过合成替换语音来消除不必要的噪声,甚至可以将说话者的声音应用于不同的语言输出。

根据Meta发布的一篇相关研究论文,其预先训练的Voicebox系统只需使用所需的输出文本和三秒钟的音频剪辑即可完成所有这些操作。

强大的语音生成的到来正值特别敏感的时期,因为社交媒体公司继续与审查斗争,而在美国,一场即将到来的总统选举威胁着再次测试在线虚假信息检测的极限。

例如,美国前总统唐纳德·特朗普目前面临在离任后处理机密政府材料的指控。针对他的案件中引用的据称包含他承认可能存在不当行为的音频记录。

虽然目前没有迹象表明前总统打算否认音频文件中描述的内容,但他的案件说明数据完整性是美国法律体系和其民主制度的核心。

Voicebox不是其类中的第一个工具,但似乎是最强大的工具之一。因此,Meta开发了一个工具来确定语音是由其生成的,该公司声称可以“轻松检测”真实音频和虚假音频之间的区别。根据博客文章:

“与其他强大的新型人工智能创新一样,我们认识到这种技术带来的潜在误用和意外危害。在我们的论文中,我们详细说明了如何构建高效的分类器,以区分使用Voicebox生成的真实语音和音频,以减轻这些可能的未来风险。”

在加密货币世界中,人工智能已经成为大多数企业日常运营的重要组成部分,就像互联网或电力一样。最大的交易所依赖于AI聊天机器人进行客户交互和情感分析,交易机器人已经变得司空见惯。

相关内容:Bybit插入ChatGPT进行AI驱动的交易工具

强大的文本到语音系统(如Voicebox)的出现与自动化交易相结合,可以帮助那些依赖TTS系统的潜在加密货币交易者弥合差距,目前这些系统可能会在加密货币术语或多语言支持方面遇到困难。

We will continue to update 算娘; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

市场行情

今天以太坊(ETH)的价格为什么下跌了?

今天以太幣價格下跌Cointelegraph探討了近期抛售背後的因素

区块链

首发亚洲:比特币徘徊在30,000美元以下,而XRP继续上涨

“正面消息:上周里普尔取得的部分法院胜利为Coinbase的股价提供了支撑,同时也澄清了一个棘手的监管问题该公司仍然需要恢复交...

资讯

百事可乐和可口可乐宣布合并,创造亚洲最大的Web3生态系统🐉

令人振奋的消息!Klaytn和Finschia基金会正式宣布他们计划成功合并他们的区块链此举将带来一个全新的基金会和强大的加密货币...

区块链

以太坊巨鲸购买了56,000 ETH后准备迎接下一个上涨阶段

在上周的加密市場崩潰之後,以太坊的大鯨魚似乎正在為回升做準備,他們正在積累以太幣(ETH)

区块链

Coinbase选择的区块链品牌对零知识技术毫无威胁

许多以太坊爱好者预测,最有前景的第二层区块链不会使用OP Stack的“乐观 Rollup”技术(美国加密货币交易所Coinbase偏爱的技术...

区块链

使用ChatGPT,ETH开发者计划使用人工智能生成的memecoin AstroPepeX

一位以太坊开发者帮助ChatGPT推出了自己的AI生成的ERC-20代币,该代币正在Uniswap和其他加密货币交易所进行交易