多模态大模型：ChatGPT迎来重磅升级，开启看图、听声音的新时代

近日，OpenAI宣布对ChatGPT进行了重磅升级，实现了看图、听声音和输出语音内容的功能。这一突破标志着通用人工智能（AGI）的重要里程碑，为未来的发展开启了全新的时代。OpenAI计划在未来两周向Plus和企业版用户提供这些功能，并且语音功能将在iOS和Android平台上使用，而图片识别功能则可以在各个平台上使用。

在图像方面，用户现在可以通过向ChatGPT展示一张或多张图片来提问。这为用户提供了更加直观和多样化的交互方式。无论是对图片内容的询问，还是对复杂图表的数据分析，ChatGPT都能够准确地进行回答。此外，用户还可以使用APP中的绘图工具，高亮标注图片中的特定部分，进一步深入讨论和分析。OpenAI将这一能看图的模型称为GPT-4V(ision)，并在同日发布的论文中详细介绍了该模型的技术原理和应用场景。

而在语音方面，OpenAI与专业配音演员合作，提供了五种不同的声音选择。这使得ChatGPT的语音输出更加多样化和真实。此外，OpenAI还与Spotify展开合作，通过这一功能将播客翻译为其他语言，并保留播客主持人的声音。这项合作将进一步促进跨语言交流和内容传播，OpenAI也将更多的时间用于改进和完善安全漏洞和风险。特别是新的语音技术，能够在几秒内生成逼真的合成声音，这可能为诈骗者提供了便利条件。因此，安全研发策略对于涉及语音和视觉的高级模型至关重要，OpenAI将继续加强安全措施，确保用户的隐私和安全得到充分保护。

根据SimilarWeb的数据显示，这段时间，ChatGPT的流量呈现回升趋势。9月11日当周，ChatGPT的流量较前一周增长了约12%。Sensor Tower的数据显示，8月最后两周全球ChatGPT应用程序的用户每周增长超过10%。这一增长主要得益于学生开始返校，以及印度和巴西市场的增长。ChatGPT作为一个强大的人工智能助手，能够提供广泛的帮助和娱乐，受到了越来越多用户的青睐。

”大模型+小模型+应用&内容”的框架，是多模态大模型未来的发展趋势。Meta推出了AudioCraft，通过AI生成音乐。谷歌的Bard和必应的机器人也已经部署了多模态功能。苹果也在试验AI生成语音Personal Voice。这些创新和应用进一步证明了多模态大模型的潜力和前景。多模态技术可以拓展应用范围，随着大模型功能的逐渐完善，其应用场景与生态也有望进一步丰富，为各个垂直领域的应用带来更多的可能性。用户可以更加直观地与人工智能进行交互，获得更加丰富和多样化的体验。然而，随之而来的安全和算力挑战也需要我们保持警惕和持续创新。未来，多模态大模型将成为人工智能发展的重要趋势，为各个领域的应用带来更多的可能性，并推动AI算力需求的进一步释放。让我们拭目以待，迎接人工智能的未来。

数字人产品

客户联络中心

移动通信

私有化AI能力

对话能力

语音能力

语义能力

图像能力

视频能力

视觉能力

帮助文档

帮助中心

知识社区

接口文档

视频教程

资讯

关于我们

相关文章

主营产品

相关登录

技术探索

使用帮助

关于我们