近日,OpenAI宣布对ChatGPT进行了重磅升级,实现了看图、听声音和输出语音内容的功能。这一突破标志着通用人工智能(AGI)的重要里程碑,为未来的发展开启了全新的时代。OpenAI计划在未来两周向Plus和企业版用户提供这些功能,并且语音功能将在iOS和Android平台上使用,而图片识别功能则可以在各个平台上使用。
在图像方面,用户现在可以通过向ChatGPT展示一张或多张图片来提问。这为用户提供了更加直观和多样化的交互方式。无论是对图片内容的询问,还是对复杂图表的数据分析,ChatGPT都能够准确地进行回答。此外,用户还可以使用APP中的绘图工具,高亮标注图片中的特定部分,进一步深入讨论和分析。OpenAI将这一能看图的模型称为GPT-4V(ision),并在同日发布的论文中详细介绍了该模型的技术原理和应用场景。
而在语音方面,OpenAI与专业配音演员合作,提供了五种不同的声音选择。这使得ChatGPT的语音输出更加多样化和真实。此外,OpenAI还与Spotify展开合作,通过这一功能将播客翻译为其他语言,并保留播客主持人的声音。这项合作将进一步促进跨语言交流和内容传播,OpenAI也将更多的时间用于改进和完善安全漏洞和风险。特别是新的语音技术,能够在几秒内生成逼真的合成声音,这可能为诈骗者提供了便利条件。因此,安全研发策略对于涉及语音和视觉的高级模型至关重要,OpenAI将继续加强安全措施,确保用户的隐私和安全得到充分保护。
根据SimilarWeb的数据显示,这段时间,ChatGPT的流量呈现回升趋势。9月11日当周,ChatGPT的流量较前一周增长了约12%。Sensor Tower的数据显示,8月最后两周全球ChatGPT应用程序的用户每周增长超过10%。这一增长主要得益于学生开始返校,以及印度和巴西市场的增长。ChatGPT作为一个强大的人工智能助手,能够提供广泛的帮助和娱乐,受到了越来越多用户的青睐。
”大模型+小模型+应用&内容”的框架,是多模态大模型未来的发展趋势。Meta推出了AudioCraft,通过AI生成音乐。谷歌的Bard和必应的机器人也已经部署了多模态功能。苹果也在试验AI生成语音Personal Voice。这些创新和应用进一步证明了多模态大模型的潜力和前景。多模态技术可以拓展应用范围,随着大模型功能的逐渐完善,其应用场景与生态也有望进一步丰富,为各个垂直领域的应用带来更多的可能性。用户可以更加直观地与人工智能进行交互,获得更加丰富和多样化的体验。然而,随之而来的安全和算力挑战也需要我们保持警惕和持续创新。未来,多模态大模型将成为人工智能发展的重要趋势,为各个领域的应用带来更多的可能性,并推动AI算力需求的进一步释放。让我们拭目以待,迎接人工智能的未来。