21CTO导读:ChatGPT这个超级流行的人工智能聊天机器人一直只是一个文本框。而现在,它正在学习以新的方式理解人们的问题。
背景
OpenAI 对 ChatGPT 新特性涉及 AI 驱动的聊天机器人可执行的操作做进一步调整:包括可以回答的问题、可以访问的信息以及改进的底层模型。
这一次,它调整了使用 ChatGPT 本身的方式。这次它推出新版本的服务,让人们不仅可以通过在文本框中输入句子做提示语,还可以通过大声说话或上传图片来做提示语。
OpenAI 的行动
9月25日,OpenAI 宣布为流行的对话式AI机器人ChatGPT推出新的语音与图像功能。
这些新功能标志着 ChatGPT 功能的重大扩展,它允许用户通过与 AI 助手对话并为其显示图像,用来进行更自然的对话。
OpenAI 如此宣布道:“我们开始在 ChatGPT 中推出新的语音与图像功能。它们提供了一种新的、更直观的界面,允许您进行语音对话或向 ChatGPT 展示您正在谈论的内容” 。
详细描述“多模态” ChatGPT 新增的功能:
新的语音功能,将允许用户通过大声说话与 ChatGPT 进行互动对话。用户可以在五种不同的人工智能生成的声音中进行选择,然后提出问题或给出指示语。
OpenAI 这样提示用户:
“与 ChatGPT 交谈并让它回复。可以随时随地与它交谈,为家人申请一个睡前故事,或者解决餐桌上的争论,”
用户感觉就像与苹果的siri或 Alexa 以及Google Assistant 交谈一样,只是——OpenAI 是由底层技术的改进,答案会更加精确。由此大多数虚拟助手正在被大语言模型重建,而 OpenAI 开始处于领先地位。
而图像功能允许用户上传 ChatGPT 照片,用以获取有关视觉内容的信息或提出问题。
例如,用户可以向 ChatGPT 展示自己的冰箱和食品储藏室的照片,并询问它食谱创意。在旅行时,你可以向 ChatGPT 发送一张地标照片并进行有关它的实时对话。该移动应用程序还包含一个绘图工具,可将人工智能集中在特定的图像区域。
OpenAI 表示,这些新功能由其最新的自然语言人工智能模型 GPT-3.5 和 GPT-4 提供支持,这些模型可以将推理技能应用于视觉与音频输入。当前的 ChatGPT 现在可以用五种合成声音之一进行可倾听响应。
该公司计划在未来两周内向 Plus 和 Enterprise 用户开始逐步推出语音与图像功能。OpenAI 表示说,这样一种方法将使团队能够进一步完善安全措施,并让用户使用更先进的人工智能做好准备。
OpenAI 还表示:“OpenAI 的目标是构建安全且有益的 AGI。我们相信逐步提供新的工具,使我们能够随着时间的推移进行改进和完善,包括风险缓解措施,同时也让每个人为未来更强大的人工智能系统做好准备。”
结语
ChatGPT 在推出近一年后,OpenAI 仍在试图找出为机器人提供更多特性和功能,同时又不会产生新的问题和缺点,提供新的解决方案。
随着越来越多的人使用语音控制和图像搜索,并且 ChatGPT 越来越接近成为真正的多模式以及更有用的虚拟助手,其技术门槛的跨越将变得越来越难。
作者:场长
参考:
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。