ChatGPT 实现具有语音和图像功能的多模式
领先的初创公司OpenAI最近宣布,他们正在为其流行的人工智能聊天机器人ChatGPT推出新功能,使其能够“看、听、说”。
添加语音和图像识别,从而将 ChatGPT 变成一个完整的多模式人工智能工具,他们打算让用户与应用程序交互并从应用程序中获得更多价值。
该公告紧随最近发布的 Dall-E 第三版之后,Dall-E 是该公司的旗舰文本到图像生成器,该生成器还添加了语言功能。
改进了 ChatGPT 的音频和图像功能
最近宣布的新版本 ChatGPT将整合语音和图像识别功能,以扩展和增强用户体验,使其更具交互性和易用性。
ChatGPT 现在是一个复杂的多模式 LLM(大型语言模型),可让您进行实时、来回对话。你可以要求它回答问题、生成内容或给你想法,就像你之前用你的声音写作一样,它也会以合成的、类似人类的声音做出回应。
图像识别由 GPT 3.5 和3 月份发布的 GPT4提供支持,因此 ChatGPT 现在将具有与这些模型类似的功能,您可以拍摄照片供机器人“查看”,然后询问信息、建议和其他基于数据的信息。在图像上。
他们打算通过此次升级使 ChatGPT 成为一个提高可访问性并为每个人提供有用的实时帮助的工具。
值得注意的是,根据该公司的说法,ChatGPT 的这一迭代在英语方面表现出色,但在其他语言(尤其是非罗马文字的语言)中却难以产生相同的结果。
新 ChatGPT 的工作原理
根据公告,iOS 和 Android 上的移动应用程序将启用新的语音和图像功能,并且网络版本也将提供图像识别功能。
语音功能是一个选择加入的功能;您需要转到应用程序设置并单击新功能,然后单击“语音对话”并启用该功能。然后,您将能够在五种不同的语音选项之间进行选择,让您的应用程序与您对话。激活后,您将能够与人工智能助手随时随地进行语音聊天。
要使用图像功能,您只需点击照片按钮(首先在移动设备上点击“+”按钮),然后从存储中捕获或选择一张或多张照片。还有一个绘图工具可以绘制图像。选择图片后,您可以开始关于它们的讨论。
围绕新功能的安全和道德政策
作为其公告的一部分,OpenAI 披露了他们如何努力防止这一新功能被以有问题或恶意的方式使用。
其一,他们限制语音聊天的语音合成能力只是为了防止用户冒充公众人物或进行欺诈。语音聊天的合成语音是通过与不同配音演员合作创建的,并使用可以在几秒钟的真实人类语音样本后合成类人语音的模型,并识别口语并将其转录为文本。
该公司还使用红队人员和 alpha 测试人员来分析该软件可能的有害用途,并采取其他措施限制 ChatGPT 分析图片中的人物并对其做出直接陈述的能力。
最后,他们对该工具的许多可能的限制保持透明,并阻止其在高风险场景中使用。
新的 ChatGPT 何时可用
与其他产品一样,OpenAI 正在逐步发布这个新版本的 AI 聊天机器人。他们表示,付费用户(ChatGPT Plus 和企业服务)将在接下来的两周内访问语音和图像功能,其余用户很快就会收到更新,尽管他们没有定义如何很快就会了。