OpenAI 发布新版 ChatGPT，新增语音和图像输入功能

人工智能
23年9月26日
编辑

全民智能

近日，人工智能研究机构 OpenAI 宣布推出新版的聊天机器人 ChatGPT，并新增了图片和语音输入功能。这一更新将在未来两周内向 ChatGPT Plus 订阅用户推出，对于其他用户，也将很快能够使用这些新功能。

首先，新增的语音输入功能类似于手机的语音助手。用户只需按下一个按钮，然后说出自己的问题，ChatGPT 就能将其转换为文本，生成答案后再以语音形式播放给用户。OpenAI 表示，这种交互方式更加自然和便捷。由于大型语言模型（LLM）的技术优势，答案的质量也会更高。同时，OpenAI 还开发了一种新的文本转语音模型，可以根据几秒钟的样本语音生成与样本声音相近的人声。用户可以从五种选项中选择 ChatGPT 的声音，而且这种模型还有更多的潜在用途。例如，OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。然而，这种模型也存在一定的风险，如可能被恶意利用来冒充公众人物或进行诈骗。因此，OpenAI 强调，这种模型不会被广泛开放，而是会受到严格的控制和限制。

其次，新增的图像输入功能则类似于 Google Lens。用户可以拍摄自己感兴趣的事物，上传到 ChatGPT 中。ChatGPT 会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。ChatGPT 的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不满意或想要更多信息，可以继续向 ChatGPT 提问，从而得到更准确和全面的答案。然而，图像搜索也存在一些潜在问题。例如，在处理人物图片时，OpenAI 限制了 ChatGPT 对人物进行分析和直接评价的能力，既为了保证准确性，也为了保护隐私。这意味着目前还不能通过上传一个人的照片就知道他 / 她是谁。

自2022年初推出 ChatGPT 以来，OpenAI 一直在努力为其机器人增加更多功能和能力。这次更新是该公司在保持安全和合理的边界之间寻找平衡的一次尝试。但是随着越来越多的人使用语音控制和图像搜索，以及 ChatGPT 逐渐成为一个真正的多模态、有用的虚拟助手，保持这种平衡将会变得越来越困难。

声明：学AI网所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服或提交工单进行处理。学AI网内用户所发表的所有内容及言论仅代表其本人，并不反映任何学AI网之意见及观点。

{{userData.name}}已认证

OpenAI 发布新版 ChatGPT，新增语音和图像输入功能

华为云推出盘古气象大模型新增降水预测功能，全球邀测开启

百川智能推出全面升级的Baichuan2-53B大模型，开放API进入To B领域

极简主义女生头像MidJourney提示词

怀旧报纸女孩MidJourney提示词

MidJourney彩虹列车咒语

{{userData.name}}已认证

华为云推出盘古气象大模型新增降水预测功能，全球邀测开启

百川智能推出全面升级的Baichuan2-53B大模型，开放API进入To B领域

OpenAI推出ChatGPT Plus联网模式和语音功能，付费用户可邀请朋友免费体验

ChatGPT迎来重大升级：借助微软必应的联网功能，不再受限于以往数据

“仿ChatGPT“类初创公司面临倒闭风险，生成式AI热潮逐渐降温

OpenAI宣布首次公开收购，揭示关键信息

极简主义女生头像MidJourney提示词

怀旧报纸女孩MidJourney提示词

MidJourney彩虹列车咒语