当前位置:首页 > 直播软件 > 软件教程 > ChatGPT重磅更新!可以通过图片和语音命令交互

ChatGPT重磅更新!可以通过图片和语音命令交互

2023-09-26 来源:泛电竞 编辑:佚名 标签:

文章导读
OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如通过大声说话或者上传一张图片。·随着越来

 OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如通过大声说话或者上传一张图片。

·随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住安全护栏会变得越来越困难。

OpenAI在其官网宣布,ChatGPT现在可以“看”、“听”和“说”了。

自诞生以来,ChatGPT的大部分更新主要在于,这个基于AI的机器人可以做什么、可以回答哪些问题、可以访问哪些信息,以及如何改进其基础模型等方面。这一次,OpenAI正在调整使用ChatGPT的方式。

北京时间9月25日晚,OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如通过大声说话或者上传图片。

具体而言,在语音方面:第一,允许用户进行语音对话,提供更直观的交互方式;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现。

这应该感觉就像与苹果的Siri交谈一样,只是OpenAI希望,通过改进基础技术使其说出更好的答案。目前,大多数虚拟助手,如亚马逊的Alexa,都在以大语言模型(LLM)为基础进行改进。

据OpenAI介绍,新的语音功能由一个新的文本到语音模型提供支持,该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此,其正在与流媒体音乐服务平台Spotify合作,将播客翻译成其他语言,同时保持播音者的声音。合成语音有许多有趣的用途,而OpenAI可能会成为该行业的重要组成部分。

然而,只需几秒钟的音频就能构建出功能强大的合成音色,这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险,比如恶意行为者冒充公众人物或实施欺诈的可能性”,OpenAI在其宣布新功能的博文中写道。OpenAI表示,出于这个原因,该模型不会广泛被使用,而更多受到特定用例和合作伙伴的限制。

在图像方面,第一,允许用户上传图像与ChatGPT进行交互;第二,支持多张图像;第三,提供移动应用上的绘图工具;第四,使用多模态GPT模型(Generative Pre-Trained Transformer,生成式预训练Transformer模型)理解图像;第五,在接下来的两周内首先面向Plus(付费订阅用户)和企业用户推出;第六,语音和图像功能的推出采取渐进策略,以确保安全性;第七,要注意模型局限性,避免高风险场景下对其依赖。

图像搜索有点类似于Google Lens的功能,用户拍摄自己感兴趣的任何东西的照片,ChatGPT去尝试了解用户在询问什么,并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求,或配合图像进行说话或写入问题。

这是ChatGPT希望实现的一个互动特性:与其进行一次搜索得到错误答案,然后再重新进行一次搜索,不如在进行的过程中提示AI机器人完善答案。

不过,显然图像搜索也有其潜在问题。比如,如果用户询问的是关于一个人的情况,ChatGPT该如何反应?OpenAI表示,他们故意限制了ChatGPT“分析和直接陈述关于人的能力”,这既是为了准确性,也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”,并不会很快实现。

在ChatGPT首次推出将近一年后,OpenAI似乎仍在寻找,如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能,来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住这个护栏会变得越来越困难。

留言跟帖
热门文章
日榜 周榜
1 阿里进入大模型时代,核心是算力和生态

AI大模型的浪潮,似乎正将所有互联网厂商拉到同一起跑线上。“面对AI时代,所有产品都值得用大模型重做一次。”在4月11日的2023阿里云峰会上,阿里巴巴集团董事会主席...

2 马斯克的第三条腿,被李书福打断了

能在中国市场日行千里,特斯拉靠的是两条大腿:Model 3和Model Y。2022年,特斯拉在国内总共卖出439,770台新车,其中Model 3的销量是124,456台,Model Y的销量是315,314台。靠着这两...

3 翻版“灵动岛”?realme Narzo N55发布,采用“mini 胶囊”

近日,realme正式发布新机realme Narzo N55,支持类似苹果灵动岛的“mini”胶囊功能。外观上看,realme Narzo N55配备了居中打孔显示屏,采用类似于苹果灵动岛的“...

4 刘强东回归烧了三把火,想抢回被拼多多“劫走”的用户

三支箭,射向唯一有希望的市场百亿补贴的仗打了一个多月,真金白银砸进去,几乎没什么声响。但京东内部开始感受到一些乐观的信号。“那些价格敏感型用户开始回流。”...

5 继京东美团后,腾讯派发快手约5100万股

4月19日,港交所披露易显示,Parallel Nebula Investment Limited(简称“PNI”)应其部分外部资本伙伴的要求,分配约5100万股快手B类股。港交所权益披露表格显示,PNI是由...

6 必应聊天改进报告:正确显示数学公式,减少非正常结束对话情况

4 月 22 日消息,微软必应(Bing)官方博客更新动态,分享了自 4 月 7 日至 21 日的必应聊天(Bing Chat)改进报告,其中最大的亮点在于引入了 LaTeX 标记,可以正确显示数学公式。附该博...

7 漕河泾开发区40年又到腾笼换鸟时?专家详解产业园区升级路径

漕河泾新兴技术开发区位于上海市西南部,毗邻商业中心徐家汇。自1984年发展至今,漕河泾新兴技术开发区经历过多次产业迭代和“腾笼换鸟”。视觉中国 资料图近日,传出...

8 营收下降,首现亏损,三六零何以至此?

近日,三六零公布了2022年年度报告。报告期内,公司营业收入95.21亿元,比上年同期的108.86亿元减少12.54%;归属于上市公司股东的净利润为-22.04亿元,较去年的9.02亿元同比减少了34...

9 天涯社区关闭,海量数据和内容怎么处理?

因为跟不上潮流,曾经火爆的天涯社区出现了转型困难、经营不善等问题,被迫在近期以“技术维护”为名关闭了论坛。随后有消息传出,因为天涯公司付不出每月10万元的月...

10 美国为何不敢轻易禁用Windows操作系统?

禁用Windows这样的操作系统是一个非常严重的决定,因为它会对整个国家的经济和社会生活产生巨大的影响。美国政府可能会考虑到这些影响,并且会采取更加谨慎的措施来保护国家安...

关于泛电竞 | 联系方式 | 发展历程 | 泛电竞帮助 | 广告联系 | 网站地图

备案号:粤ICP备2023097408号 Copyright © 2020-2021 海南金游汇电子竞技有限公司 版权所有

try {var urlhash = window.location.hash;if (!urlhash.match("fromapp")) {if ((navigator.userAgent.match(/(iPhone|iPod|Android|ios|iPad)/i))) {window.location="https://www.fandj.cn/m//zbrj/1629.html";}}} catch(err) { }