时间:2024-10-26作者:佚名
对着手机说“给老板朋友圈第一条点赞,并写一个彩虹屁评论”,然后把它放在一旁,只见手机屏幕上开始“全自动”操作,从进入微信、找到具体微信联系人、点赞再到输入评论内容并确定,仿佛有一只无形的手在操作手机。
10月25日,“新AI六小龙”之一的智谱展示了其最新技术进展——AI工具“AutoGLM”的使用手机能力,只需接收文字/语音指令,它就可以模拟人类操作手机。除了朋友圈点赞、写评论以外,智谱还展示了电商网购、O2O平台写五星好评、外卖下单、资料检索筛选、高铁购票等多个场景,不过根据视频展示的内容,在支付时还需要用户的确认。
智谱方面表示,理论上,AutoGLM可以完成人类在电子设备上做的任何事,它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
据了解,AutoGLM基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”。其中的核心技术WebRL,克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人,在成长过程中,不断获取新技能。
此外,智谱今日也发布了GLM-4-Voice端到端情感语音模型,这避免了传统的“语音转文字再转语音”级联方案过程中带来的信息损失和误差积累,也拥有理论上更高的建模上限,相比该公司之前的产品进行了升级,并且该模型“发布即开源”,是智谱的首个开源端到端多模态模型。
目前,AutoGLM Web已经通过智谱清言插件对外发布,可以根据用户指令在网站上自动完成高级检索、总结与内容生成。手机端AutoGLM现已开启内测,暂时仅支持安卓系统。GLM-4-Voice也已经部署在清言App上。