界面新闻记者 | 宋佳楠
AI智能体正在加速尝试代替人类去做一些“力所能及”的事情。
当地时间1月23日,OpenAI发布了首个AI智能Operator 。据该公司CEO奥特曼介绍 ,这款智能体能像人类一样使用网页浏览器,并点击按钮 、打字输入内容等,能自动完成预订旅行住宿、餐厅预约、在线购物等复杂任务。
不仅如此,系统还支持多任务并行处理 ,比如在某购物网站上订购搪瓷马克杯之时,也能同步在另一平台预定露营地。
Operator支持个性定制,用户可为特定网页或全站添加自定义指令 ,并在主页保存,实现跨聊天窗口的多任务处理,如设置订机票时的首选航司等。
其技术原理主要由Computer-Using Agent(CUA)模型驱动 ,并结合了GPT-4o的视觉识别能力和基于强化学习的高级推理功能,使得Operator能 “看见 ” 网页,使用鼠标和键盘与网页互动 。
目前,Operator研究预览版率先向订阅200美元Pro计划的美国用户开放 ,后续将逐步扩展至Plus、Team和 Enterprise级别用户。OpenAI表示,希望很快将Operator集成到其所有ChatGPT应用中。
从现有体验来看,Operator在基础网页操作和重复性任务方面表现出色,如搜索筛选 、创建购物清单和音乐播放列表等任务成功率较高 。但在处理复杂的房产搜索等任务时 ,成功率相对较低;在处理不熟悉的UI界面和文本编辑时表现欠佳。
在发布演示和用户测试中,Operator出现了网页无法成功加载等情况,表明其在运行稳定性上存在不足。此外 ,由于部分网站可能会屏蔽AI访问,导致智能体无法在这些网站上执行任务,使其应用范围受到一定限制 。
据OpenAI方面介绍 ,这款智能体在WebArena测试中得分58.1%,而在WebVoyager测试中实际网站导航成功率达87%,OSWorld测试的得分则为38.1%。WebArena是由卡耐基梅隆大学等机构推出的一项用于测试智能代理在网络环境中执行任务能力的测试。WebVoyager测试主要在亚马逊、开源网站GitHub和谷歌地图等真实网站上测试模型的性能 。而OSWorld测试用于评估模型控制Windows和macOS等完整操作系统的能力。
尽管还谈不上完美 ,但“这款产品是我们进军智能体领域的开始。”奥特曼在直播中这样表示 。
可以说,Operator是OpenAI向通用人工智能(AGI)目标迈进的重要一步,也将进一步增强该公司在AI领域的竞争力。但考虑到Operator在代替用户执行任务时可能需要输入敏感信息 ,如何避免潜在安全风险将成为重要问题。
盘前机会前瞻|AI新宠Manus刷屏了!AI智能体爆发在即,这几家公司智能体产品已在垂直领域落地值得关注(附概念股)|界面新闻 · 证券
盘前机会前瞻|又一城市出台新政,助力大模型向智能体演进,这几家当地企业在AI智能体开发和AI应用领域深度布局(附概念股)|界面新闻 · 证券
谷歌向OpenAI竞争对手 Anthropic追加投资10亿美元|界面新闻 · 科技
Anthropic再获35亿美元融资,与OpenAI估值差距进一步缩小|界面新闻 · 科技
芬兰开发出可自动识别结直肠癌的人工智能工具|界面新闻 · 快讯
OpenAI竞争对手推首款混合推理模型,称是其有史以来最智能模型|界面新闻 · 科技
大金重工:首个自主运输海外海工项目全部单桩产品到港交付完毕|界面新闻 · 快讯
科技早报 | OpenAI未来几个月内将发布GPT-5;宇树科技否认进行新一轮融资|界面新闻 · 科技
2月13日投资早报|OpenAI称几个月内将推出GPT-5,美格智能与DeepSeek开发公司无业务往来,成大生物公实际控制人拟发生变更股票复牌|界面新闻 · 证券
还没有评论,来说两句吧...