时间:2025-01-30 访问量:1493
清晨七点的会议室里,投影屏幕正播放着一段特殊录像。画面中光标在电商平台流畅移动,商品详情页被逐一点开,筛选条件反复调整,最终精准锁定某款咖啡机加入购物车——整个过程没有人类操作痕迹。"这是GLM-PC上周完成的购物测试。"智谱工程师点击暂停键,"它甚至比实习生更快发现限时折扣的隐藏入口。"
这种能直接操作数字界面的新型智能体正在重塑科技版图。在旧金山湾区,DoorDash配送员发现最近三成的早餐订单来自凌晨三点到五点,这些订单的配送地址集中在科技园区——这正是Operator智能体根据程序员工作习惯自动安排的咖啡补给。而上海某跨境电商公司的运营总监注意到,新上架的节日礼盒有65%被自动脚本抢购,这些脚本会自主比价、计算物流时效甚至协商保价条款。
藏在像素背后的思考者
支撑这些变化的是新型多模态架构的突破。当GLM-PC的摄像头模组扫描到淘宝商品图时,它不仅要识别图片中的运动鞋款式,还要理解网页布局中"凑单优惠"的悬浮窗口意味着什么。这种视觉认知能力源于对超过270万小时屏幕录像的学习,包括人类在不同购物场景中的鼠标轨迹、滚轮速度乃至误操作时的撤回模式。
OpenAI工程师在训练Operator时采用的方法更具颠覆性。他们收集了专业采购人员在比价网站的操作数据,发现资深买手会刻意制造"假动作"——比如反复查看某款耳机却不加入购物车,以此触发平台的降价推送。这些微妙的人类策略如今被编码成决策树,当Operator检测到某商品历史价格曲线呈现特定波动时,就会自动模拟类似行为。
支付界面里的博弈论
在真实的商业环境中,智能体正在催生新型交互生态。某国际连锁酒店的后台数据显示,通过Operator预订的客房有82%集中在走廊尽头的安静房间,这源于智能体对房型平面图的解析能力。更值得关注的是,当Operator与支付宝的支趣探克红包系统联动时,会自动计算最优支付组合——在杭州某商超的实测中,智能体通过拆分订单、组合使用随机红包,成功将实际支付金额降低了37%。
这种能力延伸到了更复杂的场景。GLM-PC在处理企业采购时,会同步调取飞书日历中的会议记录,自动关联即将到来的商务接待需求。在最近为某影视公司服务的案例中,它根据剧组杀青日期倒推,提前45天锁定了庆功宴场地,并通过比价系统节省了12万元预算。整个过程涉及8个平台账号切换、17次验证码识别和3次人工复核请求。
黎明时分的数字学徒
现阶段智能体仍保持着必要的谦逊。当Operator尝试预订米其林餐厅时,它会主动标注"该时段主厨菜单可能包含过敏食材"的提示;GLM-PC在编写数据抓取代码时,会在注释栏留下修改建议供工程师审阅。这种设计哲学源于开发者们的共识:在2025年真正到来之前,智能体更应该扮演辅助角色而非决策主体。
科技公司的办公区流传着新的测试趣闻。某团队要求Operator和GLM-PC同时筹备虚拟会议,结果出现了戏剧性差异:前者严格按照既定流程预定Zoom会议室并发送邀请,后者却额外生成了参会者饮食偏好分析报告。这恰好印证了行业观察者的预判——当多智能体系统走向成熟,差异化服务能力将成为竞争焦点。
在浦东某栋写字楼的24层,智谱的研发团队正在调试新一代视觉模块。透过落地窗望去,城市天际线上流动的灯光宛如巨大的操作界面,每一盏亮起的窗户背后,都可能藏着正在进化的工作流。工程师面前的屏幕上,GLM-PC刚完成第920次机票比价训练,此刻正安静地待命——就像人类助手等待下个指令时那样自然。