几经跳票的Siri AI终于来了。
文|罗镇昊
编|刘俊宏
75分钟的演讲,70%都在聊AI。库克在自己主持的最后一场WWDC上,表现得稍显“仓促”。
WWDC是苹果一年中最重要的活动之一,所有关于iOS、iPadOS、macOS等软件系统的最新进展都会在这里揭晓。作为未来操作系统的核心构成,AI成为WWDC最近三年的主角。
两年前,苹果高调推出Apple Intelligence,试图在AI浪潮中重新定义智能助手。但随后,这套系统的进展却不尽人意,全新的Siri也迟迟未能兑现。
今年的WWDC 2026,承担着为苹果在AI领域重新证明自己的重任。而在库克的开场中,答案似乎已经浮现:那个多次跳票的Siri,这次真的来了。
Siri AI升级 苹果要做豆包手机?
今年WWDC最值得关注的事,无疑是那个多次跳票的Siri终于落地了。
苹果给升级后的Siri单独起了个名字,叫做Siri AI。它不再是那个只能帮你放首歌、拨通电话、查天气的“语音遥控器”,而是一个真正集成在系统里的Agent。
一句话总结,那就是新的Siri AI不拉胯了。如同去年惊艳整个消费电子圈的豆包手机一样,苹果的手机AI现在也具备了系统级能力,且这种能力无处不在。
新的Siri具备五项能力:个人情境理解、图像理解、世界知识、屏幕感知以及APP调用。一般的日常任务几乎都能通过Siri完成,比如回复邮件、安排日程、结合聊天记录撰写文章。
演示中,主持人随手打开一张照片,Siri直接识别出屏幕上的图片是哪里,并在地图上导航到具体位置,然后从社交APP中找出朋友发过的地址,规划中途去朋友家的路线——完成查看屏幕信息、提取信息、根据信息调用相应的APP。可以看出,新的Siri已经成为应用之上更高一级的入口。
另一个演示者用Siri查到了世界杯第一周的赛程,提出想办一场巴西VS摩洛哥的观赛派对,接着让Siri推荐一些两个国家的经典菜,Siri随即检索了全球知识,又翻出好友Maria在聊天里提到的椰子饼干,最终整合出一份兼顾两国风味的菜单,并直接帮用户起草了一条群发邀请,附上菜单,一键发送。全程不用手动操作。
结合苹果官方演示看到,Siri AI已经不再是一个简单的助手。具备Agent能力的AI结合多模态能力之后,现在能够“看”到手机屏幕并“替”用户执行操作。或许,这些具体操作的任务主要还是基于苹果系统自带APP,还没有达到协同调用第三方APP的高度,甚至都还比不上国内AI手机“一句话”点咖啡的自由度。但平心而论,这对于“承认AI慢了”的苹果而言,已经是一项重大升级了。
此外,苹果还展示了一系列基于AI的“散装”应用能力,主打一个AI“哪都能用”。
Siri还可以帮助整理相册,只要对Siri说一句“把有某某的照片放进家庭共享相册”,它就会自己完成识别、筛选和操作,完全不需要打开APP。
同时Siri也被结合进相机里,镜头对向目标就可以对Siri进行问答,比如问面前这盘菜有多少卡路里,这份账单每人要A多少钱。
唤醒方式与多设备体验方面,Siri AI保留了“Hey Siri”和侧边按钮两种唤起方式,同时Siri还被嵌入灵动岛,向下轻扫就能进行语音或文字多轮对话。除此之外,苹果这次为Siri推出了专属的App,所有对话记录可通过iCloud私密同步,在iPhone上开始的对话,可以在iPad上接续,在Mac上收尾。
各平台上,Siri的形态也有差异。Mac上,Siri被整合进了Spotlight,可以在任意界面呼出,并通过右键菜单针对选中内容提问;Apple Watch上,Siri AI则以极简的交互直接在手腕上执行操作;Vision Pro上更进一步,只需注视Siri并开口说话,无需任何唤醒词。
这些能力正依托Apple Intelligence的驱动。官方表示,这套系统的运行在端侧和私有云上,简单的任务在本地设备上跑,复杂的任务则送到Private Cloud Compute。
基于Apple Intelligence底座,Safari、信息、邮件、日历等各类原生APP都得到了AI能力的加持。
Apple Intelligence? Gemini Intelligence!
Siri AI这次惊艳表现的背后,是苹果对整个AI架构做了一次重建,“拖延”两年的Apple Intelligence终于出来了。
还记得在2024年WWDC,苹果高调发布的Apple Intelligence给了用户不少期待。最“苹果”的体验、最好的AI大模型协同(ChatGPT)、最顺畅的端云协同联动,这是当时苹果给所有消费者的承诺,也给了AI手机厂商不少AI智能体落地的参考。甚至,当时还有不少分析师和消费者认为苹果仍有可能自研AI。
但在2026年WWDC上,一切尘埃落定。Apple Intelligence是基于谷歌Gemini做的。
虽然没有披露太具体的细节,但我们仍可以从中审视苹果为AI搭建的全新架构。整体逻辑上,苹果AI还是当下智能硬件行业共识采用的端云协同架构。苹果的基础模型——AppleFoundation Models是跟谷歌基于Gemini共同打造的系列模型,并分别布局在手机端侧和云端(Private Cloud Compute)。
云端这边,就是苹果专门搭建的AI基础设施。这部分苹果给的说法是,云端只是用于处理用户的需求,处理完就“删”,苹果不掌握也看不到用户的数据。
这种设计有点反常识,因为AI大模型厂商都非常重视自己与用户的交互数据,这些数据能够不断迭代模型能力。但在苹果这边,更像是执行用户复杂需求(图像生成、复杂推理等)的“一锤子买卖”。这或许侧面说明苹果自己可能还没有完善的数据闭环,甚至独立训练模型的能力。
端侧这边,苹果今年把模型分成了高、低两个能力档位。首先,所有支持Apple Intelligence的设备都带一个约3B大小的基础模型。
在性能更好的设备上(例如最新款手机、PC),苹果额外搭载一个更大的模型,这个模型能给出更高质量的输出、更长的上下文。同时苹果苹果还配套了独立的语音模型,用于新Siri的自然对话和个性化语音合成。
在端侧基础模型这边,苹果的解法还是比较有参考性的。苹果做了一个叫System Orchestrator(系统编排器)的架构来调度整个Apple Intelligence。
在这里,先解释一下Orchestrator的概念。在AI领域(尤其是智能体时代的AI),AI执行任务已经不再是一个大模型回答所有任务,而是多个不同能力的小模型、工具(搜索、APP调用等)、端云任务结合、上下文(多步任务)记忆等环节共同协作。Orchestrator的任务就是把整体任务拆解成合适的大小,分配到最适合执行的部分。
在苹果这边,System Orchestrator调度的是四大功能模块,分别负责个人信息理解、世界知识、Actions和屏幕感知。
具体来说,上下文理解就是设备上的信息,文字、图片、邮件,这些手机AI都了如指掌,能调用正确信息。
世界知识就是一定程度的常识,苹果在线上做了一个世界知识服务,当本地模型知识不足或需要最新信息时,AI能找到合适的信息输出。
Actions就是让Siri AI 真正执行操作,而不是只聊天,相当于用户的“手替”,负责操作手机。
屏幕感知则是当用户的“眼替”,能阅读屏幕上的信息,作为AI模型的输入。
整体来看,四大调用模块是两两组合的结构。分别承担内部、外部获取信息和执行输出、信息输入的角色。按照苹果的说法,这就是以你为中心的AI。
结语
苹果花了两年时间,终于是给Apple Intelligence做出来了。但无论是从应用效果到AI布局,苹果的AI始终还是有一股“拧巴”味。
一方面,Apple Intelligence还是有不少“老款”AI助手的部分。例如世界知识部分,是苹果几年前就在运营的知识图谱,当时是希望解决Siri知识老旧、胡编乱造的问题。但在AI大模型都能联网的今天,显得有点多此一举。另一方面,下定决心跟谷歌合作AI模型,这对于“困在自研执念”的苹果也是一种跨越。
但无论如何,AI只要落地就一定是好事。尤其是在中国手机厂商不断炫技的2026年,苹果也终于明白了交付大于完成的道理。
最后是具体更新计划。苹果AI的更新最老到苹果11,pc必须是苹果芯片,中国和欧盟暂时用不了。
不过,相信中国用户很快也能用上。此前,苹果曾计划和百度合作,将文心一言4.0作为国行iPhone生成式AI底层,适配国内数据合规要求。后又同步与阿里合作落地中国AI合规审核。
在无法直接使用谷歌服务的情况下,苹果很可能要寻找一个新的本土大脑,而千问就是目前最有可能的对象。
这件事能不能做成,进展得快不快,直接决定了中国用户能否用上全新的Siri。
抛开区域限制,这次WWDC真正值得被记住的,是苹果完成了AI时代的重构,并将Agent植入到操作系统。
本文来自投稿,不代表增长黑客立场,如若转载,请注明出处:https://www.growthhk.cn/cgo/161739.html
微信扫一扫
支付宝扫一扫