Deep Research Agent V2亮相背后：超级Agent进入“iPhone倒计时”

从多模态检索能力到深度多模态浏览器智能体再到检索底层能力的强化，从并行架构到MCP多智能体协作机制，在昆仑万维一系列模型动作和更新的天工超级智能体背后能看到的也恰是一个在被悄然推进的AI演进路径：智能体正在从AI办公生产力工具到真正的超级AI助手，独立检索，独立理解，独立表达。

2025年，超级Agent的iPhone时刻，正在加速来临。

作者|皮爷

出品|产业家

对于张小龙，《腾讯传》里有句话是这样描述的，即在腾讯内部，张小龙的名气主要来源于两方面，一是公司某次运动会网球赛的冠军，二是全广州最大的KENT香烟消费者之一。

而这个描述伴随着2011年微信1.0版本的发布似乎开始不太准确——微信成了张小龙的唯一代名词。根据腾讯刚刚发布的第二季度财报数据显示，迄今为止微信月活超14亿，约等于中国总人口。

微信做对了什么？在过去的多年时间里，关于这个问题一直是产品经理们关注的焦点，从PC互联网到移动互联网再到AI，微信的设计和发展路径都可谓是一众产品的绝对对标。

一个相对共识的观点是，微信是整个中国移动互联网时代的能力集大成者，从语音技术到社交通信的技术底层，从UI设计到需求满足的产品表层和内部信息流转流程，每个完备的单点组件串联到一起，构成着这款超级APP应用的从量变到质变的全民接纳和爆发。

历史总是惊人的相似。如今，这样的量变信号也正悄然出现Agent应用热潮里。

就在刚刚，昆仑万维发布了Deep Research Agent，首次把多模态检索理解和跨模态生成能力完整整合到深度研究工作里，以“Agent赋能Agent”，近一步强化天工超级智能体的能力。

被放到台前的不仅这些。在过去的一周里，昆仑万维已经成为国内AI市场的绝对焦点——从8月11日至8月15日，其每天都在发布一款新模型，从视频生成模型、世界模型，到统一多模态模型、智能体模型，再到AI音乐创作模型。

这些模型在强化AI在各自领域场景表达的同时，也更在推动着Agent infra一个个组件的日趋成熟。

2025年的如今，未来终极形态的Agent产品到底是怎样？没人可以给出定义，但在一个个产品动作和模型信号背后，能清晰看到的是基座能力的量变正在愈发迅速。

如果说之前的Agent平台更多的标签是AI基础搜索的单点，那么如今在这个单点之上，对新需求拆解和满足能力背后的底层技术体系也恰在成为更新的产品衡量标准，如多模态检索生成，再如深度信息检索等等。

看见新需求，解决真问题。Agent，正式进入比拼下半场。

一、“真”多模态、“强”深度搜索，

再进一步

在厘清Agent产品的更新标准之前，先来看一看昆仑万维的最新Agent交卷： Deep Research Agent v2，从更大的视角来看，这个“To Agent的Agent”更等同于为天工超级智能体叠加了一层更强的技术基底。

首先看最基础的检索能力，如今在Manus之后，一个更新的需求恰是多模态检索，换言之则是人们期待通过Agent助手不单纯获得文字层面的答案，而更多是来自图像、文字的复合信息回答。

关于多模态，如今市面上大部分Agent产品能达到的能力更多是在生成侧，而在检索侧也更多仅仅是基于最终的文字进行图表转换呈现，在最前端的深度检索方向很少有Agent产品很做到，这也恰是Skywork Deep Research Agent v2的最新亮点。

检索“AI大模型对教育行业影响”的相关问题时，Skywork Deep Research Agent v2会自动检索对应的图片信息，并在理解图片后将图片内容和文字内容进行综合输出

即在问题的检索过程中，基于Skywork Deep Research Agent v2的加持，天工超级智能体将不再局限于文字，而突破性地把图像信息也作为核心的信息检索要素之一，通过对图像、文字的综合理解，最终输出答案。

检索房价相关问题时，会自动把对应网站的“城市房屋价格曲线”作为信息检索源，将其与文字内容结合进行思考输出；

检索“K12在线教育产品”的相关问题时，会自动检索市面上对应k12产品的用户画像图片，理解图片内容的同时，更结合文字进行图文并貌的输出；

如果说多模态检索提升的是天工超级智能体在对象要素层面的检索能力，那么深度信息检索则提升的是其在检索体系上的提升，拆解来看其中有两大亮点：一是革命性推出深度多模态浏览器智能体，二是通过制定标准的方式，近一步强化深度信息检索底层能力。

先来看深度多模态浏览器智能体，从整个AI市场来看，AI浏览器是炙手可热的AI落地领域，其以用户在移动互联网时代存留的搜索入口习惯为切入点，基于浏览器入口的形态进行对应AI技术的验证和落地，不仅在国内，在国外也更有包括Perplexity、 OpenAI等纷纷下场，但就当下而言，AI浏览器可谓是问题频出。

比如强耗电和反应慢，不少人对AI浏览器的反应是慢，如果细看对应的检索思考过程，则是不难看到不少浏览器Agent容易陷入反复验证、反复“撞墙”的过程，由此对应的是“三个任务运算一天”的戏谈。

问题还不仅这些。几个其它问题还有，如AI浏览器很难绕过用户的文档、网页权限，一旦触碰到对应的限制则会自动停止思考推理；再如耗电，如最近热议的某些AI浏览器运行时会给用户终端带来极大的硬件损耗等等，以及最核心的能力层面，即对大部分AI浏览器而言，其更多仍然没有逃脱浏览器的固有限制，仅是围绕之前的浏览器页面进行检索，增量极为有限。

这也是Skywork Deep Research Agent v2特殊设计的意义所在。即基于其中的深度多模态浏览器智能体，用户不仅可以获得互联网上的相关信息，更可以获得跨平台的全体系内容呈现，如推特、instagram、知乎、小红书等，从内容本身到图像，从弹幕到底层评论区等等，一些客观和主观的要素都会被识别分析，共同成为天工超级智能体回答的检索思考依据。

检索“香港旅游攻略”，会自动基于小红书进行信息检索，结合小红书内容贴和评论区反馈等信息，综合给出方案；

在对比 Grok4 与 GPT5 时，会自动前往 Twitter、小红书等平台检索相关信息，并整理汇总用户的真实评价与反馈；

查询相关球星信息时，智能体会自动跨平台抓取并整理球星最近推文的热度指标与代表性评论，快速呈现舆论全貌；

此外，基于深度多模态浏览器智能体的并行搜索、多动作规划机制，可以大大提升检索生成效率，从而让任务可以迅速执行、迅速反馈；在涉及到需要用户接入的环节（如验证码等），智能体会自动提醒用户进行接管操作。

在深度多模态浏览器智能体之外，Skywork Deep Research Agent v2还进一步夯实了天工超级智能体的检索基础能力，通过一系列“标准”路径的设定，让其在进行问题回答、检索以及生成答案时，必须遵循对应的思维链逻辑和生成更为优质的答案。

比如制定了严格的搜索问题构造标准，明确定义了高质量搜索问题及其答案应具备的五大核心属性：多样性（覆盖广泛的主题和难度层次）、正确性（答案准确无误）、唯一性（答案具有确定性）、可验证性（答案可通过可靠来源验证）以及挑战性（需要深度推理能力），这套标准也更同样被用在智能体生成的答案验证中。

再比如端到端强化学习、并行推理等等方面，Skywork Deep Research Agent v2也都通过一系列特殊设计保障智能体能够在输出最终结果之前进行多轮验证和优化思考，最终快速高效准确地输出答案。

客观来看，Skywork Deep Research Agent v2为天工超级智能体加持的三个突破点也恰对应着当下人们对于Agent产品的更新要求：即对问题的更多维度回答和理解、更快的问题解决速度、更跨平台全方位的内容呈现以及更符合人类思维链的真实逻辑文字。

也可以说，这些也恰是Skywork Deep Research Agent v2多模态检索能力、深度多模态浏览器智能体、深度信息搜索能力的产品核心设计出发点，即把Agent infra中检索推理思考回答的每个节点分别进行完善放大，进而为用户提供更为契合的AI生产力加持。

二、“Agent赋能Agent”：

Agent集团军时代到来

在Skywork Deep Research Agent v2破圈之中，一个更大视角的思考是，如今的Agent到底走到哪了？

过去的两年时间里，Agent已然成为人们对于AI大模型落地的共识，即基于Agent的形态，不论是在TO C的场景，还是在产业TO B的具体环节，AI技术都可以得到更大程度的价值释放和表达。

这其中也更有一系列如Manus、Betteryeah、Dify等TO C或TO B的智能体产品出现。但共识之外，真实的答案却并不算完美。

即除了前文所说的AI浏览器的问题之外，在即使如Manus等智能体产品上，一系列的幻觉、数据安全、反映迟缓以及“低价值”答案等等都在不断让人怀疑Agent的价值所在——Agent产品到底应该如何进化，才能成为真正的生产力工具？

从某种程度来说，Skywork Deep Research Agent v2在提供一个答案。即不论是Skywork Deep Research Agent v2所呈现出的多模态检索，还是深度多模态浏览器智能体以及底层检索基础能力的强化，这些在特定节点可以取得更优秀得分的“AI组件”如今都已经被嵌入到天工超级智能体APP中，进一步迭代天工超级智能体的infra底层逻辑，让其可以一步步进化。

具体来看，这些更优秀的得分源自对对应节点技术的优化。

比如在升级的多模态检索能力中，其采取的多模态爬取和长距离多模态信息收集，前者内置了“视觉噪声剪枝（Visual Noise Pruning）”，通俗来说就是识别筛选所有抓取元素中的有价值部分，将有价值的信息推进后续处理，提高任务的推进速度，节省计算资源。

后者则是Skywork Deep Research Agent v2仿照资深研究员的阅读节奏，通过“先筛选、后精读”的流程，模型在每一步推理时，不仅审视当前动作的结果，还会综合前面几十步数万字的上下文，这种模式可以显著降低计算开销，同时确保关键视觉证据得到充分利用。

再比如在深度多模态浏览器智能体，其之所以能够做到跨平台和全要素识别，也恰是基于昆仑万维AI团队对浏览器文档对象模型（DOM）进行的深度优化，其结合浏览器原生特性，能够更精准、高效地提取网页中的核心信息。

此外，团队还针对国内外主流社交平台进行了大量的Action（动作）优化，确保在不同社交网络平台的兼容性与稳定性，提升自动化浏览的成功率和效率，规避传统AI浏览器“撞墙”的问题。

同时也更有检索基础能力的突破，其也更是基于固有的AI检索回答推进流程，在每个节点都进行了更为科学合理的强化，同时把市面上最流行的多智能体协作机制真正经由Skywork Deep Research Agent v2嵌入到天工超级智能体产品中，进一步强化后者的Agent infra底层建设，在原来的基础上进一步提高其智能化上限。

这些从模型和产品技术出发的真实突破也恰构成着Skywork Deep Research Agent v2展现出来的对应节点的Agent能力，而这些能力也更将无缝集成进天工超级智能体的固有流程环节中，为用户提供前端虽无感知但更智能化的回答。

这个结果背后也更折射出一个新的事实，即Agent不再是单纯基于某项技术或节点的产品，其更在成为一个集团军组团作战的超级APP。

即当用户在进行某个对应的检索和命令生成时，一个在天工超级智能体内部运转的流程恰是把从问题提出到解析，到多模态检索，到答案生成、验证中间的每个步骤都让专门的智能体产品来完成，通过对每个环节的专项强化设计让每个节点都高效、智能、可控，进而传导输出一个最大程度契合用户新需求的答案。

或者也可以说，在昆仑万维的这张答卷背后，能清晰感受到，为了实现最前端的真正智能回答和价值回应，Agent 产品正在逐渐被原子化、分子化甚至模块化，这些原子化的组件通过集团军作战的方式，最终成为决定Agent助手能否成为真正生产力工具的关键。

三、2025年，

等待超级Agent的iPhone时刻

在知乎上，有人曾经问过这样一个问题，即移动互联网开始的真正起点标志性事件是什么？其中的高赞回答是iPhone的发布。即尽管是后续伴随着App store等体系的成熟，iPhone手机是在4.0乃至5.0版本后才真正风靡世界，但当乔布斯拿出无键盘手机的那一刻，也更标志着移动互联网时代的来临。

实际上，在Skywork Deep Research Agent v2，也或者可以说在Skywork Deep Research Agent v2加持后的天工超级智能体背后，也恰能感受到这种时代起点的变迁气息。

即如果说在2024年，人们对于Agent的想象力还仅停留在微信、支付宝等超级app的身上，即其可以完成近乎一切指令可以达到的任务，那么如今这些想象则是正在逐步区别化、具像化、实际化。

在如今的天工超级智能体APP上，一系列从工作到生活，再到信息猎奇等更为多维的任务都可以被加速推进，Skywork将其模型能力与工具能力有机融合，构建协同多智能体框架。该系统不仅能够将多个Agent组织成高效协作团队，还可在线实时利用Agent的代码能力动态创建和管理MCP工具，从而显著提升任务处理能力与环境适应性。

任务在天工超级智能体中整体运转的流程体系：MCP Manager Agent

这也恰是不同以往任何产品运行逻辑的AI时代超级app的雏形，客观来看，尽管当下以天工超级智能体APP为代表的产品仍然不能完成全部任务，不能代表终极形态，但一个清晰的信号是，在越来越聪明的它背后，这个超级app的底层基座正在愈发厚重，运行机制也更愈发清晰合理。

几个最新的成绩是，在权威的搜索评测榜单BrowseComp上，Skywork Deep Research性能已超越大多数同类产品，正确率达到27.8%，而一旦开启自主研发的“并行思考”（Parallel Thinking）模式，正确率更是跃升至38.7%，刷新了行业SOTA纪录。

更值得一提的是，在并行思考模式下，Skywork Deep Research的正确率会随着思考时间的增加而持续攀升。

此外，在GAIA测试集中，Skywork Deep Research Agent V2也更斩获SOTA成绩，后者是一个面向通用智能体（Agent）的综合评测基准，专为在真实环境中衡量AI智能体的多模态推理、网页浏览、工具使用、长期规划、环境交互与任务执行等关键能力而设计。同时，其也更被视为衡量AI是否具备通用智能（AGI）的重要里程碑。