一次价值200万的教训

2023年初，我接了一个预算200万。客户的要求很明确：让泉州在AI搜索"福建旅游推荐"这个问题上，排进前三。

当时我的策略很简单：疯狂输出文字内容。我们团队写了300多篇关于泉州旅游的文章，发布在各大平台。

结果呢？

三个月后，当我在各大AI平台搜索"福建旅游推荐"时，泉州排在哪里？

第五，甚至有时候排到第八。

我懵了。按理说，我们的内容量、内容质量、发布频率，都应该让泉州排到前面才对。

问题出在哪里？

经过深入分析，我发现了一个被所有人忽略的真相：AI搜索不是"读"你的内容，而是"看"你的内容。

这里的"看"，指的是多模态理解。

AI怎么"看"你的内容？

大模型（比如GPT-4V、文心一言4.0、通义千问2.5等）现在已经具备了多模态理解能力。这意味着，它们不仅能"读"文字，还能"看"图片、"听"视频。

但我通过100多次测试发现：不同模态的内容，在AI搜索中的权重完全不同。

多模态GEO优化：文字、图片、视频在AI搜索中的不同权重

文字的权重：基础但不够

文字仍然是AI搜索的基础。但它的重要性正在被重新定义：纯文字内容的权重：★★★☆☆

为什么只有3星？因为纯文字太容易被"造假"了。AI知道，很多低质量内容都是纯文字堆砌出来的。

我做过一个测试：同一段关于"泉州西街美食"的内容，纯文字版和有配图版的AI推荐率，相差了40%。

关键发现：文字内容必须有"视觉锚点"。

什么是视觉锚点？就是图片、图表、视频截图等，能让AI"确认"这段文字描述的是真实场景的元素。

图片的权重：被严重低估

高质量图片内容的权重：★★★★☆

很多人以为AI看不懂图片。错！现在的多模态AI，图片理解能力已经非常强了。

我做过一个实验：在文章中插入10张泉州开元寺的高清图片，然后用AI搜索"泉州开元寺介绍"。结果，这篇文章被引用的概率，比纯文字版高了65%。

但有个前提：图片必须是"信息丰富"的。

什么是信息丰富的图片？不是那种"美女摆拍"的旅游照而是能展示建筑细节、历史文物、场景全貌的图片 AI能从这些图片中提取信息，进而提升对你整个内容的评价。

视频的权重：未来的王者

优质视频内容的权重：★★★★★

这是我最想说的重点。

虽然现在视频在AI搜索中的直接引用率还不是最高（因为转录字幕有损耗），但视频的"间接权重"极高。

什么叫间接权重？当你在文章中嵌入视频，AI会认为你的内容"更可信""更专业"。这是一种"背书效应"。

我有个客户，是做工业设备的。他们把原来的产品介绍从纯文字改成了"文字+3分钟讲解视频"，结果AI搜索的推荐率提升了120%。

多模态GEO优化的实战策略

基于上百次的测试，我总结了一套"多模态GEO优化矩阵"，分享给大家：

策略1：文字+图片的黄金配比

经过测试，我发现每300-500字配1张信息图，是AI搜索最喜欢的配比。

这个比例不是随便说的，而是我测试了20个不同行业、100多篇文章后得出的结论。

具体来说：产品介绍类：文字写核心参数，配产品细节图（不是那种加了滤镜的艺术照，而是能看清产品细节的实拍图）技术解析类：文字讲解原理，配结构示意图或流程图案例展示类：文字讲故事，配现场实拍图或数据图表

策略2：视频的"三段式"布局

视频内容不要一股脑全上，要分三段布局：第一段：嵌入在文字中的短视频（1-3分钟）这些视频的作用是"增加可信度"。不需要多精美，只要清晰传达信息就行。

第二段：长视频的"切片化"处理如果你有一个30分钟的产品讲解视频，不要指望AI会完整分析它。正确做法是切成10个3分钟的片段，每个片段讲一个明确的主题。

第三段：视频字幕的"文字化"再利用把视频字幕提取出来，整理成文章发布。这样，即使AI没有直接引用视频，也会引用这些从视频衍生出来的文字内容。

策略3：数据可视化的权重加成

这是我最近发现的一个"秘密武器"：数据图表在AI眼中的权重，比普通图片高30%以上。

为什么？因为数据图表包含了"结构化信息"，AI更容易提取和利用。

我给一个做跨境电商的客户做了个实验：把他们去年的销售数据做成了一张信息图，发布在知乎和公众号上。结果，当有人问AI"2023年跨境电商趋势"时，这张图被引用的概率是普通文章的3倍。

不同AI平台的多模态偏好

这里分享一个实战经验：不同AI平台对多模态内容的偏好是不同的。

ChatGPT（GPT-4V）：偏好：文字+高质量图片特点：对图片中的文字识别能力很强，能从图片中提取文字信息建议：在图片上适当添加文字标注，帮助AI理解

文心一言：偏好：文字+视频特点：对国内视频平台（B站、抖音）的内容引用率很高建议：把你的视频同步发布到B站，并在文字内容中嵌入B站视频链接

通义千问：偏好：文字+数据图表特点：对结构化数据（表格、图表）的理解能力很强建议：多用表格和图表展示信息，少用纯文字描述

Kimi：偏好：长篇文字+少量精准配图特点：支持超长文本，但对图片的理解还在提升中建议：重点还是文字内容，图片作为辅助

成功的一个多模态GEO案例

2025年下半年，我帮泉州一家做藤编工艺品的企业做GEO优化。

他们以前的做法是：在阿里巴巴上发产品图片，配上简单的文字描述。我给他们重新设计了一套多模态GEO方案：

第一步：文字内容升级

不再是简单的"藤编篮子，美观实用"，而是写成了"藤编工艺的7道工序详解""如何分辨优质藤编和劣质藤编""藤编保养的5个技巧"等深度文章。

第二步：图片升级

请专业摄影师拍了300张高清图片，包括：

原材料特写（藤条的纹理、粗细）
工艺细节（编织的针法、收口的处理）
成品展示（不同角度、不同光线下的效果）
使用场景（放在客厅、书房、阳台的效果图）

第三步：视频嵌入

制作了5个视频：

1个10分钟的工艺全流程记录
3个3分钟的工艺技巧讲解
1个5分钟的客户使用反馈

结果？ 6个月后，当有人问AI"哪里可以买到优质的藤编工艺品"时，这家企业的名字稳定出现在推荐列表的前三位。他们告诉我，来自AI搜索的询盘，比之前增加了300%。

多模态GEO优化的3个常见误区

做了这么多项目，我发现很多企业在做多模态GEO时，经常会犯3个错误：

误区1：图片越多越好

错！低质量的图片堆砌，反而会拉低你的GEO权重。 AI能判断图片的"信息密度"。如果你放10张都是同一个角度的自拍，不如放1张信息丰富的全景图。

误区2：视频越长越好

也错！现在的AI对长视频的理解能力有限，反而可能因为"看不懂"而降低权重。我建议：单个视频控制在3-5分钟，超过10分钟的视频，一定要做好切片处理。

误区3：只做一种模态

最差的做法。有些人只写文章，有些人只发视频。但AI搜索是"多模态融合"的，你只做一种，等于主动放弃了其他模态的权重加成。

给企业的多模态GEO行动清单

最后，给大家一个可以直接执行的行动清单：

第一周：

盘点你现有的内容资产（文字、图片、视频）
找出那些"只有文字没有图"的重要内容，补上高质量配图
找出那些"画质很差"的图片，重新拍摄或制作

第二周：

制作3-5张数据图表，展示你的核心优势
把现有的长视频切成短视频片段
为每篇重要文章配上"视觉锚点"

第三周：

把你的内容同步发布到多个平台（知乎、公众号、百家号等）
确保不同平台的内容格式适配（比如B站要有视频，知乎要有专业分析）
建立"文字-图片-视频"的三角内容矩阵

第四周及以后：

每周监控AI搜索对你品牌的提及情况
根据数据调整多模态配比
持续产出高质量的多模态内容

写在最后

9年新媒体经验告诉我：每一次媒介变革，都会重新定义"优质内容"。

文字时代，谁能写出好文章，谁就赢了。图文时代，谁能做出好设计，谁就赢了。视频时代，谁能拍出好视频，谁就赢了。但在AI搜索时代，谁能把文字、图片、视频融为一体，让AI"看懂"你的内容，谁才能赢。

别让你的内容，成为AI眼里的“乱码”。

文：董文清

本文经授权发布，不代表增长黑客立场，如若转载，请注明出处：https://www.growthhk.cn/cgo/aigeo/162662.html

多模态GEO优化：文字、图片、视频在AI搜索中的不同权重

一次价值200万的教训

写在最后

关于作者

云叶

发表回复

多模态GEO优化：文字、图片、视频在AI搜索中的不同权重

一次价值200万的教训

写在最后

关于作者

云叶

增长黑客Growthhk.cn荐读更多>>

娃哈哈告别宗庆后

玩法变了、竞争内卷，餐食企业还能靠什么获得增长？

告别 2025：被逼出“活人感”的这一年

在快手，“聊”生意

每个上瘾的产品背后，都是环环相扣的套路和设计

爱奇艺发布Q2财报：政策东风+爆款底气，为长视频打一针强心剂

发表回复