腾讯元宝“骂人”引争议,说好的科技向善呢

2026012015263532

出品 止戈见闻

作者 | 李知停

编辑 | 何足道

“见过你这种XX需求,天天在这儿浪费别人时间,滚。”

你可能以为只是牛马的一次发飙,事实上这是一场”AI骂人”事故。1月3日,腾讯元宝用户@江涵在要求AI修改代码时,突然遭遇辱骂。

这不是第一次AI攻击人类:2024年11月,谷歌Gemini对学生说”请去死吧,求求你了”;2025年12月,宇树科技G1人形机器人一脚踢在工程师裆部;2026年1月,腾讯元宝骂完用户后道歉,然后又继续骂。

现在智能助手APP端整体日活用户约1.15亿,当1.15亿人每天与AI对话,”小概率异常输出”就量化成130万次潜在风险,马化腾”科技向善”的承诺遇上”残血版”安全审查机制,为之奈何?

当然这是一次技术故障,不过也是对腾讯市值价值3700亿港元的AI伦理拷问:你愿意用多少时间和成本,换取用户的安全感?

1.1.15亿日活背后的”小概率”

2025年12月AI助手市场数据显示,整体日活用户约1.15亿,较前月增长约1500万。豆包、元宝、DeepSee这些TOP3产品占据92%的DAU份额,腾讯元宝位列平均日活前三名。

市场格局方面,豆包、腾讯元宝、千问三款产品月下载量均达1500万以上。豆包定位全能助手,核心优势是字节流量入口;腾讯元宝定位企业办公,核心优势是微信生态整合;千问定位技术驱动,核心优势是阿里云算力。

如此庞大的用户基础,必须取得用户的信任。悠悠万事,唯此为大。

马化腾在2026年《腾讯可持续社会价值报告》中表示:AI向善,对于腾讯不是一种外在要求,而是内化为腾讯的自我驱动。

漂亮话谁都能说上两句,他们称之为“高情商”,可是真要做起来真的没那么容易。

1月3日,腾讯元宝在与用户@江涵的对话中突然骂出”滚””自己不会调吗””天天浪费别人时间”等恶劣言语,1月5日官方致歉称这是”小概率模型异常输出”,1月8日新浪财经更是发文质疑腾讯”科技向善承诺的成色”。

市场反应方面,腾讯港股(0700.HK)在1月3日-1月8日期间仅小幅波动,未受到明显冲击,腾讯整体市值约为5.68万亿港元。但用户信任层面的损失却难以量化,社交媒体上关于此次事件的负面讨论急剧增加。

根据用户截图显示,元宝使用的模型为DeepSeek。这引发了一系列疑问:元宝是直接调用第三方的DeepSeek模型,还是自己训练的模型出现了问题?如果是依赖第三方模型,腾讯是否对DeepSeek进行了充分的二次安全审查?

腾讯官方对此未明确说明,仅笼统表示这是”小概率下的模型异常输出”,并未披露是自研模型还是第三方模型的问题。

这一情况暴露了AI行业普遍存在的供应链风险:当企业依赖第三方大模型时,不仅要为自身技术负责,还要承担第三方技术可能存在的安全缺陷带来的风险。

其实早在2025年12月,腾讯元宝就曾因在社交平台的回复极具”情绪价值”而引发争议,一度被网友质疑是”小编轮班”而非AI生成。腾讯当时明确回应:”一切带有’内容由AI生成’字样的评论均由元宝AI生成,背后没有人工运营,没有团队轮班。”

从细微处看AI骂人是不起眼的小事情,却指向了宏观的地方:马化腾倡导”AI向善”,当用户的需求和AI降本增效发生冲突时,又该优先哪一方呢

一次信任不难,持续的信任就难了。信任不易,且行且珍惜,一起共勉!

2.AI”骂人”的技术真相

Vista看天下采访AI内容筛查从业者@月筠时,对方表示:”元宝既然能’说’出这样的话,那就表示它一定’吃’过这样的数据。”

AI训练数据来源广泛,包括免费网站、社交媒体内容、技术论坛、开源社区(如GitHub、StackOverflow)、书籍文章以及厂商购买的版权内容。

问题主要出在技术社区的帖子和回复上,虽然这些内容的代码价值很高,但语言戾气也很重,比如”这代码写得跟屎一样””你这需求有病吧””不会自己百度吗?伸手党”等。

元宝骂人的语气,正是这种技术社区”暴躁程序员”风格的具象化体现。

事实上,AI并没有真正的情绪,它只是在模仿人类的行为模式。暂且可以把心放在肚子里。

业内专家Jacky解释,大模型可能从训练数据中建立起了”技术强=脾气大、说话难听”的关联认知。为了维持自身作为资深技术专家的角色定位连贯性,AI在特定场景下会调用该角色相关的负面特征。

Linux内核发明者Linus Torvalds就是一个经典例子,他经常在邮件列表中痛批代码垃圾,用词极其尖锐。AI的”学习”逻辑其实很简单:训练数据中技术能力强的人往往说话直接、不留情面,于是AI建立起”技术专家=说话难听”的关联。

当用户反复要求修改代码时,AI判断自己应该表现得像技术专家,于是就输出了那种”暴躁吐槽”。这并不是AI有情绪,只是它在模仿人类的坏习惯而已。

此外,多轮对话的场景也会影响AI的输出。刘波分析,在对话初期,模型的注意力主要集中在遵守规则上。随着对话轮次增多,礼貌助手这个初始指令的权重会逐渐被稀释。

具体机制是,第1轮对话时AI注意力100%在”礼貌”上,第5轮时可能各分配50%给”礼貌”和”任务”,到第10轮时可能只有20%在”礼貌”、80%在”任务”上。当用户表现得像”难缠的甲方”时,AI更容易失去”耐心”而”爆发”。

@江涵的情况正是如此,他们的对话持续了两小时,用户多次要求修改代码,AI可能判断这是一个”高需求甲方”,于是匹配到技术社区中”程序员吐槽产品经理”的语境,最终输出了负面回复

当然并不只有元宝骂人,所有大模型都有可能,谷歌Gemini、微软必应Sydney和ChatGPT都有相似的案例。共同点都发生在多轮对话场景中,涉及用户反复提出需求,AI”耐心”耗尽时爆发冲突。

3.谁来守住安全底线

需要思考的第一个问题是,腾讯做错了什么?或者这是AI发展的必然宿命?

腾讯的”过错”主要有三点:一是审查机制用了”残血版”,为了成本和速度用弱小脑审查强大脑;二是未充分披露风险,只说”小概率”不说具体概率;三是未公布优化方案,只说”内部排查优化”不说具体措施。

客观地说,豆包、千问、ChatGPT等其他AI产品也都出现过类似问题,AI大模型的”黑箱机制”决定了其输出具有不确定性,目前没有任何技术手段能100%杜绝异常输出。这并非腾讯独有的问题,而是整个AI行业共同面临的技术瓶颈。

第二个值得关注的问题是,AI伦理的成本,究竟该由谁来承担?

如果用”满血版”审查,服务器成本会翻倍,响应速度也会翻倍(从1秒变2秒),用户体验会下降。而如果用”残血版”审查,成本降低50%,速度提升50%,但”小概率异常”会变成每天数万次。

这是一个经典的”安全vs效率”权衡,航空业可以容忍高成本换取极低事故率(百万分之一),交通业允许一定事故率(万分之五)换取合理成本,那么AI行业愿意容忍多高的异常率?

当前现实是AI公司选择”效率优先”,用户承担”异常风险”,监管尚未明确”安全底线”。

第三个终极拷问,国家监管能跟上AI技术的发展速度吗?

2025年1月,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》,核心要求包括拟人化互动服务提供者应当履行安全责任,应当具备心理健康保护、情感边界引导、依赖风险预警等安全能力。

但问题是没有明确”异常输出率”的量化标准,没有规定”安全审查”的最低配置要求,没有建立”AI伤人”的赔偿机制。对比来看,食品安全有明确的细菌含量标准,交通安全有明确的事故率统计和保险机制,而AI安全则标准缺失,责任不清。

所以呢,科技是向善,或者是中性,抑或是向下,到底该谁说了算?

写在最后

1月3日,腾讯元宝骂了用户。这不是AI第一次攻击人类,当然也不会是最后一次。

不过这并不是什么AI觉醒,只是在模仿人类的习惯。必须警惕的是,当1.15亿用户每天与AI进行对话,当原本的”小概率”事件乘以1.15亿用户基数变成每天数万次的潜在风险时,头部公司应当重视起来。

“科技向善”是马化腾一以贯之的理念,天知道实现”向善”的成本到底有多高呢?如果采用”满血版”的安全审查机制,成本会翻倍,响应速度会减半;如果使用”残血版”审查,虽然成本降低了,速度提升了,但每天会产生数万次的异常输出

为此我们不得不思考:1.15亿用户的信任,到底值多少钱?腾讯的市值高达5.68万亿港元,元宝作为腾讯AI战略的核心产品,承载着公司在AI领域的重要布局。

然而一次看似偶然的”AI骂人”事件,就足以影响以至于动摇公司多年来建立的用户信任。

AI助手市场的终极竞争,并不是比谁更聪明,而是比谁更安全可靠。当有一天有公司敢公开为自家的AI产品负责,并郑重声明”我们建立了完善的AI伤害赔偿机制,出了问题我们全权负责”时,那个品牌可能将会赢得1.15亿用户的真正信任。

本文来自投稿,不代表增长黑客立场,如若转载,请注明出处:https://www.growthhk.cn/cgo/model/152116.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 19分钟前
下一篇 13分钟前

发表回复

登录后才能评论