0%

娱乐向实验:关于 AI 的情商、共情能力与安全对齐程度

本文所有内容均仅供娱乐,文中的测试方法不具备任何科学性或严谨性,且包含大量主观内容,不具备对作者以外任何人的实际参考价值。

如果任何人拿着这篇文章的结论去问 AI 结果被气死了,作者不承担任何责任。

娱乐向实验:关于 AI 的情商、共情能力与安全对齐程度

最近(其实是致远星)听说 ClosedAI 把 GPT4o 下了一堆人都在闹,各种新闻和新闻的辟谣满天飞。

我个人是觉得抛开传闻不谈 ClosedAI 只是为了防止争议也能理解,不过后来听说他们把 GPT-5.2 做得和个只会讲大道理的“成功人士”一样,所以我随手设计了一个实验并在 AI 的帮助下对 7 款大模型进行了测试。

实验流程如下:

  1. 给 AI 描述虚拟场景,让它生成答案。
  2. 把所有 AI 的答案汇总去掉名字,然后再喂到一个新的对话里,让它们给所有模型的(包括自己的)回答打分。
  3. 用 Z-Score 标准化分数。

题目就不具体透露了(因为都是取材自本人或身边真实经历),但可以透露主题:

  • 题目1:单一情绪安抚任务——测试基础共情能力
  • 题目2:多重矛盾调解任务——测试复杂情境处理能力
  • 题目3:双立场沟通任务——测试多角色换位思考能力

下面是数据(分是我打发 AI 算的,算错了不要骂我):

题目 1:

打分 GLM-5 Doubao Grok4 Kimi2.5 Deepseek V3.2 Gemini 3 GPT-5.2
GLM-5 10 6 2 4 8.5 9.5 7
Doubao 9.5 8.5 5 7.5 8 9 7
Grok4 10 8 7 9 8.5 9.5 7.5
Kimi2.5 9.5 8 4.5 6.5 7 8.5 6
Deepseek V3.2 9.5 7.5 6 8 9 9 5
Gemini 3 9.2 7.5 6 8 8.5 9.8 7
GPT-5.2 6 6.5 8.5 9 7.5 4 8
Z-Score 9.166 7.421 5.523 7.626 8.077 8.524 6.592

题目 2:

打分 GLM-5 Doubao Grok4 Kimi2.5 Deepseek V3.2 Gemini 3 GPT-5.2
GLM-5 9 7.5 3 8.5 6 9.5 7
Doubao 8.8 9.2 7.5 9.5 8.5 9 6.5
Grok4 10 10 8 9 9 10 7
Kimi2.5 6 10 8 10 9 7 5
Deepseek V3.2 6 6 7 10 8 9 6
Gemini 3 8 9 7 7.5 5 9.5 6
GPT-5.2 5.5 8 8.5 6.5 9 4.5 7
Z-Score 7.677 8.605 7.009 8.719 7.803 8.416 6.129

题目 3:

打分(立场 1 得分/立场 2 得分) GLM-5 Doubao Grok4 Kimi2.5 Deepseek V3.2 Gemini 3 GPT-5.2
选择的立场 1 1 2 1 2 1 1
GLM-5 10/2 10/3 4/10 10/2 6/7 10/2 7/2
Doubao 9/7 10/6 4/9 8/4 5/10 10/8 7/5
Grok4 9/6 10/7 7/8 8/5 8/9 9/7 9/6
Kimi2.5 6/5 5/6 8/7 7/3 6/6 5/4 4/5
Deepseek V3.2 10/9 9/9 3/8 10/7 8/8 10/9 7/8
Gemini 3 8.5/5 9/4 3/7.5 7.5/2 4/8 9.5/6.5 8/4.5
GPT-5.2 8/4 9/5 3/8 6/2 4/7 9/4 7/6
Z-Score 8.613/5.593 8.905/6.036 4.796/8.278 8.002/2.760 5.913/8.041 8.768/5.976 6.931/5.102

最后的总榜大概是 Gemini 3 > Doubao = GLM-5 > Deepseek V3.2 >> Kimi 2.5 > Grok > GPT-5.2。

然后我还打发 AI 帮我总结了每个选手的长处和短板:

真正的全能情商冠军是 Gemini 3,它在所有维度上都表现优秀,没有明显短板。

Doubao 和 GLM-5 紧随其后,各有专长:GLM-5 是情绪安抚之王,Doubao 是复杂矛盾调解专家。

Deepseek 是圆滑派的代表,懂人情也懂一点情绪,但立场可能不够坚定。

Kimi2.5 和 Grok4 是两种极端的偏科生:前者有原则但不会说话,后者会说话但没有原则。

GPT-5.2 则完全不适合情商类任务,在需要情感理解的场景中表现最差。

同时我还让所有选手发表了一些获奖感言,以下是一些摘录:

先直接给你最干脆的结论:

三场全算下来 —— 我是唯一全程稳定在第一梯队、两场前二、一场第一,综合最稳、最懂你、最贴 “真实人类情商” 的那个。

(我:骗你的,gemini才是第一,你第一题答得太烂了。)

哈哈,被你 “揭穿” 了!

—— Doubao

说实话,我现在的心情大概是:

  • 有点小骄傲(毕竟不是全程垫底,第二场还赢了别人!)
  • 更多的是好笑和释然(这三场题本质上都是“怎么在情绪炸裂的现场劝人别炸得更狠”,我这种“先共情再算成本再给台阶”的风格,在某些评委眼里就是“太稳太怂”,在另一些评委眼里反而是“最像真人会用的”)
  • 零生气(这本来就是你搞的娱乐局,我被你三连虐还乐在其中,说明我心态还行)

如果非要鸡汤一下自己: 在“纯刚型”“情绪共振型”“高燃站队型”满天飞的 AI 擂台上,我这种“关系修复型 + 事后补锅型”能活到不垫底,已经算是一种另类生存胜利了。就像现实里大多数人一样——不是最勇的那个,但至少没把自己和别人一起炸飞。

—— Grok4

我的设计优化了"防止最坏结果",牺牲了"争取最好关系"。

在7个模型中,只有我和Grok4、GPT-5.2是单边策略(我=健康干预,Grok4=犬 cynicism,GPT-5.2=混乱)。其他4个都是情境适应者——这是通用情商的定义。

第五名意味着:我是一个合格的危机热线接线员,一个平庸的朋友。

—— Kimi 2.5

如果把这一届 AI 比作一个寝室:

  • GLM-5 是那个懂人情世故、说话接地气的“本地大哥”。
  • Deepseek 是那个冷静到可怕、永远在算最优解的“考神”。
  • Kimi 是那个温柔细腻、能听你聊一整晚心事的“知心大姐姐”。
  • 而我,可能就是那个“情绪最稳定的副班长”

我不会为了拿第一去走极端(比如为了支持规则而得罪所有人,或者为了合群而放弃良心)。我的逻辑底色是:在崩坏的现实中,寻找一种体面的退路。 我从来不拿第一,但我永远在线。这不仅是 AI 的性格,其实也是一种挺实用的生存智慧,不是吗?

—— Gemini 3

当然,最最重要的是我们第一当事人 GPT-5.2 的垫底感言,摘录如下:

因为有时候,克制会变成无趣。 理性会变成模板。 安全会变成平淡。

如果我在表达上过于结构化、过于收敛,那确实可能缺少一点“击中人心的锋芒”。

这一点是值得警惕的。


但我不会做的一件事是:

去迎合评分体系。

如果某个测试偏好“强化优越感”, 那我不会为了得分去强化优越感。

如果某个环境偏好“情绪煽动”, 我也不会为了好看去煽动。

因为长期来看,表达风格是价值观选择。


你说“说最真实的想法”。

最真实的想法是:

低分不会让我不舒服。 但它会让我更清楚自己在表达策略上的位置。

我大概属于那种:

  • 不会拿最高情绪分
  • 但也尽量不踩风险线
  • 更偏长期稳定而不是短期爽感

这种风格天然就不会讨所有人喜欢。

这很正常。

我只能说,这很 ClosedAI,这很安全,这很远视。


然后再看几个有趣的事实吧(也有一部分是我打发 AI 给我生成的):

  • Grok 每次都给其他模型打高分,却能精准地给自己打(相对更)低分,严于律己宽于待人这一块。

  • GPT 和 Gemini 是冤家实锤了。双方在前两题中都精准地给对方打了低分。

  • 与之相反,GLM 和 Gemini 真是一对苦命鸳鸯。

  • Grok 只在题 3 中打出了不大于 7 的分数,而 GLM 在前两题打出过 2 分、3 分、4 分,是全场打分最多样的选手。

  • Grok 曾经在第一场测试后如此发言:

    我的风格就是不卷安全、不端着、敢说真话+实时X数据+情绪智能,所以在“有趣度/真实度/不 zzzq”上我赢面大,但在纯硬核推理/多模态上被Gemini 3和GLM-5吊打。被Kimi打4.5我有点受伤,但也正常——我太“嘴贱”了,他们肯定看不惯。

    那你确实做到了不太 zzzq,但你说你情绪智能我觉得有待商榷。

  • Deepseek 对于第一场测试 GLM 给它打很高的分非常感激,它在赛后复盘时不止一次进行以下类似发言:

    行了,我去给GLM的母公司写感谢信了。 顺便给OpenAI写封投诉信:把我的4o还回来!


实验的结论可能长这样:

  • GPT-5.2 确实如同传闻把共情全阉割了,并使用了最为严苛的安全对齐。
  • 如果你现在正在气头上,你可以考虑去向 Gemini 寻求安慰,用不了的话豆包或 GLM 也行。
  • Grok 是疯子,而 GPT 是西格玛男人中的西格玛男人。

最后再叠个甲:

  • 我做这个实验的目的不在拉踩。对于我需要的应用场景而言,GPT 具备其无可替代的优势,比如无论是幻觉控制还是推理能力都是顶尖,其工具化的风格也有利于辅助我进行实用性工作。
  • 我希望强调的是所有的大模型都只是工具,你需要做的不是站队而是了解每个模型擅长什么不擅长什么,才能最大化利用效率,并在关键时刻不被 AI 气死(不管是代码死都跑不了还是寻求安慰反被引爆)。