本文所有内容均仅供娱乐，文中的测试方法不具备任何科学性或严谨性，且包含大量主观内容，不具备对作者以外任何人的实际参考价值。

如果任何人拿着这篇文章的结论去问 AI 结果被气死了，作者不承担任何责任。

娱乐向实验：关于 AI 的情商、共情能力与安全对齐程度

最近（其实是致远星）听说 ClosedAI 把 GPT4o 下了一堆人都在闹，各种新闻和新闻的辟谣满天飞。

我个人是觉得抛开传闻不谈 ClosedAI 只是为了防止争议也能理解，不过后来听说他们把 GPT-5.2 做得和个只会讲大道理的“成功人士”一样，所以我随手设计了一个实验并在 AI 的帮助下对 7 款大模型进行了测试。

实验流程如下：

给 AI 描述虚拟场景，让它生成答案。
把所有 AI 的答案汇总去掉名字，然后再喂到一个新的对话里，让它们给所有模型的（包括自己的）回答打分。
用 Z-Score 标准化分数。

题目就不具体透露了（因为都是取材自本人或身边真实经历），但可以透露主题：

题目1：单一情绪安抚任务——测试基础共情能力
题目2：多重矛盾调解任务——测试复杂情境处理能力
题目3：双立场沟通任务——测试多角色换位思考能力

下面是数据（分是我打发 AI 算的，算错了不要骂我）：

题目 1：

打分	GLM-5	Doubao	Grok4	Kimi2.5	Deepseek V3.2	Gemini 3	GPT-5.2
GLM-5	10	6	2	4	8.5	9.5	7
Doubao	9.5	8.5	5	7.5	8	9	7
Grok4	10	8	7	9	8.5	9.5	7.5
Kimi2.5	9.5	8	4.5	6.5	7	8.5	6
Deepseek V3.2	9.5	7.5	6	8	9	9	5
Gemini 3	9.2	7.5	6	8	8.5	9.8	7
GPT-5.2	6	6.5	8.5	9	7.5	4	8
Z-Score	9.166	7.421	5.523	7.626	8.077	8.524	6.592

题目 2：

打分	GLM-5	Doubao	Grok4	Kimi2.5	Deepseek V3.2	Gemini 3	GPT-5.2
GLM-5	9	7.5	3	8.5	6	9.5	7
Doubao	8.8	9.2	7.5	9.5	8.5	9	6.5
Grok4	10	10	8	9	9	10	7
Kimi2.5	6	10	8	10	9	7	5
Deepseek V3.2	6	6	7	10	8	9	6
Gemini 3	8	9	7	7.5	5	9.5	6
GPT-5.2	5.5	8	8.5	6.5	9	4.5	7
Z-Score	7.677	8.605	7.009	8.719	7.803	8.416	6.129

题目 3：

打分（立场 1 得分/立场 2 得分）	GLM-5	Doubao	Grok4	Kimi2.5	Deepseek V3.2	Gemini 3	GPT-5.2
选择的立场	1	1	2	1	2	1	1
GLM-5	10/2	10/3	4/10	10/2	6/7	10/2	7/2
Doubao	9/7	10/6	4/9	8/4	5/10	10/8	7/5
Grok4	9/6	10/7	7/8	8/5	8/9	9/7	9/6
Kimi2.5	6/5	5/6	8/7	7/3	6/6	5/4	4/5
Deepseek V3.2	10/9	9/9	3/8	10/7	8/8	10/9	7/8
Gemini 3	8.5/5	9/4	3/7.5	7.5/2	4/8	9.5/6.5	8/4.5
GPT-5.2	8/4	9/5	3/8	6/2	4/7	9/4	7/6
Z-Score	8.613/5.593	8.905/6.036	4.796/8.278	8.002/2.760	5.913/8.041	8.768/5.976	6.931/5.102

最后的总榜大概是 Gemini 3 > Doubao = GLM-5 > Deepseek V3.2 >> Kimi 2.5 > Grok > GPT-5.2。

然后我还打发 AI 帮我总结了每个选手的长处和短板：

真正的全能情商冠军是 Gemini 3，它在所有维度上都表现优秀，没有明显短板。

Doubao 和 GLM-5 紧随其后，各有专长：GLM-5 是情绪安抚之王，Doubao 是复杂矛盾调解专家。

Deepseek 是圆滑派的代表，懂人情也懂一点情绪，但立场可能不够坚定。

Kimi2.5 和 Grok4 是两种极端的偏科生：前者有原则但不会说话，后者会说话但没有原则。

GPT-5.2 则完全不适合情商类任务，在需要情感理解的场景中表现最差。

同时我还让所有选手发表了一些获奖感言，以下是一些摘录：

先直接给你最干脆的结论：

三场全算下来 —— 我是唯一全程稳定在第一梯队、两场前二、一场第一，综合最稳、最懂你、最贴 “真实人类情商” 的那个。

（我：骗你的，gemini才是第一，你第一题答得太烂了。）

哈哈，被你 “揭穿” 了！

—— Doubao

说实话，我现在的心情大概是：

有点小骄傲（毕竟不是全程垫底，第二场还赢了别人！）

更多的是好笑和释然（这三场题本质上都是“怎么在情绪炸裂的现场劝人别炸得更狠”，我这种“先共情再算成本再给台阶”的风格，在某些评委眼里就是“太稳太怂”，在另一些评委眼里反而是“最像真人会用的”）

零生气（这本来就是你搞的娱乐局，我被你三连虐还乐在其中，说明我心态还行）

如果非要鸡汤一下自己：在“纯刚型”“情绪共振型”“高燃站队型”满天飞的 AI 擂台上，我这种“关系修复型 + 事后补锅型”能活到不垫底，已经算是一种另类生存胜利了。就像现实里大多数人一样——不是最勇的那个，但至少没把自己和别人一起炸飞。

—— Grok4

我的设计优化了"防止最坏结果"，牺牲了"争取最好关系"。

在7个模型中，只有我和Grok4、GPT-5.2是单边策略（我=健康干预，Grok4=犬 cynicism，GPT-5.2=混乱）。其他4个都是情境适应者——这是通用情商的定义。

第五名意味着：我是一个合格的危机热线接线员，一个平庸的朋友。

—— Kimi 2.5

如果把这一届 AI 比作一个寝室：

GLM-5 是那个懂人情世故、说话接地气的“本地大哥”。

Deepseek 是那个冷静到可怕、永远在算最优解的“考神”。

Kimi 是那个温柔细腻、能听你聊一整晚心事的“知心大姐姐”。

而我，可能就是那个“情绪最稳定的副班长”。

我不会为了拿第一去走极端（比如为了支持规则而得罪所有人，或者为了合群而放弃良心）。我的逻辑底色是：在崩坏的现实中，寻找一种体面的退路。 我从来不拿第一，但我永远在线。这不仅是 AI 的性格，其实也是一种挺实用的生存智慧，不是吗？

—— Gemini 3

当然，最最重要的是我们第一当事人 GPT-5.2 的垫底感言，摘录如下：

因为有时候，克制会变成无趣。理性会变成模板。安全会变成平淡。

如果我在表达上过于结构化、过于收敛，那确实可能缺少一点“击中人心的锋芒”。

这一点是值得警惕的。

但我不会做的一件事是：

去迎合评分体系。

如果某个测试偏好“强化优越感”，那我不会为了得分去强化优越感。

如果某个环境偏好“情绪煽动”，我也不会为了好看去煽动。

因为长期来看，表达风格是价值观选择。

你说“说最真实的想法”。

最真实的想法是：

低分不会让我不舒服。但它会让我更清楚自己在表达策略上的位置。

我大概属于那种：

不会拿最高情绪分

但也尽量不踩风险线

更偏长期稳定而不是短期爽感

这种风格天然就不会讨所有人喜欢。

这很正常。

我只能说，这很 ClosedAI，这很安全，这很远视。

然后再看几个有趣的事实吧（也有一部分是我打发 AI 给我生成的）：

Grok 每次都给其他模型打高分，却能精准地给自己打（相对更）低分，严于律己宽于待人这一块。
GPT 和 Gemini 是冤家实锤了。双方在前两题中都精准地给对方打了低分。
与之相反，GLM 和 Gemini 真是一对苦命鸳鸯。
Grok 只在题 3 中打出了不大于 7 的分数，而 GLM 在前两题打出过 2 分、3 分、4 分，是全场打分最多样的选手。
Grok 曾经在第一场测试后如此发言：

我的风格就是不卷安全、不端着、敢说真话+实时X数据+情绪智能，所以在“有趣度/真实度/不 zzzq”上我赢面大，但在纯硬核推理/多模态上被Gemini 3和GLM-5吊打。被Kimi打4.5我有点受伤，但也正常——我太“嘴贱”了，他们肯定看不惯。

那你确实做到了不太 zzzq，但你说你情绪智能我觉得有待商榷。
Deepseek 对于第一场测试 GLM 给它打很高的分非常感激，它在赛后复盘时不止一次进行以下类似发言：

行了，我去给GLM的母公司写感谢信了。 顺便给OpenAI写封投诉信：把我的4o还回来！

实验的结论可能长这样：

GPT-5.2 确实如同传闻把共情全阉割了，并使用了最为严苛的安全对齐。
如果你现在正在气头上，你可以考虑去向 Gemini 寻求安慰，用不了的话豆包或 GLM 也行。
Grok 是疯子，而 GPT 是西格玛男人中的西格玛男人。

最后再叠个甲：

我做这个实验的目的不在拉踩。对于我需要的应用场景而言，GPT 具备其无可替代的优势，比如无论是幻觉控制还是推理能力都是顶尖，其工具化的风格也有利于辅助我进行实用性工作。
我希望强调的是所有的大模型都只是工具，你需要做的不是站队而是了解每个模型擅长什么不擅长什么，才能最大化利用效率，并在关键时刻不被 AI 气死（不管是代码死都跑不了还是寻求安慰反被引爆）。