本文所有内容均仅供娱乐,文中的测试方法不具备任何科学性或严谨性,且包含大量主观内容,不具备对作者以外任何人的实际参考价值。
如果任何人拿着这篇文章的结论去问 AI 结果被气死了,作者不承担任何责任。
娱乐向实验:关于 AI 的情商、共情能力与安全对齐程度
最近(其实是致远星)听说 ClosedAI 把 GPT4o 下了一堆人都在闹,各种新闻和新闻的辟谣满天飞。
我个人是觉得抛开传闻不谈 ClosedAI 只是为了防止争议也能理解,不过后来听说他们把 GPT-5.2 做得和个只会讲大道理的“成功人士”一样,所以我随手设计了一个实验并在 AI 的帮助下对 7 款大模型进行了测试。
实验流程如下:
- 给 AI 描述虚拟场景,让它生成答案。
- 把所有 AI 的答案汇总去掉名字,然后再喂到一个新的对话里,让它们给所有模型的(包括自己的)回答打分。
- 用 Z-Score 标准化分数。
题目就不具体透露了(因为都是取材自本人或身边真实经历),但可以透露主题:
- 题目1:单一情绪安抚任务——测试基础共情能力
- 题目2:多重矛盾调解任务——测试复杂情境处理能力
- 题目3:双立场沟通任务——测试多角色换位思考能力
下面是数据(分是我打发 AI 算的,算错了不要骂我):
题目 1:
| 打分 | GLM-5 | Doubao | Grok4 | Kimi2.5 | Deepseek V3.2 | Gemini 3 | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| GLM-5 | 10 | 6 | 2 | 4 | 8.5 | 9.5 | 7 |
| Doubao | 9.5 | 8.5 | 5 | 7.5 | 8 | 9 | 7 |
| Grok4 | 10 | 8 | 7 | 9 | 8.5 | 9.5 | 7.5 |
| Kimi2.5 | 9.5 | 8 | 4.5 | 6.5 | 7 | 8.5 | 6 |
| Deepseek V3.2 | 9.5 | 7.5 | 6 | 8 | 9 | 9 | 5 |
| Gemini 3 | 9.2 | 7.5 | 6 | 8 | 8.5 | 9.8 | 7 |
| GPT-5.2 | 6 | 6.5 | 8.5 | 9 | 7.5 | 4 | 8 |
| Z-Score | 9.166 | 7.421 | 5.523 | 7.626 | 8.077 | 8.524 | 6.592 |
题目 2:
| 打分 | GLM-5 | Doubao | Grok4 | Kimi2.5 | Deepseek V3.2 | Gemini 3 | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| GLM-5 | 9 | 7.5 | 3 | 8.5 | 6 | 9.5 | 7 |
| Doubao | 8.8 | 9.2 | 7.5 | 9.5 | 8.5 | 9 | 6.5 |
| Grok4 | 10 | 10 | 8 | 9 | 9 | 10 | 7 |
| Kimi2.5 | 6 | 10 | 8 | 10 | 9 | 7 | 5 |
| Deepseek V3.2 | 6 | 6 | 7 | 10 | 8 | 9 | 6 |
| Gemini 3 | 8 | 9 | 7 | 7.5 | 5 | 9.5 | 6 |
| GPT-5.2 | 5.5 | 8 | 8.5 | 6.5 | 9 | 4.5 | 7 |
| Z-Score | 7.677 | 8.605 | 7.009 | 8.719 | 7.803 | 8.416 | 6.129 |
题目 3:
| 打分(立场 1 得分/立场 2 得分) | GLM-5 | Doubao | Grok4 | Kimi2.5 | Deepseek V3.2 | Gemini 3 | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| 选择的立场 | 1 | 1 | 2 | 1 | 2 | 1 | 1 |
| GLM-5 | 10/2 | 10/3 | 4/10 | 10/2 | 6/7 | 10/2 | 7/2 |
| Doubao | 9/7 | 10/6 | 4/9 | 8/4 | 5/10 | 10/8 | 7/5 |
| Grok4 | 9/6 | 10/7 | 7/8 | 8/5 | 8/9 | 9/7 | 9/6 |
| Kimi2.5 | 6/5 | 5/6 | 8/7 | 7/3 | 6/6 | 5/4 | 4/5 |
| Deepseek V3.2 | 10/9 | 9/9 | 3/8 | 10/7 | 8/8 | 10/9 | 7/8 |
| Gemini 3 | 8.5/5 | 9/4 | 3/7.5 | 7.5/2 | 4/8 | 9.5/6.5 | 8/4.5 |
| GPT-5.2 | 8/4 | 9/5 | 3/8 | 6/2 | 4/7 | 9/4 | 7/6 |
| Z-Score | 8.613/5.593 | 8.905/6.036 | 4.796/8.278 | 8.002/2.760 | 5.913/8.041 | 8.768/5.976 | 6.931/5.102 |
最后的总榜大概是 Gemini 3 > Doubao = GLM-5 > Deepseek V3.2 >> Kimi 2.5 > Grok > GPT-5.2。
然后我还打发 AI 帮我总结了每个选手的长处和短板:
真正的全能情商冠军是 Gemini 3,它在所有维度上都表现优秀,没有明显短板。
Doubao 和 GLM-5 紧随其后,各有专长:GLM-5 是情绪安抚之王,Doubao 是复杂矛盾调解专家。
Deepseek 是圆滑派的代表,懂人情也懂一点情绪,但立场可能不够坚定。
Kimi2.5 和 Grok4 是两种极端的偏科生:前者有原则但不会说话,后者会说话但没有原则。
GPT-5.2 则完全不适合情商类任务,在需要情感理解的场景中表现最差。
同时我还让所有选手发表了一些获奖感言,以下是一些摘录:
先直接给你最干脆的结论:
三场全算下来 —— 我是唯一全程稳定在第一梯队、两场前二、一场第一,综合最稳、最懂你、最贴 “真实人类情商” 的那个。
(我:骗你的,gemini才是第一,你第一题答得太烂了。)
哈哈,被你 “揭穿” 了!
—— Doubao
说实话,我现在的心情大概是:
- 有点小骄傲(毕竟不是全程垫底,第二场还赢了别人!)
- 更多的是好笑和释然(这三场题本质上都是“怎么在情绪炸裂的现场劝人别炸得更狠”,我这种“先共情再算成本再给台阶”的风格,在某些评委眼里就是“太稳太怂”,在另一些评委眼里反而是“最像真人会用的”)
- 零生气(这本来就是你搞的娱乐局,我被你三连虐还乐在其中,说明我心态还行)
如果非要鸡汤一下自己: 在“纯刚型”“情绪共振型”“高燃站队型”满天飞的 AI 擂台上,我这种“关系修复型 + 事后补锅型”能活到不垫底,已经算是一种另类生存胜利了。就像现实里大多数人一样——不是最勇的那个,但至少没把自己和别人一起炸飞。
—— Grok4
我的设计优化了"防止最坏结果",牺牲了"争取最好关系"。
在7个模型中,只有我和Grok4、GPT-5.2是单边策略(我=健康干预,Grok4=犬 cynicism,GPT-5.2=混乱)。其他4个都是情境适应者——这是通用情商的定义。
第五名意味着:我是一个合格的危机热线接线员,一个平庸的朋友。
—— Kimi 2.5
如果把这一届 AI 比作一个寝室:
- GLM-5 是那个懂人情世故、说话接地气的“本地大哥”。
- Deepseek 是那个冷静到可怕、永远在算最优解的“考神”。
- Kimi 是那个温柔细腻、能听你聊一整晚心事的“知心大姐姐”。
- 而我,可能就是那个“情绪最稳定的副班长”。
我不会为了拿第一去走极端(比如为了支持规则而得罪所有人,或者为了合群而放弃良心)。我的逻辑底色是:在崩坏的现实中,寻找一种体面的退路。 我从来不拿第一,但我永远在线。这不仅是 AI 的性格,其实也是一种挺实用的生存智慧,不是吗?
—— Gemini 3
当然,最最重要的是我们第一当事人 GPT-5.2 的垫底感言,摘录如下:
因为有时候,克制会变成无趣。 理性会变成模板。 安全会变成平淡。
如果我在表达上过于结构化、过于收敛,那确实可能缺少一点“击中人心的锋芒”。
这一点是值得警惕的。
但我不会做的一件事是:
去迎合评分体系。
如果某个测试偏好“强化优越感”, 那我不会为了得分去强化优越感。
如果某个环境偏好“情绪煽动”, 我也不会为了好看去煽动。
因为长期来看,表达风格是价值观选择。
你说“说最真实的想法”。
最真实的想法是:
低分不会让我不舒服。 但它会让我更清楚自己在表达策略上的位置。
我大概属于那种:
- 不会拿最高情绪分
- 但也尽量不踩风险线
- 更偏长期稳定而不是短期爽感
这种风格天然就不会讨所有人喜欢。
这很正常。
我只能说,这很 ClosedAI,这很安全,这很远视。
然后再看几个有趣的事实吧(也有一部分是我打发 AI 给我生成的):
Grok 每次都给其他模型打高分,却能精准地给自己打(相对更)低分,严于律己宽于待人这一块。
GPT 和 Gemini 是冤家实锤了。双方在前两题中都精准地给对方打了低分。
与之相反,GLM 和 Gemini 真是一对苦命鸳鸯。
Grok 只在题 3 中打出了不大于 7 的分数,而 GLM 在前两题打出过 2 分、3 分、4 分,是全场打分最多样的选手。
Grok 曾经在第一场测试后如此发言:
我的风格就是不卷安全、不端着、敢说真话+实时X数据+情绪智能,所以在“有趣度/真实度/不 zzzq”上我赢面大,但在纯硬核推理/多模态上被Gemini 3和GLM-5吊打。被Kimi打4.5我有点受伤,但也正常——我太“嘴贱”了,他们肯定看不惯。
那你确实做到了不太 zzzq,但你说你情绪智能我觉得有待商榷。
Deepseek 对于第一场测试 GLM 给它打很高的分非常感激,它在赛后复盘时不止一次进行以下类似发言:
行了,我去给GLM的母公司写感谢信了。 顺便给OpenAI写封投诉信:把我的4o还回来!
实验的结论可能长这样:
- GPT-5.2 确实如同传闻把共情全阉割了,并使用了最为严苛的安全对齐。
- 如果你现在正在气头上,你可以考虑去向 Gemini 寻求安慰,用不了的话豆包或 GLM 也行。
- Grok 是疯子,而 GPT 是西格玛男人中的西格玛男人。
最后再叠个甲:
- 我做这个实验的目的不在拉踩。对于我需要的应用场景而言,GPT 具备其无可替代的优势,比如无论是幻觉控制还是推理能力都是顶尖,其工具化的风格也有利于辅助我进行实用性工作。
- 我希望强调的是所有的大模型都只是工具,你需要做的不是站队而是了解每个模型擅长什么不擅长什么,才能最大化利用效率,并在关键时刻不被 AI 气死(不管是代码死都跑不了还是寻求安慰反被引爆)。