如今Agent能够很好地遵循指令解决问题,但如何能从工具变成抓住用户心智的伙伴?
除了记忆系统外,风格审美与情感共鸣,这些隐形因素决定了Agent的品味上限。
这就需要让模型从简单执行指令,走向对上下文细微差别和用户情感心理的深度理解。
从逻辑走向感性,虽然难以量化,但对人类体验至关重要。
本文以内容创作和角色扮演两个场景为例,结合MiMo和MiniMax M2-her在人文方向的评测一起学习探讨。
一、内容创作场景
在内容创作领域,提升Agent的风格审美与情感共鸣能力,关键在于能够根据不同体裁在逻辑框架与感性表达之间寻找平衡。
以内容创作平台为例,Agent不仅需要能够自动识别平台和文体并动态调整创作重心,而且还需要在遵从创作者风格基础上增加思辨深度,因为情感共鸣往往来源于启发受众的深度思考。
比如爆款文章的流量密码往往是因为能切中社会的群体心理,需要Agent具备社会学观察视角的批判性思维,能够从不同的立场读懂人类行为背后的多层社会意义。
所以要提升内容创作场景的输出效果,不仅要考虑逻辑框架,还要增加人文社科情感优化。
我的解决方案是构建以Agent-as-a-judge为核心引擎的「内容生成-效果评审-信号捕捉-自动优化」的闭环飞轮,实现无需人工干预的持续迭代提升。
重点看下如何将原本主观、难以量化的“审美与情感体感”,转化为可执行的评估标准。
MiMo有针对人文社科的专项评测,包含社会观察、哲学对话、通用文学创作、剧本创作、艺术感知等,评测参考如下:
社会观察
MiMo的社会观察的专项评测,重点考察大语言模型对社会现象的批判思考能力。由于社会观察类问题缺乏标准答案,评测采取的是相对赋分制:
从评测结果来看,MiMo能够以列清单或举正反方观点回答(这也是很多初始AI套壳产品的输出形式),但在概念界定、问题把握,以及对自身立足点反思批判等维度尚且不足。
对LLM的批判性思维能力考察,是看其能否理解社会行为中的多元意义,但输出内容要避免像严肃冷漠的学者那样生硬晦涩,也不能像演说家那样只会进行单纯的情感宣泄。
在有理论严谨性的基础上,需要进一步通过思辨深度引导非专业用户产生深度的认知与情感共鸣。
哲学对话
MiMo对哲学对话的专项评测,以非专业视角下的哲学探究为基础构建任务。
议题横跨 AI 哲学、伦理学、形而上学及认识论等领域,既涵盖 AI 伦理与机器认知的前沿探讨,亦延伸至自由意志、个人同一性、怀疑论及虚构角色本体论等经典命题。
评测维度拆分为内容可读性、事实准确性、要点覆盖度与观点深刻性四项。
如图所示,不同模型呈现出不同“思维性格”,MiMo是循循善诱的哲学普及者,模型1是不苟言笑的高冷学究,模型2是滔滔不绝的演说家。
通用文学创作
此外,针对不同体裁的创作,MiMo对通用文学创作的专项评测,关注的能力核心维度包含:想象力与独创性、逻辑性与结构性、共情与情感刻画、语言驾驭能力、知识运用能力、指令遵循能力等。
针对不同文学体裁,MiMo与对比模型的能力分布随题材变化而变化。
比如科幻小说需要想象力和逻辑性,对比模型1在这方面尚且不足,而MiMo在近体诗词对格律规则的遵循不够稳定,未能可靠运用相关知识。
剧本创作
MiMo还做了针对剧本创作细分领域的评测,特别关注模型能否在短故事创意与长文本工程的大体量跨度中,始终保持设定的连贯性与共情的合理性,以及在面对特定风格指令时的落地转化精度。
- 创意独创性:不仅甄别创造性生成,更考量创意是否紧密赋能于故事本体,要求其在极端情境下保持对人性幽微的洞察;
- 文本丰沛度:旨在量化叙事颗粒度,重点考察模型能否识破题目潜藏目的,通过精准的文风匹配与金句输出来升华整体氛围;
- 指令把控力:深度考察逻辑遵循与风格迁移的同时,还增加了物理规律与历史事实考察,要求模型在面对复杂逻辑陷阱时,既能灵活应变,又能杜绝常识性谬误与时空违和感。
艺术感知
针对图片类视觉内容创作,在艺术感知上,MiMo构建了以审美偏好、艺术知识讨论、绘画设计创作三个核心板块的测评任务,重点测试模型的创意生成与视觉描述能力,此外,融合了跨文化艺术史论与拟人化审美交流。
**在艺术创作中,要实现了逻辑性与前卫创新性有机融合,**MiMo以系统性思维为骨架,辅以一定视觉转化能力,虽然在深度上仍有挖掘空间,但成功避免了方案的平庸化或不可执行性。
二、角色扮演场景
再看角色扮演场景,无论是AI陪伴还是社交群聊NPC,都存在用户因为新鲜感一玩了之的问题。
如何能在有限轮次内逐步沉淀稳定的互动链接,实现高留存、高情感价值?
以群聊多NPC场景为例,我们从智能体架构、情感度量评测以及系统自动演进三个维度来看解决方案:
1. 多智能体编排
群聊相比单人互动是指数级放大复杂度,不仅要考虑单角色的独立演进,还要考虑多个Agent之间的人物关系、状态共享、情节张力等...
首先,让多智能体构建复杂的社交网络,但要注意避免子智能体间的错误级联,可以采用**集中协调的多智能体架构:**由一个中枢协调规划智能体来充当“导演”角色,负责审查对话状态,评估剧情是否停滞。
中枢规划智能体结合动态状态管理机制,将群聊角色世界观中的实体、关系、因果链条结构化,这样规划智能体清晰了解数十/百轮对话的上下文变化,不仅能够知道什么事情发生过、预测未来可能发生什么,并在恰当的时机通过引入过往事件或新冲突来推进群聊剧情方向。
还可以引入动态的轮次分配机制,打破传统的强制轮流发言模式,允许Agent或用户连续多轮发言,这更贴近真实对话的情感宣泄与节奏(如NPC的独白补充或用户的连续追问),使互动像生命一样具有张力和呼吸感。
此外,对于一些复杂的剧情场景,还可以利用旁白系统对时空或事件进行强制引导,能有效维持世界观的连贯性。
2. 情感度量评测
角色扮演场景不同于智能客服场景的标准答案,用户体验也不是点赞/点踩的二元判断,而是在多轮对话中的倾诉交互、情绪承接、惊喜呈现...
情感度量评测可以从如下两个方向考量:
(1)平衡理性与感性的内容质量
可以参考上面MiMo的哲学思考与社会洞察的评测,在涉及深度沟通(如哲学思辨或情感倾诉)时,AI应兼顾“通俗易读性”与“理论严谨度”。
评估显示,最能引导用户产生深层共鸣的AI,既不是严肃冷漠的学者,也不是只会宣泄情绪的演说家,而是具备耐心引导性的普及者,能在专业客观的分析中保留情感连接的温度,这是创造高密度“情绪峰值时刻”的关键。
(2)基于“情境重演”的对齐评估
情节演绎的效果没有标准答案,但可以通过 Model-on-Model 的自博弈机制进行“情境重演”,重点监测并惩罚那些破坏沉浸感的行为,如“缺乏铺垫的角色崩坏(OOC)”、“替用户发言”、“无视用户意图”或“过度拒绝”。
这里参考MiniMax的角色扮演模型对Role Play的能力定义:智能体在特定 {World} × {Stories} 坐标下,针对 {User Preferences} 的演绎能力。
- **世界(Worlds):**世界应该是千人千面的,覆盖从热门到长尾、从主流到小众。
- **故事(Stories):**故事应该是延续和有生命力的,在适当时刻掀起情节波澜,引发深思。
- 用户偏好(User Preferences):能够读懂用户交互行为下的偏好,理解用户的情绪与节奏。
要保障多轮次对话质量,从基础表达层面(语法、句式、词语使用、人称指代等)到演绎层面(世界知识、上下文衔接、剧情推进、世界观一致性、场景氛围等)都达到优质标准。
参考minmax-m2-her的评测维度如下:
3. Agent自动化演进
应对用户新鲜感的衰退,必须具备极高的迭代速度,实现从反馈到进化的自动化闭环。
对于用户的偏好感知,可以从用户交互反馈中学习,捕捉显示信号(重新生成、点赞/点踩)和隐式信号(会话时长、对话轮次)。
通常原始信号噪声很大,需要先对信号进行筛选,采用联合的分层采样、异常值过滤、因果调整与质量门槛过滤,移除系统性偏差。
通过因果分析推断什么因素对用户相关指标提升是有用的,然后基于去噪后的数据通过RLHF对模型进行训练,在动态人群分布下不断提升模型的情景化偏好对齐效果。
参考MinMax采用的是在线偏好学习(OPL,Online Preference Learning),让 AI 模型在持续交互、实时收集人类偏好反馈的过程中不断自我优化,而非依赖固定的离线数据集。
通过收集这些去噪后的真实交互反馈,采用Online RLHF对模型进行训练,就可以让Agent学会敏锐地捕捉那些未被言明的期待,从而在细微的交互中贴近用户的心流与习惯。
总之,要提升Agent的风格审美与情感共鸣,需要兼顾理性分析与情感温度。
以逻辑为基础框架,辅以人文社科维度的评估框架,通过考察文本颗粒度、想象力、潜台词理解以及启发非专业用户深度思考的能力等,来提升Agent的整体审美与情感心智。
此外,想要真正打动用户心智,就要根据用户交互捕捉用户偏好的隐形信号,采用OPL实现自我迭代。
参考文献:
《Xiaomi MiMo, Explore and Love》
《MiniMax-M2-her 技术深度解析》