实测 MiniMax M2.7：AI 狠起来，连自己都卷

AI 工作流的关键，从工具转向模型

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

张子豪
2026年3月20日
agent, Claude, Gemini, GPT-5.4, MaxClaw, MiniMax, MiniMax Agent, MiniMax M2.7, Openclaw, 行业新闻, 软件

龙虾爆火之后，全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题：驱动龙虾的那颗「大脑」，够不够聪明？

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型，清一色都是 Mini、Flash 款，官方潜台词几乎写在脸上：专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界，反而成了最不被讨论的话题。

一个真正适配龙虾的模型，除了 Token 要量大管饱还实惠，更多的是模型要足够聪明、动手能力和学习能力足够强。

最近，MiniMax 正式推出了全新的 MiniMax M2.7 模型，主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」，既能处理代码工作、常见的 Office 任务，还能主动学习构建稳定的 Agent 系统。

具体来说，它能做好的工作比大多数模型要更宽。对于写代码，M2.7 能真正理解一个系统在运行时发生了什么，做到了 SRE（网站可靠性工程）级别的系统推理，看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%，几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改，M2.7 在这块有明显提升，金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士，但是真正进入工作流，作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。这是 M2.7 专项打磨的能力，多角色场景下边界清晰，面对包含 50+ Skills 的复杂环境，依然能保持极高的指令遵循能力。

然后是这次更新的重点，它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型，不只是「辅助迭代」，是「深度参与迭代自己」。能够自我进化，M2.7 可以自主迭代 Agent Harness（智能体脚手架）来胜任大部分的工作流。

实战能力的提升，也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升，来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准，它测试的是大模型在 OpenClaw 真实业务场景下的表现，图中为任务成功率指标，MiniMax M2.7 排名第四，在 Claude Opus 4.6 之后｜https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里，都接入了 MiniMax M2.7 模型，以及 MiniMax 提供的 MaxClaw，然后把真实的开发过程中遇到的 Bug、枯燥的金融数据，还有大量的长流程任务统统交给它。

两天的测试下来，我们发现不仅软件要为了 AI 重做，就连 AI 模型本身，除了要理解人类的用意和产出人类满意的结果，模型更需要懂得 AI 的工作方式和工作流，还得学会自己优化自己。

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后，真正的「AI 时代工作流」应该是，AI 作为核心运转枢纽，去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前，我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型，还是说拿去跑个 benchmark 好看，实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据，然后按照比赛的要求，告诉 MiniMax M2.7 帮我实现对应的需求，即根据给定的数据，进行合适的数据处理和特征工程，为我生成一份可视化的分析报告。

整个数据集的内容相当庞大，有超过 3000 行的表格数据，整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后，我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析，需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型，最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务，MiniMax M2.7 充分利用了我已经安装的各种 Skills，它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取，接着开始编写 Python 代码，自动安装 Pandas 库（常用来处理表格数据），一步一步进行。

最后，MiniMax M2.7 也交出了一份完整的可视化方案，它同时生成了多张图片用来展示收益率分布，不同特征的重要性和类别排名，以及综合仪表盘。

而在可视化的网页里，它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统，所有的信息都可以直接动态查看。

这种大型的项目任务，MiniMax 能够顺利完成，我们日常工作中的办公和编程任务，就更不用说了。

我们先是在手机上操作龙虾，让它帮我总结我放在电脑上的文件，然后要求 MiniMax M2.7 根据这份文件，帮我写一个研究计划 Word 文件，再整理一份相关论文的 Excel 文档，最后是一个用来组会做汇报的 PPT 文档，直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势，也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中，ELO 得分达到了 1495，国产模型最高。

前段时间，AI 工作助手的可视化面板很火，把龙虾放到了真实的二次元风格办公室里，用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家，但是如果我想要修改二次元房间布局，可以怎么做呢？交给 MiniMax。

在 OpenClaw 的可视化本地界面里，我们直接发送「我想修改这个小房子的风格该怎么做？」，MiniMax M2.7 会自动阅读项目的代码，然后告诉我们哪些地方是可以修改的，如何修改。

由于我输入的要求是科技编辑部办公室的风格，然后它就帮我修改成了有星球大战的海报，还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key，所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天，我们还能根据这个风格设计一个编辑部大亨的游戏，谁做的任务多，谁的办公室就大，就能升级。

如果是 MiniMax 官方的 MaxClaw，是直接支持多模态的生成，可以一步到位生成视频、音频、图片等，不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全，但是它不允许我们像操作本地电脑一样，任意安装不同的库文件。

最后在将视频转成 GIF 时，MaxClaw 提醒我，它没有足够的权限将 ffmpeg（一个开源的多媒体处理库）安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7，它会自动调用海螺等视频、音频和图片生成模型，为我们生成多媒体文件，而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能，我们就能看到所有安装在 MaxClaw 的 Skills 详情，并且点击「问问 MaxClaw」，它会自动编辑一条消息「告诉我 frontend-dev 能做什么，并告诉我如何使用它」，引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill，MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库，我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」，龙虾会自动获取 Skill 文档完成安装。

▲下载链接：https://github.com/MiniMax-AI/skills

AI 狠起来，连自己都卷

除了在日常工作和办公领域上表现出的完整工作流，以及实际的交付能力，MiniMax M2.7 最让我们感到特别的，还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向，把构建系统的任务交给模型，它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考，harness 负责把这个「会想」的东西，变成一个能稳定干活的系统。这个系统像是运行层，负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限，MiniMax 让它去优化某个内部脚手架的软件工程表现。结果，M2.7 全程零人工干预，硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹，自己规划改动，改完脚手架代码再去跑评测，最后对比结果决定是保留还是回退。在不停歇自我互搏中，它自己发现了最优解，最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证，MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题，M2.7 依靠内部的短时记忆文件和自反馈机制，每跑完一轮就给自己提优化建议。

24 小时内，它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌，得牌率 66.6%。

这个成绩，仅次于 Opus-4.6（75.7%）和 GPT-5.4（71.2%），与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份，仅用 1 人 4 天时间，零人工编码就搭出一套包含测试和代码审查的 Agent 系统时，AI 研发的齿轮，大概已经换上了自动挡。

在极其硬核的生产力之外，MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商，这让它在互动角色扮演（Roleplay）上，比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom，一个万物皆可互动的 Web GUI 空间，可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」，这件事比写好代码更重要

体验下来，MiniMax M2.7 真正让我们在意的，不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率，也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事：让 AI 真正理解工作流，并且参与到工作流的演化里。

过去，软件是人写的、人用的。现在，AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下，自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮，某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」，我想很快就不再是一个问题——因为决定这一切的，不再是我们。

而是那个，开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

张子豪

文章: 94

用 AI 的工作流当人类的助手

AI 狠起来，连自己都卷

AI 开始学会「自己工作」，这件事比写好代码更重要

张子豪

相关文章

我一点也不想要 OpenAI 手机｜AI 器物志

广州：强化智能算力布局，支持以市场为主导的智能算力基础设施建设

用友网络：预计2025年净利润亏损13亿元-13.9亿元