全网猜了一周 DeepSeek V4，结果是小米干的

人车家全生态

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

上周，两个没有署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter，代号分别是「Hunter Alpha」和「Healer Alpha」。它们没有任何宣传，调用量却开始以一种不寻常的速度持续攀升。

其中，Hunter Alpha 更是多天登顶日榜，累计调用量突破 1T tokens。社区开始议论。最主流的猜测指向 DeepSeek，认为这是 DeepSeek V4 的内测版本。

OpenClaw 创始人 Peter Steinberger 也在 X 平台发文打听，进一步点燃了社区的猜测热情。

小米官方正式宣布，Hunter Alpha 和 Healer Alpha 均为小米 MiMo 大模型的早期内测版本。谜底揭晓的同时，小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。

巧合的是，罗福莉正是 DeepSeek 的前研究员，换句话说，来自 DeepSeek 的她，在小米做了让全网以为是 DeepSeek 的模型。

划重点，小米此次一口气发布三款模型，虽各有侧重，但共同指向同一个方向：让 AI 从「会对话」进化为「能完成任务」：

MiMo-V2-Pro 是旗舰文本基座，专为高强度 Agent 工作场景而生，主打推理、规划与工具调用。
MiMo-V2-Omni 是全模态 Agent 基座，原生融合文本、视觉与音频感知，打通从理解到执行的完整链路。
MiMo-V2-TTS 是语音合成大模型，为 Agent 赋予有温度、有情感的声音表达能力，构成全栈的最后一环。

MiMo-V2-Pro：量大管饱，定价只要竞品的五分之一

MiMo-V2-Pro 的总参数量突破 1T，激活参数为 42B，较前代 MiMo-V2-Flash 扩大约 3 倍。

参数量大幅增长，但推理效率并未因此下降，这得益于其创新的混合注意力架构（Hybrid Attention）。

该架构的混合比例从前代的 5:1 进一步提升至 7:1，轻量 MTP（Multi Token Prediction）层的引入也加快了实际生成速度。

同时，MiMo-V2-Pro 支持高达 1M 的超长上下文窗口，这在处理长程 Agent 任务时具有明显的结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 目前位列全球第八，国内第二。

基准测评之外，小米更强调「实际体感」。在 Coding Agent、通用 Agent 和 Tool Use 等维度，MiMo-V2-Pro 与 Claude Sonnet 4.6 处于同一梯队。

在小米内部工程师的深度评测中，MiMo-V2-Pro 的代码工程能力已接近 Claude Opus 4.6，拥有更出色的系统设计能力与更优雅的代码风格。

Hunter Alpha 匿名内测期间，调用量最高的几类应用多为编程专用工具，这一数据本身就是对模型能力最直接的市场验证。

在 OpenClaw 框架内，MiMo-V2-Pro 还展示了前端开发能力，能够一步生成设计精致、功能完备的网页，兼顾视觉质感与实际可用性。

定价层面，MiMo-V2-Pro 的 API 价格仅为同级别竞品的 1/5。256K 上下文以内，输入每百万 tokens 定价 1 美元，输出 3 美元；1M 上下文范围内，则为输入 2 美元，输出 6 美元。

这个定价策略的信号很明确：小米希望以价格优势快速推动 MiMo-V2-Pro 在开发者生态中的渗透。

为此，小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架团队，提供为期一周的限时免费接口支持，各框架的具体限免信息可关注 MiMo 官方与 MiMo 开放平台公告。

目前，MiMo-V2-Pro 已正式开放 API 服务，开发者可前往 https://platform.xiaomimimo.com 接入体验。官方模型体验页面 https://aistudio.xiaomimimo.com 同步上线了 MiMo Claw 功能，支持免费体验 MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni：能看、能听、还能自己砍价

如果说 MiMo-V2-Pro 是大脑，MiMo-V2-Omni 的野心则更大，它试图让这个大脑同时拥有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型，从底层架构开始就将文本、视觉与音频深度融合。

音频理解是 MiMo-V2-Omni 最具差异化的能力之一。它支持超过 10 小时的连续长音频理解，覆盖从环境声分类到多说话人分离的复杂场景，综合表现超越 Gemini 3 Pro。

图像理解方面，MiMo-V2-Omni 在多学科视觉推理与复杂图表分析上超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型水平。

视频理解方面，模型支持原生音视频联合输入，而非将音频和视频分开处理，在架构层面带来了真正的多模态理解优势。

在 Agent 实操场景中，MiMo-V2-Omni 展现出令人印象深刻的端到端任务完成能力。

结合 OpenClaw 框架，它可以像真人一样操控浏览器：在小红书翻阅评测内容，整理购买建议，切换到京东跨店比价，联系客服争取优惠，直到完成下单，遇到多标签页切换、实时交互要求，均能见招拆招。

还有一个更具代表性的演示：用户只需说一句「做一个介绍视频，配上科技感音效，发到 TikTok 上」，模型就能完成全流程，包括自动修复渲染中的字体报错，最终确认视频审核通过、成功上线。

在纯文本智能体任务上，MiMo-V2-Omni 同样保持了高度竞争力，在 OpenClaw 榜单 PinchBench 上的表现比肩 Gemini 3 Pro。

Healer Alpha 匿名内测期间，模型在 PinchBench 上拿下均分第一，社区用户好评与基准测评结果形成了难得的双向印证。

办公场景方面，MiMo-V2-Omni 已与金山办公展开合作，接入 WPS 灵犀，支持直接生成高质量的 Word 文档、结构化 Excel、排版规范的 PDF 与完整 PPT。MiMo Studio 的 Claw 模块也已全面打通金山 WebOffice 生态，原生支持 Word、Excel、PPT、PDF 四大主流格式，覆盖超 95% 的日常文档类型。

WPS 灵犀体验地址：lingxi.wps.cn

MiMo-V2-Omni 已开放 API，支持 256K 上下文长度，输入定价每百万 tokens 0.4 美元，输出 2 美元，同样可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS：会打哈欠、会醉酒、还能唱歌

一个完整的 Agent，不应该只会思考和行动，它还需要开口说话。MiMo-V2-TTS 正是为了填补这个缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多码本语音文本联合建模架构，经过上亿小时语音数据的大规模预训练。

「上亿小时」这个数据量级，意味着模型得以覆盖极为丰富的说话风格、口音与场景，这是泛化能力的基础。

多维度强化学习后训练阶段，模型围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配等多个维度持续优化。

得益于多层码本建模架构，强化学习阶段可以直接利用语音相关奖励信号对模型进行优化，而非依赖间接的文本侧反馈，这让多维奖励信号能够更有效地作用于生成过程。

MiMo-V2-TTS 支持从整体基调定调到句内局部情绪的多粒度控制，能在同一句话内完成语气转折与情感递变，这在同类产品中并不多见。

模型能够智能识别标点符号、语气词、强调标记等格式信号，并将其自动转化为自然的语音表达，全程无需用户手动标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等，同时具备角色扮演式风格演绎与高质量歌声合成能力，让同一个模型既能说、能演、也能唱。

官方表示，未来 MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合，让 Agent 不仅能看懂世界、理解世界，更能用富有表现力的声音去讲述这个世界。

AI，才是真正打通人车家全生态的那根线

三款模型集中发布，时间节点和产品组合都不是偶然。罗福莉在声明中坦言，从聊天范式到 Agent 范式的转变发生得太快，「连我们自己都难以置信」。

但小米 MiMo 团队其实早有布局。罗福莉披露，1T 基础模型在数月前就已开始训练，最初目标是提升长上下文推理效率。混合注意力架构、1M 超长上下文窗口、MTP 低延迟推理，这些架构决策并非追随潮流，而是在需要之前就构建好的结构性优势。

推动团队加速转向 Agent 方向，源于一个关键时刻。罗福莉第一次体验到复杂 Agent 框架时受到强烈冲击，随即对团队下达强硬指令：MiMo 团队中，明天对话次数少于 100 次的成员可以辞职。

这个有些极端的要求背后，是她对 Agent 范式的坚定判断。结果是，团队的想象力被彻底激发，研究速度随之大幅提升。

这种研发节奏，叠加上小米本就拥有的生态基础，让这次发布的意义超出了单纯的模型竞赛。

小米集团长期推进「人车家全生态」战略，通过澎湃 OS 将手机、汽车（SU7 系列）与智能家居设备全面打通。这套生态的物理层面早已互联，但此前缺少一个真正意义上能跨设备理解意图、自主规划并完成任务的智能中枢。

现在，MiMo-V2-Pro 负责推理规划，MiMo-V2-Omni 负责多模态感知与执行，MiMo-V2-TTS 负责语音表达，三者叠加，构成了驱动整个生态运转的完整 AI 能力栈。

miclaw（小米手机端 AI 智能体）已接入 MiMo 大模型，具备系统级执行能力与「人车家全生态」的深度集成，是这套能力栈落地的第一个具体形态。WPS 灵犀、小米浏览器相继接入，也在说明同一件事：MiMo 不只是一个对话产品，而是正在被嵌入进各类应用场景的基础能力层。

多年来，各大科技公司都在描述「AI 将打通一切」的愿景，而带着 Agent 基因的 MiMo-V2 系列模型和深谙生态打法的小米，显然已经做好了准备。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

莫崇宇

文章: 70

MiMo-V2-Pro：量大管饱，定价只要竞品的五分之一

MiMo-V2-Omni：能看、能听、还能自己砍价

MiMo-V2-TTS：会打哈欠、会醉酒、还能唱歌

AI，才是真正打通人车家全生态的那根线

莫崇宇

相关文章

中信建投：存储涨价已传递至消费末端

天力锂能：股东安徽高新投新材料产业基金拟减持不超3%股份

微软或将与Kimi进行Agent级合作 实现Office产品自动化

微软或将与Kimi进行Agent级合作实现Office产品自动化