全网猜了一周 DeepSeek V4,结果是小米干的

人车家全生态

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

上周,两个没有署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别是「Hunter Alpha」和「Healer Alpha」。它们没有任何宣传,调用量却开始以一种不寻常的速度持续攀升。

其中,Hunter Alpha 更是多天登顶日榜,累计调用量突破 1T tokens。社区开始议论。最主流的猜测指向 DeepSeek,认为这是 DeepSeek V4 的内测版本。

OpenClaw 创始人 Peter Steinberger 也在 X 平台发文打听,进一步点燃了社区的猜测热情。

小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为小米 MiMo 大模型的早期内测版本。谜底揭晓的同时,小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。

巧合的是,罗福莉正是 DeepSeek 的前研究员,换句话说,来自 DeepSeek 的她,在小米做了让全网以为是 DeepSeek 的模型。

划重点,小米此次一口气发布三款模型,虽各有侧重,但共同指向同一个方向:让 AI 从「会对话」进化为「能完成任务」:

  • MiMo-V2-Pro 是旗舰文本基座,专为高强度 Agent 工作场景而生,主打推理、规划与工具调用。
  • MiMo-V2-Omni 是全模态 Agent 基座,原生融合文本、视觉与音频感知,打通从理解到执行的完整链路。
  • MiMo-V2-TTS 是语音合成大模型,为 Agent 赋予有温度、有情感的声音表达能力,构成全栈的最后一环。

MiMo-V2-Pro:量大管饱,定价只要竞品的五分之一

MiMo-V2-Pro 的总参数量突破 1T,激活参数为 42B,较前代 MiMo-V2-Flash 扩大约 3 倍。

参数量大幅增长,但推理效率并未因此下降,这得益于其创新的混合注意力架构(Hybrid Attention)。

该架构的混合比例从前代的 5:1 进一步提升至 7:1,轻量 MTP(Multi Token Prediction)层的引入也加快了实际生成速度。

同时,MiMo-V2-Pro 支持高达 1M 的超长上下文窗口,这在处理长程 Agent 任务时具有明显的结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 目前位列全球第八,国内第二。

基准测评之外,小米更强调「实际体感」。在 Coding Agent、通用 Agent 和 Tool Use 等维度,MiMo-V2-Pro 与 Claude Sonnet 4.6 处于同一梯队。

在小米内部工程师的深度评测中,MiMo-V2-Pro 的代码工程能力已接近 Claude Opus 4.6,拥有更出色的系统设计能力与更优雅的代码风格。

Hunter Alpha 匿名内测期间,调用量最高的几类应用多为编程专用工具,这一数据本身就是对模型能力最直接的市场验证。

在 OpenClaw 框架内,MiMo-V2-Pro 还展示了前端开发能力,能够一步生成设计精致、功能完备的网页,兼顾视觉质感与实际可用性。

定价层面,MiMo-V2-Pro 的 API 价格仅为同级别竞品的 1/5。256K 上下文以内,输入每百万 tokens 定价 1 美元,输出 3 美元;1M 上下文范围内,则为输入 2 美元,输出 6 美元。

这个定价策略的信号很明确:小米希望以价格优势快速推动 MiMo-V2-Pro 在开发者生态中的渗透。

为此,小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架团队,提供为期一周的限时免费接口支持,各框架的具体限免信息可关注 MiMo 官方与 MiMo 开放平台公告。

目前,MiMo-V2-Pro 已正式开放 API 服务,开发者可前往 https://platform.xiaomimimo.com 接入体验。官方模型体验页面 https://aistudio.xiaomimimo.com 同步上线了 MiMo Claw 功能,支持免费体验 MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni:能看、能听、还能自己砍价

如果说 MiMo-V2-Pro 是大脑,MiMo-V2-Omni 的野心则更大,它试图让这个大脑同时拥有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型,从底层架构开始就将文本、视觉与音频深度融合。

音频理解是 MiMo-V2-Omni 最具差异化的能力之一。它支持超过 10 小时的连续长音频理解,覆盖从环境声分类到多说话人分离的复杂场景,综合表现超越 Gemini 3 Pro。

图像理解方面,MiMo-V2-Omni 在多学科视觉推理与复杂图表分析上超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平。

视频理解方面,模型支持原生音视频联合输入,而非将音频和视频分开处理,在架构层面带来了真正的多模态理解优势。

在 Agent 实操场景中,MiMo-V2-Omni 展现出令人印象深刻的端到端任务完成能力。

结合 OpenClaw 框架,它可以像真人一样操控浏览器:在小红书翻阅评测内容,整理购买建议,切换到京东跨店比价,联系客服争取优惠,直到完成下单,遇到多标签页切换、实时交互要求,均能见招拆招。

还有一个更具代表性的演示:用户只需说一句「做一个介绍视频,配上科技感音效,发到 TikTok 上」,模型就能完成全流程,包括自动修复渲染中的字体报错,最终确认视频审核通过、成功上线。

在纯文本智能体任务上,MiMo-V2-Omni 同样保持了高度竞争力,在 OpenClaw 榜单 PinchBench 上的表现比肩 Gemini 3 Pro。

Healer Alpha 匿名内测期间,模型在 PinchBench 上拿下均分第一,社区用户好评与基准测评结果形成了难得的双向印证。

办公场景方面,MiMo-V2-Omni 已与金山办公展开合作,接入 WPS 灵犀,支持直接生成高质量的 Word 文档、结构化 Excel、排版规范的 PDF 与完整 PPT。MiMo Studio 的 Claw 模块也已全面打通金山 WebOffice 生态,原生支持 Word、Excel、PPT、PDF 四大主流格式,覆盖超 95% 的日常文档类型。

WPS 灵犀体验地址:lingxi.wps.cn

MiMo-V2-Omni 已开放 API,支持 256K 上下文长度,输入定价每百万 tokens 0.4 美元,输出 2 美元,同样可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS:会打哈欠、会醉酒、还能唱歌

一个完整的 Agent,不应该只会思考和行动,它还需要开口说话。MiMo-V2-TTS 正是为了填补这个缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多码本语音文本联合建模架构,经过上亿小时语音数据的大规模预训练。

「上亿小时」这个数据量级,意味着模型得以覆盖极为丰富的说话风格、口音与场景,这是泛化能力的基础。

多维度强化学习后训练阶段,模型围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配等多个维度持续优化。

得益于多层码本建模架构,强化学习阶段可以直接利用语音相关奖励信号对模型进行优化,而非依赖间接的文本侧反馈,这让多维奖励信号能够更有效地作用于生成过程。

MiMo-V2-TTS 支持从整体基调定调到句内局部情绪的多粒度控制,能在同一句话内完成语气转折与情感递变,这在同类产品中并不多见。

模型能够智能识别标点符号、语气词、强调标记等格式信号,并将其自动转化为自然的语音表达,全程无需用户手动标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等,同时具备角色扮演式风格演绎与高质量歌声合成能力,让同一个模型既能说、能演、也能唱。

官方表示,未来 MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合,让 Agent 不仅能看懂世界、理解世界,更能用富有表现力的声音去讲述这个世界。

AI,才是真正打通人车家全生态的那根线

三款模型集中发布,时间节点和产品组合都不是偶然。罗福莉在声明中坦言,从聊天范式到 Agent 范式的转变发生得太快,「连我们自己都难以置信」。

但小米 MiMo 团队其实早有布局。罗福莉披露,1T 基础模型在数月前就已开始训练,最初目标是提升长上下文推理效率。混合注意力架构、1M 超长上下文窗口、MTP 低延迟推理,这些架构决策并非追随潮流,而是在需要之前就构建好的结构性优势。

推动团队加速转向 Agent 方向,源于一个关键时刻。罗福莉第一次体验到复杂 Agent 框架时受到强烈冲击,随即对团队下达强硬指令:MiMo 团队中,明天对话次数少于 100 次的成员可以辞职。

这个有些极端的要求背后,是她对 Agent 范式的坚定判断。结果是,团队的想象力被彻底激发,研究速度随之大幅提升。

这种研发节奏,叠加上小米本就拥有的生态基础,让这次发布的意义超出了单纯的模型竞赛。

小米集团长期推进「人车家全生态」战略,通过澎湃 OS 将手机、汽车(SU7 系列)与智能家居设备全面打通。这套生态的物理层面早已互联,但此前缺少一个真正意义上能跨设备理解意图、自主规划并完成任务的智能中枢。

现在,MiMo-V2-Pro 负责推理规划,MiMo-V2-Omni 负责多模态感知与执行,MiMo-V2-TTS 负责语音表达,三者叠加,构成了驱动整个生态运转的完整 AI 能力栈。

miclaw(小米手机端 AI 智能体)已接入 MiMo 大模型,具备系统级执行能力与「人车家全生态」的深度集成,是这套能力栈落地的第一个具体形态。WPS 灵犀、小米浏览器相继接入,也在说明同一件事:MiMo 不只是一个对话产品,而是正在被嵌入进各类应用场景的基础能力层。

多年来,各大科技公司都在描述「AI 将打通一切」的愿景,而带着 Agent 基因的 MiMo-V2 系列模型和深谙生态打法的小米,显然已经做好了准备。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

莫崇宇
莫崇宇
文章: 70