微软发布三款自研多模态模型，强化人工智能主权

在Mustafa Suleyman的领导下，微软AI推出了三款全新的基础模型，标志着其在维持与OpenAI战略合作的同时，开启了技术多元化布局的战略新篇章。

AI模型 •

•

2 de 四月 de 2026

•

微软AI近日宣布正式推出三款尖端基础模型，此举重新定义了其在人工智能领域的技术主权。该计划由知名高管Mustafa Suleyman领导的MAI Superintelligence团队负责，标志着这家雷德蒙德科技巨头在构建自有多模态人工智能基础设施方面迈出了决定性的一步，该架构能够实现文本、音频和视频的集成处理与生成。

“人文AI”战略背景

自2025年11月MAI Superintelligence部门成立以来，市场一直密切关注微软在历史性依赖OpenAI模型后的下一步动向。Suleyman所定义的“人文AI”（Humanist AI）概念给出了答案。该研究部门的核心目标并非仅仅追求原始性能指标的竞争，而是优先考虑实际可用性及人类沟通的效率。通过开发自有模型，微软明确表示，尽管与OpenAI的130亿美元战略联盟仍是其核心支柱，但公司不愿仅仅成为模型进化的旁观者，而是寻求对其自身技术栈的完全主权。

技术细节与功能

此次发布的三款模型专注于针对企业及创意工作流的特定优化。MAI-Transcribe-1以高性能著称，能够以25种不同语言进行语音转文字，速度是公司此前Azure Fast服务的2.5倍。作为补充，MAI-Voice-1是一款高延迟音频生成工具，处理60秒语音仅需一秒，并支持语音定制。最后，已在MAI Playground环境中测试过的MAI-Image-2，正式成为微软Foundry生态系统中的视频生成解决方案。

竞争力与激进定价

该战略的关键点之一在于定价，旨在吸引那些寻求比谷歌和OpenAI主流选项更具成本效益替代方案的开发者。微软提出的成本结构颇具侵略性：MAI-Transcribe-1每小时定价0.36美元，MAI-Voice-1起价为每百万字符22美元。MAI-Image-2则对文本输入按每百万token收取5美元，图像输出按每百万token收取33美元。这种定价策略表明，公司正试图捕捉那些追求技术质量与工业规模财务可行性之间平衡的市场需求。

对人工智能生态的影响与启示

微软决定投资自有模型，同时保留与OpenAI的合作，反映了一种“供应商多元化”的方针，类似于其在半导体市场的策略——既生产自有芯片，也采购第三方组件。对于市场而言，这意味着开发者和企业在构建软件架构时将拥有更多选择。这些模型在Microsoft Foundry和MAI Playground中的集成，极大地方便了研究人员和工程师在将其投入商业产品前，先行测试工具在实际场景中的效能。

未来展望

微软在人工智能领域的未来似乎正朝着深度垂直整合的方向发展。正如Suleyman所言，这三款模型的发布仅仅是一个路线图的开始，未来将持续增加产品组合。预计在未来几个月内，这些模型将被直接嵌入到微软的消费体验和企业产品中，例如Office生态系统和Azure，从而改变终端用户与生产力套件的交互方式。微软由此重申，其对超级智能的追求并非孤立的努力，而是旨在主导未来几年全球技术创新节奏的核心引擎。