北京商报(记者 陶峰 王天一)3月19日,小米MiMo团队发文,正式推出MiMo-V2-Pro Omni TTS三款大型号。小米MiMo-V2-Pro是小米在特工时代的旗舰基础机型,据称专为高强度的现实特工工作场景而打造。参数总数超过1T(42B激活参数),采用创新的混合注意力架构,支持1M超长上下文长度。基于强大的模型基础,小米将在更广泛的智能体场景中不断拓展算力,进一步拓展智能动作空间,实现从编码到抓爪的显着泛化。在全球权威大型模型综合智能排名Artificial Analysis中,MiMo-V2-Pro排名全球第八、中国第二。 MiMo-V2-Omni是小米面向Agent时代的全模态基础模型,专为复杂多模态而设计交互和现实世界的执行场景。小米自下而上构建了文本、视觉、语音融合的全模态基础,将“感知”和“行动”深度连接成统一架构。这不仅打破了传统模型注重理解和轻量级执行的局限性,还让模型具备了多模态感知、工具调用、函数执行和GUI交互的原生能力。 MiMo-V2-Omni可以无缝连接各种代理框架,实现从理解到控制的飞跃,并显着降低全模态代理实施的门槛。小米MiMo-V2-TTS是小米自主研发的大尺寸语音合成模型。它基于内部开发的音频分词器和多码本音频和文本联合建模架构。我是。通过对数亿小时语音进行广泛的预训练和多维强化学习通过数据,我们实现了多粒度、高度可控的语音风格控制。 MiMo-V2-TTS支持从全局风格到局部情感表达的精细调整,让您在同一句话内完成语调过渡和情感层次。它真正还原了人类对话的自然节奏。唱歌时可以准确地表达音高和节奏,使其自然而富有表现力。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体平台和专属服务网易号用户上传并发布。信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注