【ZEGO即构开发者日报】腾讯混元开源Hunyuan-Foley模型；微软推出首款自研AI双模型；gpt-realtime语音对话模型官宣；xAI 推出 Grok Code .............

定价方面，模型采用亲民策略，每百万输入 token 仅需 0.20 美元（按当前汇率约合 1.4 元人民币），每百万输出 token 定价 1.50 美元（约合 10.7 元人民币），每百万缓存输入 token 更是低至 0.02 美元（约合 0.14 元人民币），xAI 方面表示，这种 “精简架构 + 高性价比” 的组合，正是该模型的核心优势，能满足开发者快速、低成本处理常规编码任务的需求。同时

ZEGO即构开发者

652人浏览 · 2025-08-29 11:52:03

ZEGO即构开发者 · 2025-08-29 11:52:03 发布

💡开发者朋友们大家好，这里是 ZEGO即构 开发者日报！欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点，欢迎大家在评论区一起探讨！

🔨「产品技术」

1、ZEGO 即构获霞光智库报告重点推荐

【关键词：泛娱乐出海，AI陪伴，实时互动，AI Agent】

8月21日，霞光社&霞光智库重磅发布《2025年中国泛娱乐出海洞察报告》，旨在深度解析中国泛娱乐产业在全球价值链重构进程中的战略布局，探寻驱动其第二增长曲线的核心动能与新型范式转移机遇。在报告中，ZEGO即构科技作为领先的技术服务商，获得重点推荐。

报告指出，随着社交大盘持续扩容，全球泛娱乐市场规模及用户数量有望进一步增长。其中，东南亚、拉美及中东等新兴市场是用户增量的主要来源，随着4G/5G普及及人均GDP提升，这些地区的用户对娱乐化社媒的需求仍将持续提升。

泛娱乐主要具备三大核心要素——社交、娱乐和内容。近年随着AI在泛娱乐领域中的广泛应用，创造出全新的社交互动场景和内容生产模式。此外，随着短剧的快速发展，IP化趋势将贯穿内容消费。因此，“社交+娱乐”的泛化趋势仍将进一步深化。

2024年，即构推出AI陪伴方案，帮助客户构建具备共情能力与人格化特征的AI陪伴应用，为用户提供个性化互动服务，适用于情感陪伴、心理疗愈等场景。2025年，即构全新升级实时互动AI Agent 2.0方案，覆盖AI陪伴、智能客服、智能教学、智能助手、智能硬件等场景，助力应用开发者低成本打造超低延迟、真实自然的AI互动体验。

2、腾讯混元开源 Hunyuan-Foley 模型：视频 + 文字组合，一键生成 “电影级” 音效

【关键词：AI模型，音视频创作，腾讯混元】

腾讯混元正式开源端到端视频音效生成 AI 模型 Hunyuan-Foley。该模型核心能力在于，用户仅需同时输入一段视频与对应的文字描述，即可快速匹配生成达到 “电影级” 水准的适配音效，为 AI 音视频创作领域解决了关键痛点。

此前，AI 生成视频常存在 “视觉完整、听觉缺失” 的局限，无声画面难以传递完整场景氛围。而 Hunyuan-Foley 通过深度优化的场景理解技术，实现了 “看懂视频画面细节、读懂文字指令含义、精准匹配对应声音” 的全流程闭环，让生成的音视频内容具备更强的沉浸感，彻底告别 “无声 AI 视频” 的尴尬。

在应用场景上，这款模型的实用性覆盖多个领域：短视频创作者可借助它快速匹配生活场景音效，提升内容感染力；电影制作团队能利用其生成细腻音效，降低后期制作成本；广告创意与游戏开发领域，也可通过该模型定制化音效，强化内容表达与玩家体验。

为确保模型性能，腾讯混元团队搭建了一套完整的数据处理体系，通过自动化标注与严格的数据筛选，构建出规模约 10 万小时的高质量 TV2A（视频到音频）数据集。这一数据集为模型训练提供了充足支撑，使其即便在复杂视频场景下，也能生成音画同步、语义契合的优质音频，涵盖环境音效与背景音乐等多种类型。

此次 Hunyuan-Foley 的开源，不仅是腾讯混元在 AI 生成技术领域的又一重要布局，更将为音视频创作行业提供高效、低成本的音效解决方案，有望推动行业整体智能化创作水平的提升。

3、微软推出首款自研 AI 双模型：MAI-Voice-1 秒级生成音频，MAI-1-preview 聚焦 Copilot 文本场景

【关键词：AI模型，音频生成，语音模型】

微软人工智能部门正式对外发布旗下首批两款自研 AI 模型 —— 语音专用模型 MAI-Voice-1 与通用模型 MAI-1-preview，标志着微软在 AI 自研领域迈出关键一步。据官方介绍，这两款模型定位不同场景，分别在音频生成效率与文本交互体验上实现突破，未来将深度适配 Copilot 生态。

其中，MAI-Voice-1 语音模型主打高效音频生成，依托单块 GPU 算力支持，就能实现 1 秒内输出时长 1 分钟的音频内容，效率优势显著。目前该模型已落地多项实际功能：在 “Copilot Daily” 中，它为 AI 主持人提供语音播报能力，助力用户快速获取当日热点；同时还能生成播客风格的对话内容，让复杂话题讲解更易理解。普通用户也可通过 Copilot Labs 平台体验该模型，不仅能输入自定义文本让 AI 发声，还能灵活调整语音音色与说话风格，满足个性化需求。

同步推出的 MAI-1-preview 通用模型，则在算力投入上颇具规模 —— 训练阶段投入了约 1.5 万块英伟达 H100 GPU，专为有特定需求的用户设计。该模型具备精准的指令遵循能力，能为日常咨询提供实用且贴合需求的回应。值得关注的是，微软 AI 负责人穆斯塔法・苏莱曼曾在去年《Decoder》播客节目中透露研发思路，他表示团队未将企业级应用作为核心方向，而是聚焦消费者体验优化，凭借广告业务、用户行为数据等海量高价值数据，打造适配 “消费者伙伴” 定位的模型。

在应用规划上，微软明确 MAI-1-preview 将用于 Copilot 助手的特定文本场景（当前 Copilot 主要依赖 OpenAI 大型语言模型），目前该模型已进入公开测试阶段，在 AI 基准测试平台 LMArena 上接受检验。微软 AI 团队还在博客中提及未来规划，称将持续推进技术突破，并通过整合适配不同用户需求与场景的专业模型，释放更大行业价值。

4.OpenAI 官宣 gpt-realtime 语音对话模型：情感感知 + 多语言切换，Realtime API 正式落地生产环境

【关键词：API，端到端，实时语音】

OpenAI 将此前处于测试阶段（Beta）的 “Realtime API” 正式推入生产环境，标志着其语音对话技术从研发验证迈向实际应用阶段。这款 API 主要面向企业与开发者群体，旨在助力其开发适配实际场景的语音助手，覆盖客户支持响应、教育互动教学、个人效率提升等多元领域。

【中英字幕】openai实时语音对话模型发布会：Introducing gpt-realtime in the API

作为 API 的核心组件，gpt-realtime 语音对话模型采用端到端 Speech-to-Speech 架构，可直接完成语音的生成与处理，省去了传统流程中 “语音转文本再转语音” 的中间步骤。据 OpenAI 介绍，相较于前代模型，该模型在三大维度实现升级：响应速度进一步提升，语音输出更贴近真人自然语调，对复杂指令的解析与执行能力也显著增强。

在功能体验上，gpt-realtime 的亮点尤为突出：不仅能精准捕捉对话中的笑声等非语言信号，让交互更具情感温度；还支持对话过程中中途无缝切换语言，同时可灵活调整语音语气，例如实现 “带法国口音的友好表达” 或 “语速较快的专业解说” 等个性化效果。此外，模型新增 “Cedar”“Marin” 两种语音选项，并对既有的 8 种语音效果进行了优化迭代，丰富了用户选择。

性能测试数据同样印证了模型的提升：在 Big Bench Audio 基准测试中，准确率从 65.6% 跃升至 82.8%；MultiChallenge 基准测试中，准确率从 20.6% 提升至 30.5%；ComplexFuncBench 基准测试里，准确率也从 49.7% 增长至 66.5%，三大核心测试均展现出明显进步。

此次 API 升级还重点优化了工具集成能力：模型能更精准地筛选适用工具、把握工具触发时机，并正确配置工具参数，大幅提升函数调用的可靠性。开发者可通过会话初始协议（SIP）与远程媒体控制协议（MCP）服务器，便捷连接外部工具与服务；同时，可复用的提示词功能支持保存不同场景下的配置与工具设置，有效提升开发效率。

值得关注的是，API 新增图像输入功能：用户在对话过程中可发送截图或照片，模型能结合图像内容展开交互，比如读取图像中的文字信息，或解答与图像相关的问题，且开发者可自主控制模型可获取的图像范围。此外，为帮助用户控制成本，API 新增两项实用功能 —— 支持设置 token 使用上限，以及对多轮对话内容进行精简处理。

价格方面，gpt-realtime 模型使用成本降低 20%，当前具体定价为：音频输入 token 每百万个 32 美元（按现汇率约合 229 元人民币），音频输出 token 每百万个 64 美元（约合 457.9 元人民币），缓存输入 token 每百万个 0.40 美元（约合 2.9 元人民币）。

安全层面，该 API 具备问题内容检测能力，若对话违反平台政策，可自动终止会话。不过 OpenAI 也提示，这不应作为唯一的安全保障手段，开发者仍需根据自身需求添加专属安全机制。针对欧盟用户，API 特别提供数据本地化存储选项，并为企业用户定制特殊隐私规则，以符合欧盟地区的数据保护法规要求。

5.xAI 推出 Grok Code Fast 1 智能代码生成模型：高速低成本特性凸显，主流平台限时免费开放

【关键词：代码生成模型，AI工具，AI编程】

xAI 对外发布全新智能代码生成模型 Grok Code Fast 1，此举标志着该公司正式进军 AI 领域的核心赛道 —— 智能编程工具领域，与 OpenAI、微软等行业头部企业形成直接竞争态势。

作为一款聚焦高效编码的 AI 工具，Grok Code Fast 1 采用全新自研架构打造，从底层设计阶段便围绕编程场景优化。其预训练语料库涵盖了海量优质编程内容，且在贴近真实开发场景的任务数据集上完成了针对性训练优化，能更好适配实际编码需求。该模型在编程语言支持上表现全面，尤其擅长 TypeScript、Python、Java、Rust、C++ 及 Go 等主流开发语言，可在极少人工干预的情况下，完成从新项目搭建到代码漏洞修复等多样化编程任务，大幅降低开发者的工作负担。

在开放策略与成本控制上，Grok Code Fast 1 展现出极强的市场吸引力：目前已在 Cursor、GitHub Copilot、Cline、opencode、Windsurf、Roo Code 及 Kilo Code 等主流智能编程平台上限时免费开放，方便开发者快速体验。定价方面，模型采用亲民策略，每百万输入 token 仅需 0.20 美元（按当前汇率约合 1.4 元人民币），每百万输出 token 定价 1.50 美元（约合 10.7 元人民币），每百万缓存输入 token 更是低至 0.02 美元（约合 0.14 元人民币），xAI 方面表示，这种 “精简架构 + 高性价比” 的组合，正是该模型的核心优势，能满足开发者快速、低成本处理常规编码任务的需求。

从行业背景来看，当前智能代码生成领域竞争激烈。今年 5 月，微软在年度 Build 开发者大会上推出了 GitHub Copilot 的全新功能，其 CEO 萨提亚・纳德拉曾于 4 月透露，微软目前有 20% 至 30% 的代码由 AI 生成；而 OpenAI 旗下的代码生成工具 Codex，也已于 6 月向 ChatGPT Plus 订阅用户开放使用。值得关注的是，就在发布该模型前，xAI 已于本周一在美国得克萨斯州联邦法院对苹果公司及 OpenAI 提起诉讼，指控两家企业存在非法合谋行为，意图遏制 AI 领域的市场竞争，此次新模型的推出，也被视作 xAI 在该领域进一步巩固市场地位的重要举措。

🔎「行业观察」

1.互联网新草案落地在即：网页将添 “AI 成分表”，HTTP 头字段标注 AI 参与详情

【关键词：AI标记，AI生成内容】

互联网工程任务组（IETF）近期发布《AI 内容披露头字段》（AI Content Disclosure Header）草案，计划在网页的 HTTP 响应数据中新增可机器读取的 AI 使用标记字段，旨在以低资源消耗为前提，助力搜索引擎、归档系统及浏览器快速识别网页内容中的 AI 参与情况。

与当前常见的 AI 生成内容提示（如文字声明、音视频水印等）相比，该草案提出的 HTTP 头字段无需依赖人工判断，也无需解析复杂的元数据文件，具备完全机器可读的特性。据 IETF 官方表述，这种设计不仅能帮助搜索引擎实现更精准的内容索引，还可大幅提升合规审查与数据归档的效率，减少不必要的人工与算力成本。

从具体内容来看，该 HTTP 头字段将包含五项核心信息，各信息的类型与作用明确：其一为 “mode”（AI 使用模式），以令牌形式标注 AI 参与内容创作的程度；其二是 “model”（所用 AI 模型名称），用字符串记录具体模型标识（如 gpt-4）；其三为 “provider”（模型提供方），通过字符串说明 AI 系统所属组织；其四是 “reviewed-by”（内容审查人），以字符串标注审阅 AI 相关内容的实体或团队；最后是 “date”（生成 / 修改时间），以符合 RFC9651 标准的数字纪元值记录时间戳。

其中，“mode” 作为关键维度，细分为四种具体模式，覆盖不同 AI 参与场景：“none” 代表内容创建与实质性修改未使用 AI；“ai-modified” 指 AI 仅辅助或修改人类原创内容（如语法检查、生成摘要等），源材料非 AI 生成；“ai-originated” 表示核心内容初由 AI 生成，但后续经人类审查、编辑或深度指导，确保内容准确性与适宜性；“machine-generated” 则意味着内容主要或完全由 AI 生成，生成后几乎无人工干预，AI 需对内容中的实质性观点或结论负责。

IETF 强调，这种标准化的 AI 标记方式，能为网络爬虫、内容分析工具及归档系统提供低延迟的 AI 检测路径，从而降低计算资源浪费。不过目前该草案尚未成为正式行业标准，后续将结合业界反馈进一步优化调整，以更好适配互联网内容生态的实际需求。

2.2031 年全球 3D 虚拟形象市场规模有望突破 12 亿美元年复合增长率达 31.3%

【关键词： 3D虚拟形象，云技术】

Insight Partners 最新市场研究报告显示，受电子商务领域技术升级、人工智能创新突破及实时渲染技术发展的共同推动，全球企业级 3D 虚拟形象市场正进入快速增长通道。该机构当前对这一市场的估值为 1.8348 亿美元，同时预测到 2031 年，市场规模将攀升至 12.34 亿美元，期间复合年增长率将稳定保持在 31.3%。

报告分析指出，当前电子商务平台为贴合消费者不断升级的体验需求，正积极整合各类先进技术，这一趋势直接带动了对高逼真度、强定制化 3D 虚拟形象的需求增长。如今，3D 虚拟形象已逐渐成为构建下一代数字商务体验的核心要素，其在提升用户交互感、优化购物流程方面的作用日益凸显。

从市场价值来看，Insight Partners 强调，3D 虚拟形象已不再是单纯的视觉展示载体，而是被企业广泛视为优化沟通效果、开展教育科普、强化品牌形象及提升运营效率的动态工具。随着企业对沉浸式、可规模化数字解决方案的需求增加，新一代 3D 虚拟形象平台的推出，正推动企业在虚拟环境中的沟通与互动模式发生根本性转变。目前，该技术在客户服务响应、虚拟产品功能演示、员工技能培训、大型沉浸式虚拟活动举办及企业内部协作沟通等场景的应用案例已显著增多

此外，人工智能、实时渲染与云技术的深度融合，正打破 3D 虚拟形象在游戏、社交媒体领域的应用局限，催生出更多商业场景下的新用途。同时，混合办公模式的普及以及企业对可扩展、交互式用户体验的持续追求，进一步加速了全球商业领域向 “数字优先” 战略转型，为 3D 虚拟形象市场拓展了更广阔的发展空间。

从行业联动角度来看，电子商务市场的持续增长与 3D 虚拟形象解决方案的市场扩张存在紧密的内在关联。当前，数字消费者对购物体验的期待已从 “便捷化” 转向 “个性化、沉浸式、互动化”，而 3D 虚拟形象恰好能满足这一需求 —— 不仅可实现 “虚拟试穿” 功能，帮助消费者更直观地了解产品效果，还能支持消费者与 AI 驱动的品牌虚拟代表进行实时互动，同时助力企业更清晰地进行产品可视化展示，成为在线零售领域提升用户粘性的重要赋能工具。

在市场竞争格局方面，Insight Partners 指出，MotionWerx、Texel、Osensus、Bodygee、Polyga、IN3D、TG3D Studio、Itseez3D 及 3D Generation 等企业，凭借在技术研发与产品创新方面的优势，目前处于 3D 虚拟形象解决方案市场的领先地位，其未来的发展方向或将对整个市场的技术路线与应用趋势产生重要影响。