【ZEGO即构开发者日报】微软Copilot新增AI配音工具；谷歌 “香蕉革命” 催生AI图像最强模型；Ahead这款情绪教练应用正在悄悄改变数万美国人；全球 Top50 AI 产品榜单焕新.....

【关键词：AI伴学，在线课堂，大班课，AI Agent】当前在线教育回暖，大班直播课仍是机构重要场景，但 “课堂互动不足” 问题突出。学生多被动听讲，尤其语言类学习中，不同学生需个性化反馈，却因教师精力有限、连麦覆盖面小难实现，家长担忧学习效果。即构 AI Agent 推出 “大班课 —AI 数字人伴学互动” 方案，依托 ZEGO AI Agent 技术，可打造名师 AI 分身，实现实时互动。其延

ZEGO即构开发者

1133人浏览 · 2025-09-01 11:33:40

ZEGO即构开发者 · 2025-09-01 11:33:40 发布

💡开发者朋友们大家好，这里是 ZEGO即构 开发者日报！欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点，欢迎大家在评论区一起探讨！

🔨「产品技术」

1、AI 数字人伴学：赋能千人大班课，破解互动与个性化难题

【关键词：AI伴学，在线课堂，大班课，AI Agent】

当前在线教育回暖，大班直播课仍是机构重要场景，但 “课堂互动不足” 问题突出。学生多被动听讲，尤其语言类学习中，不同学生需个性化反馈，却因教师精力有限、连麦覆盖面小难实现，家长担忧学习效果。

即构 AI Agent 推出 “大班课 —AI 数字人伴学互动” 方案，依托 ZEGO AI Agent 技术，可打造名师 AI 分身，实现实时互动。其延迟低至 1.5 秒，表情、口型与语音精准匹配，且具万级并发能力，保障千人以上课堂稳定互动。

以小学英语课为例，过去千人课堂学生单课开口不足 1 分钟，现方案支持插入随堂演练，AI 数字人可与所有学生 1 对 1 口语互动，即时纠错、引导，还能中英文混合识别（准确率 95%+），助力不同水平学生参与。单生单课开口练习超 10 分钟，且单分钟互动成本控制在 0.3 元以内，部分课程退课率降半。

该方案还支持大规模高并发（可扩至上万级）、个性化形象定制（复刻老师或卡通风格）、全终端适配，推动课堂从 “听多练少” 转向高效互动。未来，即构将持续迭代，拓展 AI 数字人在语言练习、学科思维训练等场景的应用，推动教育智能化革新。

2、微软 Copilot 新增 AI 配音工具：支持 90 秒多角色叙述，语音真实感再升级

【关键词：Copilot，AI配音】

微软在 Copilot Labs 平台正式推出全新 AI 语音生成工具 ——Copilot Audio Expressions。该工具主打更贴近真人的语音输出效果，还能结合需求进行创意化润色，目前用户无需注册即可直接体验，生成的音频支持以 MP3 格式下载，方便在各类设备上播放使用。

Copilot Audio Expressions 主要提供两种核心模式，分别为 Emotive（情感表达）模式与 Story（故事创作）模式，适配不同场景下的语音生成需求。在 Emotive 模式下，用户可自主选择音色与表达风格，工具提供包括 “Oak”（深沉有活力的美式口音）、“Rain”（活泼真挚的英式口音）、“Sage”（坚定生动的美式口音）等十余种声音选项。Windows Latest 在测试中选用 “Oak” 音色与 “narration”（叙述）风格，输入一段模拟火车站场景的脚本后发现，生成的音频不仅完整朗读文本内容，还会自动补充细节、优化措辞以增强表达感染力，单段音频最长可支持 59 秒输出。

Story 模式则更侧重创意内容生成，该模式下系统会自动匹配适配的音色与风格，用户只需提供核心主题提示即可启动创作。例如输入 “讲一个猫在暗处潜行觅食的故事”，工具便生成了一段时长 90 秒的多角色叙述内容：其中旁白采用美式口音，猫的对白则切换为英式口音，两种声音自然穿插互动，呈现出类似专业配音合作的效果，而非传统机器朗读的单调感。测试结果显示，该模式在情节搭建、角色声音区分及音频融合度上表现突出，除基础朗诵外，还能满足多角色创意作品的配音需求。

不过需要注意的是，Copilot Audio Expressions 目前仅支持英文语音生成，中文及其他语言用户暂无法直接获取对应母语音频。截至目前，微软尚未公布是否会在后续更新中增加多语言支持功能，相关用户需持续关注官方动态。

3、谷歌 “香蕉革命” 背后：工程师死磕文字渲染，意外催生 AI 图像最强模型

【关键词：Google，AI生图】

谷歌一款名为 nano banana 的全新图像模型横空出世，迅速引爆 AI 社区，其热度堪比此前 OpenAI 的 “吉卜力热”。这款模型不仅能实现多张图片的创意拼接，还具备理解地理结构、物理原理的能力，甚至可将二维地图转化为三维景观，凭借 Gemini 的世界知识与独特的交错生成技术，它实现了 “有记忆” 的多轮创作，在一致性与创造力上双突破，重新定义了 AI 图像生成的边界，也让 “AI 创意伙伴” 的未来蓝图愈发清晰。

nano banana 的颠覆性玩法远超传统图像模型。用户最多可上传 13 张图片，由模型融合生成全新画面 —— 无论是拼接服饰零件打造专属穿搭，还是组合人物动作形成电影分镜，甚至用海螺 AI 将分镜转化为短片，都能轻松实现。更令人惊叹的是其强大的知识整合能力：上传现实场景截图，它能精准标注东京塔（高度 332.9 米、1958 年建成）、旧金山渡轮大厦（1898 年建造、1903 年启用）等建筑的详细信息；切换机器人视角，可自动勾勒人物轮廓，营造出赛博朋克风格的 “终结者视角”。

在空间理解上，nano banana 展现出惊人实力。它能根据谷歌地图的 “红色箭头” 视角，生成对应方向的金门大桥、东京塔实景画面；读懂等高线地图，还原真实地理地貌；轻松处理工程绘图需求，将任意图像渲染成上、下、左、右、前、后六视图。此外，模型还支持个性化场景创作：上传人像与动作框架，可生成摄影棚级别的成片；提取现实建筑物理结构，逆向完成线框绘制与上色；修复老照片时，能自动补充破损部分、消除折痕，还原清晰画面，甚至能让奥特曼穿上服饰玩鞍马，满足用户的脑洞创意。

这款 “现象级” 模型的诞生，背后藏着一段充满 “逆袭” 色彩的研发故事。据谷歌 DeepMind 团队专访透露，nano banana 的早期代号正来自其匿名测试平台 LMArena，而模型的核心突破，竟源于团队对用户差评的重视与一名工程师对文字渲染的 “偏执”。

研发初期，Gemini 2.0 版本发布后，团队成员每天逐条查看 X（原推特）上的用户反馈，将 “编辑后风格不统一”“误改内容” 等吐槽整理成 “推特差评榜”，作为内部优化基准。其中，研究工程师 Kaushik 对文字渲染的执着曾被同事调侃 “疯狂”—— 他坚持认为，模型若能精准处理文字笔画结构，对图像宏观与微观结构的理解力将大幅提升。这一看似细节的追求，最终成为模型能力跃升的关键：当 nano banana 能准确渲染文字时，其空间认知、场景拼接的精准度也同步突破，验证了 Kaushik 的判断。

模型的另一大优势，来自 Gemini 团队与 Imagen 团队的 “强强联合”。Gemini 团队为模型赋予 “大脑”—— 强大的世界知识储备、逻辑推理能力与指令遵循度；Imagen 团队则担任 “艺术总监”，以敏锐的审美把控图像自然度与视觉质感。此前，研发团队对 “编辑成功” 的定义仅停留在 “完成指令”，而 Imagen 团队成员会直言指出 “画面糟糕”，并通过肉眼审查上千张图片，筛选出美学层面的优劣差异，甚至计划基于这种审美标准训练 “自动评分器”，让模型在 “聪明” 与 “好看” 间找到完美平衡。

nano banana 的核心技术 “原生与交错式生成”，彻底解决了传统图像模型 “失忆” 的痛点。传统模型每次编辑都需重新创作，而 nano banana 在多轮创作中能记住上下文 —— 既保留上一步的创作内容，又理解对话逻辑。例如，团队曾下达指令 “将主体变成五种不同的 1980 年代美式商场风”，模型仅用 13 秒就生成 5 张风格各异但主角一致的图片，还贴心为每张图命名 “街机之王”“泡商城达人” 等充满年代感的标题；上传房间照片，它能设计出五种不同装修风格，如今谷歌内部员工已用其改造花园与房间。

4.一年吸金 330 万美元，这款情绪教练应用正在悄悄改变数万美国人

【关键词：AI教练，心理健康】

你是否曾在生活中被情绪左右，却不知如何有效管理？如今，一款名为 Ahead 的情绪教练应用，正在帮助数万人解决这一难题。

根据美国国家心理健康研究所的数据，近四分之一的成年人在人生某个阶段会经历焦虑或抑郁，而更轻度的情绪困扰几乎人人都有。情绪管理，正逐渐成为当代社会不可或缺的需求。正是在这样的背景下，2021 年 10 月，一款由德国团队开发的 “情绪教练” 应用 Ahead 上线。

点点数据显示，该应用自上线以来，全球总下载量已超过 276 万次，总收入超过 521 万美元。值得注意的是，在过去的一年里，Ahead 实现了超 330 万美元的收入，占据其四年来总收入的近 64%；其中，美国市场贡献了约 70.28% 的收入，其余则分布在英国、加拿大、德国等欧美国家。

Ahead 致力于让用户通过简单操作开启情绪管理之旅。用户只需在屏幕上给自己打一个勾，即可迈出第一步。应用在开头强调 “功能可免费试用”，并以 “只需一张电影票的价格，就能赢得心理健康” 来传递付费价值感，同时配合 “平台数据不会外泄” 的隐私声明，进一步建立用户信任。

完成基础测评后，Ahead 会收集用户的年龄、性别、是否有强迫症或多动症，以及是否有过心理咨询经历等信息。接下来，用户可以为自己的 “情绪旅程” 设定优先级，包括 “积极性、愤怒、信心、焦虑、拖延、心碎” 六大主题。完成前期测评与设定后，用户便进入正式的情绪管理阶段，每天只需花 5 分钟来记录和反思当天的情绪。Ahead 会用浅显的语言解释大脑运作、行为模式和沟通方式，让用户理解 “为什么会这样”，而非单纯告知 “应该怎么做”。在行为科学和心理学理论指导下，用户不仅能掌握情绪管理方法，还能在情绪认知上获得成长。

为增强反馈效果，Ahead 设计了徽章系统。这类巧妙设置往往能迅速触发用户自我反思，并转化为改进动力。同时，Ahead 支持用户设定每日目标，并通过追踪帮助他们识别情绪和行为模式，提升自我觉察。总的来说，Ahead 形成了一个从自我测评→定制情绪管理方案→日常目标管理→反馈激励→自我成长的完整闭环，用户并非被动接受指导，而是在持续反思、记录与实践中，掌握情绪管理主动权，循序渐进地提升自己的情商。

🔎「行业观察」

1.全球 Top50 AI 产品榜单焕新：华人团队表现亮眼，美图、阿里等成核心力量

【关键词：AI产品，AI排行榜】

知名风投机构 a16z 正式发布第 5 期全球 Top50 AI 产品榜单，此次排名分别依据 Similarweb（Web 端，2025 年 8 月访问量）与 Sensor Tower（App 端，2025 年 8 月 MAU）数据。对比今年 3 月第 4 期榜单可见，华人团队在 AI 产品领域的影响力持续扩大，不仅上榜数量稳步提升，在新上榜产品中更是占据主导地位，成为本期榜单的一大亮点。

App 端：美图、影笑科技领跑，8 款华人产品新入榜

本期 App 端共新增 14 款上榜产品，其中 8 款来自华人团队，且均为国内企业的出海产品，涵盖字节、爱诗科技、作业帮、美图及影笑科技等多家厂商。字节旗下的 Gauth 此次重回榜单，该产品曾因年初美国市场下架遗憾掉出上一期 Top50，而在 2024 年 8 月第 3 期榜单中其曾位列第 44 名，此次回归彰显产品竞争力的恢复。作业帮的 PolyBuzz 与爱诗科技的 PixVerse 则是从上期 “准 Top50” 的 Brink List（第 51、52 位）成功晋级，其中 PolyBuzz 探索的非订阅制商业化模式已推动收入增长，成为其上榜的重要支撑。

在新上榜的华人团队中，美图与影笑科技的表现尤为突出。美图此次新增 Wink、AirBrush、BeautyCam 三款产品入榜，叠加此前已在榜的 Meitu 与 BeautyPlus，其旗下针对生活场景的 5 款 AI 产品已全部跻身全球 AI App MAU Top50。这一成绩得益于美图 “预判爆款功能 + 社媒自发传播 + KOL 接力增长” 的策略：开发阶段便参考社媒趋势预埋潜力功能，功能走红后通过 KOL 扩大影响力，以低成本实现高增长，最终推动 BeautyCam、Wink 等产品 MAU 稳步提升。

来自杭州的影笑科技则凭借 YouCut 与 Peachy 两款新品上榜，加上上期已在榜的 Polish，其在 App 端 Top50 中已占据 3 席。两款新品均聚焦垂类场景，采用 “极简界面 + 基础功能” 设计思路：YouCut 面向 Vlog 剪辑需求，仅保留核心剪辑入口，同时提供 AI 画质修复、AI 字幕等辅助功能；Peachy 专注人像美颜，整合人像修图、AI 修图与美颜相机三大核心模块。据点点数据显示，截至 2025 年 7 月，YouCut 与 Peachy 的 MAU 分别达到 2147 万与 273 万，验证了其产品定位的精准性。

Web 端：阿里成最大赢家，Manus、Remaker 各具亮点

相较于 App 端，Web 端本期新上榜产品数量较少（共 11 款），但华人团队仍贡献 4 款产品，包括 Monica.ai 团队开发的 Manus、阿里旗下的 Quark 与 Qwen（注：a16z 榜单标注为 “Qwen3”，易与阿里模型名称混淆，此处统一称 “Qwen”），以及北京与中国香港团队联合开发的 Remaker。

Manus 作为上半年国内 AI Agent 领域的热门产品，自 2025 年 3 月 6 日发布后迅速引爆行业，其核心优势在于实现从 “信息搜索” 到 “结果交付” 的突破，推动了 AI 产品 “Agent 化” 趋势。尽管此前因国际化与合规问题将总部迁往新加坡引发争议，但数据表现依旧亮眼：Similarweb 显示其 7 月网站访问量达 1755 万，且据 Manus 首席科学家季逸超 8 月 20 日披露，公司收入运行效率已达 9000 万美元（按单月收入 ×12 推算）。

阿里此次凭借 Quark 与 Qwen 两款产品强势上榜，分别位列第 9 与第 20 位，成为 Web 端华人团队的最大赢家。其中，Qwen 定位通用 ChatBot，功能类似 ChatGPT；Quark 则从 2016 年的浏览器产品，逐步升级为整合 AI 对话、深度思考、搜索与结果交付的 “超级搜索产品”，并于今年 3 月成为阿里 “AI 旗舰应用”。组织架构上，阿里通义千问团队已于去年年底拆分，模型开发部门（通义实验室）留在阿里云，产品团队则划入智能信息事业群，与 Quark 团队平级。从流量数据看，Similarweb 显示 Quark 与 Qwen 超 90% 流量来自国内，7 月 Quark Web 端访问量不仅高于豆包，在 a16z 榜单中的排名也领先 3 位，不过在 App 端，Quark（第 47 位）与豆包（第 4 位）仍存在明显差距。

作为后起之秀，Remaker 虽名气较小，但凭借功能整合与 SEO 优势成功入榜（第 47 位）。其网站流量自 6 月起显著增长，7 月突破 1000 万，产品设计上未采用复杂工作流，而是将主流图像、视频类 AI 功能包装成独立 “小工具”，降低用户使用门槛，同时通过高效 SEO 策略吸引流量。

长期竞争力待考：华人团队需突破 “昙花一现” 困局

回溯 a16z 已发布的 5 期全球 Top50 AI 产品榜单，华人开发者产品的上榜数量呈逐期递增趋势，且近两期增速加快，展现出强劲的发展势头。然而值得注意的是，在 5 期榜单中从未缺席的华人团队产品仅有李白人工智能实验室的 cutout.pro 一款。如何在快速迭代的 AI 赛道中保持长期竞争力，避免 “短期上榜、昙花一现”，成为华人团队未来需要重点思考的问题。

2.《人工智能生成合成内容标识办法》正式施行—— 9月1日起 AI 生成内容须 “亮明身份”

【关键词：人工智能，AI生文，AI标识，AI使用声明】

央视网报道，国家互联网信息办公室联合工业和信息化部、公安部、国家广播电视总局四部门共同发布的《人工智能生成合成内容标识办法》（以下简称《标识办法》），将于 9 月 1 日起正式落地实施。根据规定，所有通过人工智能技术生成的文字、图片、音频、视频及虚拟场景等内容，均需通过明确标识 “表明身份”，从源头规范 AI 生成内容的传播与使用。

近年来，生成式人工智能、深度合成等技术快速迭代，在推动经济发展、丰富网络内容供给、便利公众日常生活等方面发挥重要作用，但同时也催生了虚假信息传播、网络生态破坏等问题。社会各界对加快 AI 领域专项立法、强化技术监管力度、压实平台主体责任的呼声日益高涨。此次《标识办法》的出台，正是为响应社会关切，以 “内容标识” 为核心抓手，进一步细化前期部门规章中关于 AI 内容标识的要求，通过发挥标识的提醒提示与监督溯源作用，构建开放、公正、有效的治理机制，为人工智能产业健康有序发展保驾护航。

《标识办法》明确，AI 生成合成内容的标识分为 “显式标识” 与 “隐式标识” 两类。其中，显式标识是指在生成内容或交互界面中，以文字、声音、图形等用户可清晰感知的形式添加的标识；隐式标识则是通过技术手段，在内容文件数据中嵌入的、不易被用户直接察觉的标识，主要用于后台溯源与监管。

在具体执行要求上，《标识办法》作出详细规定：若服务提供者的生成合成服务符合《互联网信息服务深度合成管理规定》第十七条第一款情形，需按规范对内容添加显式标识，例如在文本首尾或中间添加文字提示，在图片适当位置标注标识，在视频起始画面、播放界面及末尾添加提示等；同时，所有 AI 生成内容的文件元数据中，都需按《互联网信息服务深度合成管理规定》第十六条要求嵌入隐式标识，鼓励采用数字水印等技术强化标识效果。

对于网络信息内容传播平台，《标识办法》要求其采取技术措施规范传播行为：若核验到文件元数据含隐式标识，需在内容发布时添加显著提示；若未核验到隐式标识但用户声明为 AI 生成，需提示内容 “可能为 AI 生成”；若检测到显式标识或 AI 生成痕迹，需标注为 “疑似 AI 生成内容”。此外，传播平台还需提供标识功能，引导用户主动声明内容是否含 AI 生成部分，并在相关文件元数据中补充传播平台信息、内容编号等要素。

《标识办法》特别强调，任何组织和个人不得恶意删除、篡改、伪造、隐匿 AI 内容标识，不得为此类行为提供工具或服务，也不得通过不正当标识手段损害他人合法权益。同时，互联网应用程序分发平台在审核上架应用时，需确认应用是否提供 AI 生成服务，并核验其标识相关材料；服务提供者需在用户协议中明确标识方法与规范，提醒用户遵守标识要求。

若用户申请获取无显式标识的 AI 生成内容，服务提供者需在协议中明确用户的标识义务与使用责任，留存用户信息及相关日志不少于六个月。在监管层面，服务提供者履行算法备案、安全评估等手续时，需提交标识相关材料，加强信息共享，为打击违法犯罪提供支持。违反《标识办法》规定的，将由网信、电信、公安、广电等部门依据职责，依法依规处理。

目前，部分平台已开始落实标识要求，例如微博已在 AI 生成内容发布界面添加 “内容由 AI 生成” 的文字标识，为用户提供清晰提示。《标识办法》的正式施行，将进一步推动 AI 生成内容的规范化管理，平衡技术创新与风险防控，保障公民、法人及其他组织的合法权益，维护社会公共利益。