【ZEGO即构开发者日报】微软Copilot新增AI配音工具;谷歌 “香蕉革命” 催生AI图像最强模型;Ahead这款情绪教练应用正在悄悄改变数万美国人;全球 Top50 AI 产品榜单焕新.....
【关键词:AI伴学,在线课堂,大班课,AI Agent】当前在线教育回暖,大班直播课仍是机构重要场景,但 “课堂互动不足” 问题突出。学生多被动听讲,尤其语言类学习中,不同学生需个性化反馈,却因教师精力有限、连麦覆盖面小难实现,家长担忧学习效果。即构 AI Agent 推出 “大班课 —AI 数字人伴学互动” 方案,依托 ZEGO AI Agent 技术,可打造名师 AI 分身,实现实时互动。其延
💡开发者朋友们大家好,这里是 ZEGO即构 开发者日报!欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点,欢迎大家在评论区一起探讨! |
🔨「产品技术」
1、AI 数字人伴学:赋能千人大班课,破解互动与个性化难题
【关键词:AI伴学,在线课堂,大班课,AI Agent】
当前在线教育回暖,大班直播课仍是机构重要场景,但 “课堂互动不足” 问题突出。学生多被动听讲,尤其语言类学习中,不同学生需个性化反馈,却因教师精力有限、连麦覆盖面小难实现,家长担忧学习效果。
即构 AI Agent 推出 “大班课 —AI 数字人伴学互动” 方案,依托 ZEGO AI Agent 技术,可打造名师 AI 分身,实现实时互动。其延迟低至 1.5 秒,表情、口型与语音精准匹配,且具万级并发能力,保障千人以上课堂稳定互动。
以小学英语课为例,过去千人课堂学生单课开口不足 1 分钟,现方案支持插入随堂演练,AI 数字人可与所有学生 1 对 1 口语互动,即时纠错、引导,还能中英文混合识别(准确率 95%+),助力不同水平学生参与。单生单课开口练习超 10 分钟,且单分钟互动成本控制在 0.3 元以内,部分课程退课率降半。
该方案还支持大规模高并发(可扩至上万级)、个性化形象定制(复刻老师或卡通风格)、全终端适配,推动课堂从 “听多练少” 转向高效互动。未来,即构将持续迭代,拓展 AI 数字人在语言练习、学科思维训练等场景的应用,推动教育智能化革新。
2、微软 Copilot 新增 AI 配音工具:支持 90 秒多角色叙述,语音真实感再升级
【关键词:Copilot,AI配音】
微软在 Copilot Labs 平台正式推出全新 AI 语音生成工具 ——Copilot Audio Expressions。该工具主打更贴近真人的语音输出效果,还能结合需求进行创意化润色,目前用户无需注册即可直接体验,生成的音频支持以 MP3 格式下载,方便在各类设备上播放使用。
Copilot Audio Expressions 主要提供两种核心模式,分别为 Emotive(情感表达)模式与 Story(故事创作)模式,适配不同场景下的语音生成需求。在 Emotive 模式下,用户可自主选择音色与表达风格,工具提供包括 “Oak”(深沉有活力的美式口音)、“Rain”(活泼真挚的英式口音)、“Sage”(坚定生动的美式口音)等十余种声音选项。Windows Latest 在测试中选用 “Oak” 音色与 “narration”(叙述)风格,输入一段模拟火车站场景的脚本后发现,生成的音频不仅完整朗读文本内容,还会自动补充细节、优化措辞以增强表达感染力,单段音频最长可支持 59 秒输出。
Story 模式则更侧重创意内容生成,该模式下系统会自动匹配适配的音色与风格,用户只需提供核心主题提示即可启动创作。例如输入 “讲一个猫在暗处潜行觅食的故事”,工具便生成了一段时长 90 秒的多角色叙述内容:其中旁白采用美式口音,猫的对白则切换为英式口音,两种声音自然穿插互动,呈现出类似专业配音合作的效果,而非传统机器朗读的单调感。测试结果显示,该模式在情节搭建、角色声音区分及音频融合度上表现突出,除基础朗诵外,还能满足多角色创意作品的配音需求。
不过需要注意的是,Copilot Audio Expressions 目前仅支持英文语音生成,中文及其他语言用户暂无法直接获取对应母语音频。截至目前,微软尚未公布是否会在后续更新中增加多语言支持功能,相关用户需持续关注官方动态。
3、谷歌 “香蕉革命” 背后:工程师死磕文字渲染,意外催生 AI 图像最强模型
【关键词:Google,AI生图】
谷歌一款名为 nano banana 的全新图像模型横空出世,迅速引爆 AI 社区,其热度堪比此前 OpenAI 的 “吉卜力热”。这款模型不仅能实现多张图片的创意拼接,还具备理解地理结构、物理原理的能力,甚至可将二维地图转化为三维景观,凭借 Gemini 的世界知识与独特的交错生成技术,它实现了 “有记忆” 的多轮创作,在一致性与创造力上双突破,重新定义了 AI 图像生成的边界,也让 “AI 创意伙伴” 的未来蓝图愈发清晰。
nano banana 的颠覆性玩法远超传统图像模型。用户最多可上传 13 张图片,由模型融合生成全新画面 —— 无论是拼接服饰零件打造专属穿搭,还是组合人物动作形成电影分镜,甚至用海螺 AI 将分镜转化为短片,都能轻松实现。更令人惊叹的是其强大的知识整合能力:上传现实场景截图,它能精准标注东京塔(高度 332.9 米、1958 年建成)、旧金山渡轮大厦(1898 年建造、1903 年启用)等建筑的详细信息;切换机器人视角,可自动勾勒人物轮廓,营造出赛博朋克风格的 “终结者视角”。
在空间理解上,nano banana 展现出惊人实力。它能根据谷歌地图的 “红色箭头” 视角,生成对应方向的金门大桥、东京塔实景画面;读懂等高线地图,还原真实地理地貌;轻松处理工程绘图需求,将任意图像渲染成上、下、左、右、前、后六视图。此外,模型还支持个性化场景创作:上传人像与动作框架,可生成摄影棚级别的成片;提取现实建筑物理结构,逆向完成线框绘制与上色;修复老照片时,能自动补充破损部分、消除折痕,还原清晰画面,甚至能让奥特曼穿上服饰玩鞍马,满足用户的脑洞创意。
这款 “现象级” 模型的诞生,背后藏着一段充满 “逆袭” 色彩的研发故事。据谷歌 DeepMind 团队专访透露,nano banana 的早期代号正来自其匿名测试平台 LMArena,而模型的核心突破,竟源于团队对用户差评的重视与一名工程师对文字渲染的 “偏执”。
研发初期,Gemini 2.0 版本发布后,团队成员每天逐条查看 X(原推特)上的用户反馈,将 “编辑后风格不统一”“误改内容” 等吐槽整理成 “推特差评榜”,作为内部优化基准。其中,研究工程师 Kaushik 对文字渲染的执着曾被同事调侃 “疯狂”—— 他坚持认为,模型若能精准处理文字笔画结构,对图像宏观与微观结构的理解力将大幅提升。这一看似细节的追求,最终成为模型能力跃升的关键:当 nano banana 能准确渲染文字时,其空间认知、场景拼接的精准度也同步突破,验证了 Kaushik 的判断。
模型的另一大优势,来自 Gemini 团队与 Imagen 团队的 “强强联合”。Gemini 团队为模型赋予 “大脑”—— 强大的世界知识储备、逻辑推理能力与指令遵循度;Imagen 团队则担任 “艺术总监”,以敏锐的审美把控图像自然度与视觉质感。此前,研发团队对 “编辑成功” 的定义仅停留在 “完成指令”,而 Imagen 团队成员会直言指出 “画面糟糕”,并通过肉眼审查上千张图片,筛选出美学层面的优劣差异,甚至计划基于这种审美标准训练 “自动评分器”,让模型在 “聪明” 与 “好看” 间找到完美平衡。
nano banana 的核心技术 “原生与交错式生成”,彻底解决了传统图像模型 “失忆” 的痛点。传统模型每次编辑都需重新创作,而 nano banana 在多轮创作中能记住上下文 —— 既保留上一步的创作内容,又理解对话逻辑。例如,团队曾下达指令 “将主体变成五种不同的 1980 年代美式商场风”,模型仅用 13 秒就生成 5 张风格各异但主角一致的图片,还贴心为每张图命名 “街机之王”“泡商城达人” 等充满年代感的标题;上传房间照片,它能设计出五种不同装修风格,如今谷歌内部员工已用其改造花园与房间。
4.一年吸金 330 万美元,这款情绪教练应用正在悄悄改变数万美国人
【关键词:AI教练,心理健康】
你是否曾在生活中被情绪左右,却不知如何有效管理?如今,一款名为 Ahead 的情绪教练应用,正在帮助数万人解决这一难题。
根据美国国家心理健康研究所的数据,近四分之一的成年人在人生某个阶段会经历焦虑或抑郁,而更轻度的情绪困扰几乎人人都有。情绪管理,正逐渐成为当代社会不可或缺的需求。正是在这样的背景下,2021 年 10 月,一款由德国团队开发的 “情绪教练” 应用 Ahead 上线。
点点数据显示,该应用自上线以来,全球总下载量已超过 276 万次,总收入超过 521 万美元。值得注意的是,在过去的一年里,Ahead 实现了超 330 万美元的收入,占据其四年来总收入的近 64%;其中,美国市场贡献了约 70.28% 的收入,其余则分布在英国、加拿大、德国等欧美国家。
Ahead 致力于让用户通过简单操作开启情绪管理之旅。用户只需在屏幕上给自己打一个勾,即可迈出第一步。应用在开头强调 “功能可免费试用”,并以 “只需一张电影票的价格,就能赢得心理健康” 来传递付费价值感,同时配合 “平台数据不会外泄” 的隐私声明,进一步建立用户信任。
完成基础测评后,Ahead 会收集用户的年龄、性别、是否有强迫症或多动症,以及是否有过心理咨询经历等信息。接下来,用户可以为自己的 “情绪旅程” 设定优先级,包括 “积极性、愤怒、信心、焦虑、拖延、心碎” 六大主题。完成前期测评与设定后,用户便进入正式的情绪管理阶段,每天只需花 5 分钟来记录和反思当天的情绪。Ahead 会用浅显的语言解释大脑运作、行为模式和沟通方式,让用户理解 “为什么会这样”,而非单纯告知 “应该怎么做”。在行为科学和心理学理论指导下,用户不仅能掌握情绪管理方法,还能在情绪认知上获得成长。
为增强反馈效果,Ahead 设计了徽章系统。这类巧妙设置往往能迅速触发用户自我反思,并转化为改进动力。同时,Ahead 支持用户设定每日目标,并通过追踪帮助他们识别情绪和行为模式,提升自我觉察。总的来说,Ahead 形成了一个从自我测评→定制情绪管理方案→日常目标管理→反馈激励→自我成长的完整闭环,用户并非被动接受指导,而是在持续反思、记录与实践中,掌握情绪管理主动权,循序渐进地提升自己的情商。
🔎「行业观察」
1.全球 Top50 AI 产品榜单焕新:华人团队表现亮眼,美图、阿里等成核心力量
【关键词:AI产品,AI排行榜】
知名风投机构 a16z 正式发布第 5 期全球 Top50 AI 产品榜单,此次排名分别依据 Similarweb(Web 端,2025 年 8 月访问量)与 Sensor Tower(App 端,2025 年 8 月 MAU)数据。对比今年 3 月第 4 期榜单可见,华人团队在 AI 产品领域的影响力持续扩大,不仅上榜数量稳步提升,在新上榜产品中更是占据主导地位,成为本期榜单的一大亮点。
App 端:美图、影笑科技领跑,8 款华人产品新入榜
本期 App 端共新增 14 款上榜产品,其中 8 款来自华人团队,且均为国内企业的出海产品,涵盖字节、爱诗科技、作业帮、美图及影笑科技等多家厂商。字节旗下的 Gauth 此次重回榜单,该产品曾因年初美国市场下架遗憾掉出上一期 Top50,而在 2024 年 8 月第 3 期榜单中其曾位列第 44 名,此次回归彰显产品竞争力的恢复。作业帮的 PolyBuzz 与爱诗科技的 PixVerse 则是从上期 “准 Top50” 的 Brink List(第 51、52 位)成功晋级,其中 PolyBuzz 探索的非订阅制商业化模式已推动收入增长,成为其上榜的重要支撑。
在新上榜的华人团队中,美图与影笑科技的表现尤为突出。美图此次新增 Wink、AirBrush、BeautyCam 三款产品入榜,叠加此前已在榜的 Meitu 与 BeautyPlus,其旗下针对生活场景的 5 款 AI 产品已全部跻身全球 AI App MAU Top50。这一成绩得益于美图 “预判爆款功能 + 社媒自发传播 + KOL 接力增长” 的策略:开发阶段便参考社媒趋势预埋潜力功能,功能走红后通过 KOL 扩大影响力,以低成本实现高增长,最终推动 BeautyCam、Wink 等产品 MAU 稳步提升。
来自杭州的影笑科技则凭借 YouCut 与 Peachy 两款新品上榜,加上上期已在榜的 Polish,其在 App 端 Top50 中已占据 3 席。两款新品均聚焦垂类场景,采用 “极简界面 + 基础功能” 设计思路:YouCut 面向 Vlog 剪辑需求,仅保留核心剪辑入口,同时提供 AI 画质修复、AI 字幕等辅助功能;Peachy 专注人像美颜,整合人像修图、AI 修图与美颜相机三大核心模块。据点点数据显示,截至 2025 年 7 月,YouCut 与 Peachy 的 MAU 分别达到 2147 万与 273 万,验证了其产品定位的精准性。
Web 端:阿里成最大赢家,Manus、Remaker 各具亮点
相较于 App 端,Web 端本期新上榜产品数量较少(共 11 款),但华人团队仍贡献 4 款产品,包括 Monica.ai 团队开发的 Manus、阿里旗下的 Quark 与 Qwen(注:a16z 榜单标注为 “Qwen3”,易与阿里模型名称混淆,此处统一称 “Qwen”),以及北京与中国香港团队联合开发的 Remaker。
Manus 作为上半年国内 AI Agent 领域的热门产品,自 2025 年 3 月 6 日发布后迅速引爆行业,其核心优势在于实现从 “信息搜索” 到 “结果交付” 的突破,推动了 AI 产品 “Agent 化” 趋势。尽管此前因国际化与合规问题将总部迁往新加坡引发争议,但数据表现依旧亮眼:Similarweb 显示其 7 月网站访问量达 1755 万,且据 Manus 首席科学家季逸超 8 月 20 日披露,公司收入运行效率已达 9000 万美元(按单月收入 ×12 推算)。
阿里此次凭借 Quark 与 Qwen 两款产品强势上榜,分别位列第 9 与第 20 位,成为 Web 端华人团队的最大赢家。其中,Qwen 定位通用 ChatBot,功能类似 ChatGPT;Quark 则从 2016 年的浏览器产品,逐步升级为整合 AI 对话、深度思考、搜索与结果交付的 “超级搜索产品”,并于今年 3 月成为阿里 “AI 旗舰应用”。组织架构上,阿里通义千问团队已于去年年底拆分,模型开发部门(通义实验室)留在阿里云,产品团队则划入智能信息事业群,与 Quark 团队平级。从流量数据看,Similarweb 显示 Quark 与 Qwen 超 90% 流量来自国内,7 月 Quark Web 端访问量不仅高于豆包,在 a16z 榜单中的排名也领先 3 位,不过在 App 端,Quark(第 47 位)与豆包(第 4 位)仍存在明显差距。
作为后起之秀,Remaker 虽名气较小,但凭借功能整合与 SEO 优势成功入榜(第 47 位)。其网站流量自 6 月起显著增长,7 月突破 1000 万,产品设计上未采用复杂工作流,而是将主流图像、视频类 AI 功能包装成独立 “小工具”,降低用户使用门槛,同时通过高效 SEO 策略吸引流量。
长期竞争力待考:华人团队需突破 “昙花一现” 困局
回溯 a16z 已发布的 5 期全球 Top50 AI 产品榜单,华人开发者产品的上榜数量呈逐期递增趋势,且近两期增速加快,展现出强劲的发展势头。然而值得注意的是,在 5 期榜单中从未缺席的华人团队产品仅有李白人工智能实验室的 cutout.pro 一款。如何在快速迭代的 AI 赛道中保持长期竞争力,避免 “短期上榜、昙花一现”,成为华人团队未来需要重点思考的问题。
2.《人工智能生成合成内容标识办法》正式施行—— 9月1日起 AI 生成内容须 “亮明身份”
【关键词: 人工智能,AI生文,AI标识,AI使用声明】
央视网报道,国家互联网信息办公室联合工业和信息化部、公安部、国家广播电视总局四部门共同发布的《人工智能生成合成内容标识办法》(以下简称《标识办法》),将于 9 月 1 日起正式落地实施。根据规定,所有通过人工智能技术生成的文字、图片、音频、视频及虚拟场景等内容,均需通过明确标识 “表明身份”,从源头规范 AI 生成内容的传播与使用。
近年来,生成式人工智能、深度合成等技术快速迭代,在推动经济发展、丰富网络内容供给、便利公众日常生活等方面发挥重要作用,但同时也催生了虚假信息传播、网络生态破坏等问题。社会各界对加快 AI 领域专项立法、强化技术监管力度、压实平台主体责任的呼声日益高涨。此次《标识办法》的出台,正是为响应社会关切,以 “内容标识” 为核心抓手,进一步细化前期部门规章中关于 AI 内容标识的要求,通过发挥标识的提醒提示与监督溯源作用,构建开放、公正、有效的治理机制,为人工智能产业健康有序发展保驾护航。
《标识办法》明确,AI 生成合成内容的标识分为 “显式标识” 与 “隐式标识” 两类。其中,显式标识是指在生成内容或交互界面中,以文字、声音、图形等用户可清晰感知的形式添加的标识;隐式标识则是通过技术手段,在内容文件数据中嵌入的、不易被用户直接察觉的标识,主要用于后台溯源与监管。
在具体执行要求上,《标识办法》作出详细规定:若服务提供者的生成合成服务符合《互联网信息服务深度合成管理规定》第十七条第一款情形,需按规范对内容添加显式标识,例如在文本首尾或中间添加文字提示,在图片适当位置标注标识,在视频起始画面、播放界面及末尾添加提示等;同时,所有 AI 生成内容的文件元数据中,都需按《互联网信息服务深度合成管理规定》第十六条要求嵌入隐式标识,鼓励采用数字水印等技术强化标识效果。
对于网络信息内容传播平台,《标识办法》要求其采取技术措施规范传播行为:若核验到文件元数据含隐式标识,需在内容发布时添加显著提示;若未核验到隐式标识但用户声明为 AI 生成,需提示内容 “可能为 AI 生成”;若检测到显式标识或 AI 生成痕迹,需标注为 “疑似 AI 生成内容”。此外,传播平台还需提供标识功能,引导用户主动声明内容是否含 AI 生成部分,并在相关文件元数据中补充传播平台信息、内容编号等要素。
《标识办法》特别强调,任何组织和个人不得恶意删除、篡改、伪造、隐匿 AI 内容标识,不得为此类行为提供工具或服务,也不得通过不正当标识手段损害他人合法权益。同时,互联网应用程序分发平台在审核上架应用时,需确认应用是否提供 AI 生成服务,并核验其标识相关材料;服务提供者需在用户协议中明确标识方法与规范,提醒用户遵守标识要求。
若用户申请获取无显式标识的 AI 生成内容,服务提供者需在协议中明确用户的标识义务与使用责任,留存用户信息及相关日志不少于六个月。在监管层面,服务提供者履行算法备案、安全评估等手续时,需提交标识相关材料,加强信息共享,为打击违法犯罪提供支持。违反《标识办法》规定的,将由网信、电信、公安、广电等部门依据职责,依法依规处理。
目前,部分平台已开始落实标识要求,例如微博已在 AI 生成内容发布界面添加 “内容由 AI 生成” 的文字标识,为用户提供清晰提示。《标识办法》的正式施行,将进一步推动 AI 生成内容的规范化管理,平衡技术创新与风险防控,保障公民、法人及其他组织的合法权益,维护社会公共利益。
更多推荐
所有评论(0)