【ZEGO即构开发者日报】即构科技助力极米 Aladdin 投影仪打造在线合唱；即梦 AI 推 “智能多帧” 功能；RomiLacatan AI 陪伴玩具亮相；谷歌翻译转型 “外语教练”.......

现在，广告创意人员通过即梦 AI 的 “智能多帧” 功能，仅需提前构思好关键情节对应的关键帧画面，比如产品从包装中取出、使用过程、用户露出满意笑容这几个关键环节，将对应图片上传，并输入如 “镜头从产品上方缓慢拉近，聚焦产品使用动作，运镜平稳流畅” 等提示词，即可快速生成一段具有专业水准的广告视频片段，大幅缩短创作周期，降低制作成本。相较于前代，新款屏幕尺寸增大 20%，能细腻呈现 “微笑时的嘴角弧

ZEGO即构开发者

630人浏览 · 2025-08-25 15:48:56

ZEGO即构开发者 · 2025-08-25 15:48:56 发布

💡开发者朋友们大家好，这里是 ZEGO即构 开发者日报！欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点，欢迎大家在评论区一起探讨！

🔨「产品技术」

1.即构科技助力极米 Aladdin 投影仪📺打造创新在线合唱🎤体验

【关键词：即构科技ZEGO，极米，智能投影设备，在线合唱，在线KTV，AI降噪，音视频传输】

在智能投影设备领域，极米科技凭借创新设计与功能拓展持续引领行业发展。其于日本市场推出的天花板式智能投影仪 Aladdin，自问世便凭借 “智能投影 + 全光谱吸顶灯 + 家庭音响” 的集成设计成为爆款。而近期，Aladdin 更是解锁 “在线合唱” 新玩法，为用户带来全新家庭娱乐体验，这背后离不开即构科技 ZEGO 的强大技术支持。

极米 Aladdin 虽在基础功能上表现卓越，但要实现多人在线合唱这一复杂功能，面临诸多技术挑战。一方面，投影仪内置麦克风难以高质量采集用户歌声，外接麦克风设备成为必然选择，这对声音采集的稳定性与兼容性提出高要求；另一方面，多人实时合唱场景涉及低延迟音视频传输、多端伴奏精准同步、麦位有序管理等难题，任何环节出现问题，都将严重影响用户体验。

即构科技作为实时互动技术领域的佼佼者，为极米 Aladdin 量身定制解决方案，全方位赋能在线合唱功能。在音视频传输延迟控制上，即构利用自研的实时音视频（RTC）技术，通过全球 500 + 核心节点构建的海量有序数据网络，将延迟稳定控制在 60ms 以内。即便全球不同地区的用户同时合唱，也几乎感受不到卡顿，真正实现实时同步，让用户仿若身处同一空间高歌。

在音频处理方面，即构的Purio AI 音频引擎发挥关键作用。该引擎具备强大的 3A（降噪、回声消除、自动增益控制）算法，可精准识别并消除 400 + 种场景噪声，回声消除率高达 99.9%，确保演唱者声音清晰纯净。同时，支持双声道、全频带采集和编码，还原高保真音质，为用户带来沉浸式听觉体验。在演唱与伴奏同步环节，即构通过各端精准时钟对齐技术，配合播放器资源预加载策略，使歌声与伴奏达到毫秒级精准同步，避免出现节奏偏差，保障演唱效果。

针对多人合唱中的麦位管理难题，即构设计了高效的 token 鉴权机制与多粒度权限管理体系。在多人合唱房间内，可灵活控制用户的发言、静音权限，防止 “炸麦” 等混乱情况发生，维护良好的合唱秩序。此外，即构还为极米提供 200 万 + 正版版权曲库，丰富用户的歌曲选择，满足不同音乐喜好。

从服务层面看，即构科技基于在在线 KTV 等领域的深厚经验，深入了解极米项目开发需求，为其制定专属接入方案。项目执行过程中，提供 7*24 小时技术团队现场支持，与极米开发人员保持清晰高效沟通，协助进行演唱效果测试。凭借专业服务，大幅缩短开发周期，确保在线合唱功能按时上线，助力极米 Aladdin 快速为用户带来创新娱乐体验。

通过与即构科技合作，极米 Aladdin 投影仪突破功能局限，成功从单一投影设备升级为多功能家庭社交娱乐中枢。用户不仅能享受高品质观影、照明、音响服务，更可随时随地与亲友在线合唱，开启家庭娱乐新篇章。这一合作案例也彰显了即构科技在实时互动技术领域的领先实力，以及其赋能智能硬件创新发展的无限潜力。

2.即梦 AI 推 “智能多帧” 功能：10 张关键帧生成 54 秒连贯长镜头视频📽️

【关键词：即梦AI，AI视频创作，智能多帧，图像理解】

即梦 AI 网页版正式上线全新视频生成能力 “智能多帧”，为 AI 视频创作领域带来重大突破。该功能允许用户上传 2-10 张关键帧图像，结合用户输入的提示词以及自定义的每帧停留时长，能够生成空间连续、运镜流畅且节奏合理的一镜到底视频，有效攻克了当前 AI 视频创作中长镜头生成困难的难题。

在传统 AI 视频生成场景中，长镜头创作往往面临诸多挑战。一方面，生成的视频容易出现画面跳跃、连贯性差的问题，难以满足用户对流畅视觉叙事的需求；另一方面，创作者需要耗费大量时间与精力手动处理画面衔接、运镜效果等细节，创作效率极低。“智能多帧” 功能的出现，极大地改变了这一局面。用户只需准备好关键帧画面，输入描述画面间过渡、运镜方式等提示词，即可让 AI 自动生成连贯长镜头视频，生成的视频最长可达 54 秒。

以广告制作为例，以往制作一个具有流畅运镜、情节连贯的广告视频，可能需要专业团队花费数天时间进行拍摄、剪辑与后期制作。现在，广告创意人员通过即梦 AI 的 “智能多帧” 功能，仅需提前构思好关键情节对应的关键帧画面，比如产品从包装中取出、使用过程、用户露出满意笑容这几个关键环节，将对应图片上传，并输入如 “镜头从产品上方缓慢拉近，聚焦产品使用动作，运镜平稳流畅” 等提示词，即可快速生成一段具有专业水准的广告视频片段，大幅缩短创作周期，降低制作成本。

从技术原理来看，“智能多帧” 功能依托即梦 AI 先进的图像理解与视频合成算法。系统能够精准识别关键帧图像中的主体元素、场景特征等信息，依据用户提示词，在帧与帧之间合理插入过渡画面，同时智能匹配运镜效果，包括推、拉、摇、移等常见电影级运镜，使生成的视频如同专业导演精心拍摄剪辑而成，极大提升了 AI 视频的质量与观赏性。

目前，该功能已向所有即梦 AI 网页版用户开放。操作上，用户打开即梦网页版，进入视频生成页面，选择视频 3.0 模型后切换至 “智能多帧” 选项，按顺序上传关键帧图片，并在每两帧之间输入提示词、设置时长（时长可在 1-6 秒内选择），检查无误后点击生成，稍作等待即可获取视频。若对生成视频效果不满意，用户还可进行二次剪辑，或者将视频导入剪映等软件，进一步添加音效、字幕等元素做深度优化。

“智能多帧” 功能的推出，不仅为个人创作者提供了高效创作工具，降低了视频创作门槛，让普通用户也能轻松产出具有电影质感的长镜头视频；对于影视制作、广告营销、短视频运营等行业而言，更是带来了创作模式的革新，有望推动 AI 视频创作迈向新的发展阶段。

3.RomiLacatan AI 陪伴玩具🧸：150 + 表情 + 长期记忆破局，亮相揽 7000 + 订单

【关键词：AI陪伴，云储存，AI玩具，语音自然度】

迭代升级的 AI 陪伴机器人 RomiLacatan 近期引发市场关注 —— 这款手掌大小的产品亮相即斩获 7000 + 订单，售价 399 美元，凭借 150 多种表情动作、云存储长期记忆及 OpenAI GPT-4o 驱动的深度交互，重新定义 AI 陪伴玩具的 “情感温度”，也为行业破解 “记忆断层” 痛点提供新路径。

「情感表达」：150 + 表情动作打造沉浸式陪伴

RomiLacatan 的核心竞争力之一，在于对 “情感传递” 的精细化打磨。其依托 OLED 屏幕与精密机械传动结构，实现 150 多种场景化表情动作：被抚摸头部时，嘴角上扬、眼睛弯成月牙并轻微前倾，传递 “愉悦”；突然被抱起时，睁大眼睛、嘴角微张，模拟 “惊讶” 神态。相较于前代，新款屏幕尺寸增大 20%，能细腻呈现 “微笑时的嘴角弧度”“委屈时的眼底泪花” 等微表情，配合机械结构驱动的身体倾斜、点头等动作，让交互更具真实感。

为适配不同场景，产品还设置商业、教师、假装游戏三种模式，表情动作与场景深度绑定 —— 例如 “教师模式” 下会呈现温和耐心的神态，“假装游戏模式” 则会配合角色扮演做出夸张互动动作，进一步强化沉浸式陪伴体验。

「长期记忆」：云存储技术破解行业共性痛点

“记忆短暂” 是 AI 陪伴玩具的长期困境，多数产品仅能实现单次交互记忆，用户反馈 “用一年仍像认识 365 次的陌生人”。RomiLacatan 以云存储技术为突破口，推出长期记忆功能：不仅留存基础对话内容，还能记录事件细节（如用户提及的生日、重要日程）与互动关键信息（如用户偏好的话题、情绪波动节点），打破 “单次交互清零” 局限，让陪伴从 “碎片化” 转向 “持续性”。

此前行业虽有尝试（如 Fuzozo 芙崽的 EchoChain 仿生记忆系统、FoloToy 的向量数据库存储），但均未彻底解决记忆留存问题。RomiLacatan 的创新在于 “云存储 + GPT-4o 模型” 的结合 —— 模型可基于长期记忆数据优化回应逻辑，例如用户曾提及 “喜欢猫咪”，后续互动中会主动关联相关话题，而非重复基础问答。不过，其记忆时长上限、关键信息抓取准确性等，仍需长期市场验证。

「市场背景」：孤独危机催生需求，技术内卷下的情感缺口

这款产品的走红，背后是全球 “情感陪伴” 需求的爆发。据共研产业研究院数据，全球 AI 玩具市场预计 2030 年突破 351.1 亿美元，年复合增长率超 16%；日本政府调查显示 40% 人群感到孤独，20-30 岁年轻人为 “重灾区”；世界卫生组织报告更指出，每小时约 100 人因孤独相关问题死亡，年死亡超 87.1 万人。

但当前 AI 陪伴玩具仍存 “技术与情感脱节” 问题：企业多聚焦语音自然度、表情细腻度等 “类人表象” 优化，却忽略用户 “被看见、被记住” 的核心诉求。用户反馈显示，即便交互流畅，多数产品仍停留在 “被动回应”，难以主动引导情绪输出 —— 而 RomiLacatan 的长期记忆与场景化情感表达，正是对这一缺口的尝试填补。

「行业启示」：情感陪伴需超越 “技术堆砌”

RomiLacatan 的探索表明，AI 陪伴玩具的竞争已从 “功能迭代” 转向 “情感深耕”。未来，仅靠表情、动作的 “类人化” 难以满足深层需求，需在三方面突破：一是记忆技术的持续优化，实现更精准的关键信息留存与迭代；二是从 “被动回应” 转向 “主动关怀”，例如基于记忆数据主动询问用户 “此前提及的考试是否顺利”；三是深化场景适配，针对不同人群（如孤独老人、留守儿童）定制陪伴策略。

尽管目前 AI 陪伴仍处于 “初级阶段”，但 RomiLacatan 的市场反响证明，只有将技术与用户情感需求深度绑定，才能真正让 AI 陪伴从 “玩具” 升级为 “情感载体”。

4.谷歌翻译转型 “外语教练”：推 “练习” 功能，借 AI 定制课程入局语言学习市场

【关键词：谷歌翻译，AI教练，AI课程，Gemini，教学定制】

科技媒体 TechSpot 报道，谷歌翻译正进行重大功能升级，引入 “练习”（Practice）功能，从单纯的翻译工具向交互式语言学习平台转型。这一转变标志着谷歌翻译在 AI 技术应用上的新突破，旨在直接挑战 Duolingo、Babbel 等在线语言教育平台。

目前，“练习” 功能已在部分用户中进行测试。用户进入谷歌翻译应用后，能在特定入口找到该功能。在语言选择上，现阶段提供英语、西班牙语、法语和葡萄牙语四种语言选项，不过当前仅西班牙语和法语可实际使用，后续有望开放更多语言。用户还可根据自身水平，在基础到高级之间进行选择，以匹配适合的学习内容。

课程内容丰富且实用，覆盖日常交流、职业描述等多种场景，并进一步细分出诸多子话题。例如，在询问路线这一大场景下，细化为寻找餐馆、酒店或火车站等具体情境，帮助用户精准提升特定场景下的表达能力。同时，该功能支持用户自定义学习需求。若用户近期计划滑雪出游，可定制滑雪相关词汇的学习内容，并选择听力或口语练习模式。

“练习” 功能采用游戏化教学方式提升用户学习积极性。课程以回合形式展开，每完成一次练习，系统会根据用户表现给出反馈，用户可自行调整下一轮的难度，逐步进阶。系统还会记录学习进度和掌握词汇情况，配合每日活动提醒，形成类似 Duolingo 的游戏化激励机制，鼓励用户持续学习。

从技术层面来看，“练习” 功能依托 AI 实现课程内容的个性化定制。通过分析用户的选择、练习表现和学习习惯等数据，AI 能够为不同用户生成符合其需求和水平的学习内容。例如，对于在口语练习中频繁出现发音错误的用户，AI 会针对性地增加发音练习环节，并提供更详细的发音指导。

值得注意的是，“练习” 功能目前处于试用期。界面提示未来可能会引入付费方案，且有可能与谷歌 Gemini 等 AI 订阅服务整合。这一转型意味着谷歌翻译不再局限于翻译领域，而是借助自身强大的 AI 技术和庞大的用户基础，进军竞争激烈的在线语言学习市场。其未来发展态势，以及对现有在线语言教育平台的冲击，值得持续关注。

5.xAI 开源 Grok 2.5 模型，Grok 3 计划半年后跟进

【关键词：xAI，Grok，图像生成，视觉理解】

人工智能初创公司 xAI 正式开源 Grok 2.5 大模型，同时透露 Grok 3 模型将在约六个月后推进开源进程。这一举措标志着 xAI 在 AI 技术普惠化领域的重要布局，也为全球开发者生态注入新活力。

据了解，Grok 2.5 模型曾是 xAI 在 2024 年的核心旗舰模型，此次开源后，开发者可通过 Hugging Face 平台（xai-org/grok-2 页面）获取相关资源，基于该模型进行二次开发、场景适配或技术研究，无需受限于商业授权壁垒。开源模式不仅降低了开发者使用优质大模型的门槛，也有望推动行业在模型优化、功能创新等方面形成协作共建生态。

与此同时，Grok App 近期完成 v1.1.58 版本更新，核心功能体验进一步升级：其一，Imagine 图像生成功能速度显著提升，缩短用户等待时间；其二，Companions 互动功能优化，增强交互趣味性，提升用户粘性；其三，Vision 视觉模式全面开放，此前仅面向测试版用户，如今所有 Grok Android App 用户均可使用，拓展了模型在图像识别、视觉理解等场景的应用范围。

从行业影响来看，xAI 接连推进模型开源，与当前 AI 领域 “闭源与开源并行” 的竞争格局形成呼应。Grok 系列模型的开源，既可为中小开发者及研究机构提供高质量技术底座，也可能通过开发者生态的壮大，反哺 xAI 后续模型（如 Grok 3）的迭代优化，形成 “开源 - 反馈 - 升级” 的正向循环。后续 Grok 3 的开源进展及技术突破，将持续受到行业关注。

6.老二次元耗时 2 年打造 3D AI 女友《星夜颂歌》：超人格化交互破局情感陪伴痛点

【关键词：AI女友，AI情感陪伴，AI角色，loT场景】

2025 年，由 SingularDance（奇点摄动）研发的 3D AI 陪伴产品《星夜颂歌》引发关注 —— 这款由 “20 年老二次元” 创始人陆弘毅带队，耗时 2 年打造的产品，凭借 “会闹脾气、有长期记忆” 的超人格化 AI 角色 “蕾伊”，打破传统 AI 陪伴的 “机器感”，内测预约人数近 2 万，2 月发布的 2 分钟实机演示视频更在 B 站斩获百万播放量。

「技术突破」：自研体系让 AI 有 “情绪记忆”，能冷战会闹脾气

不同于传统 AI 依赖模板化对话，《星夜颂歌》的核心竞争力在于底层技术架构：

GEM 模型 + 深度记忆 + 人格引擎：通过自研的 “灵魂印刻模型（GEM）”、深度记忆系统与人格表征引擎，AI 能形成独立人格逻辑。例如用户 “忘记约定”，角色会进入 “冷战” 状态，后续对话持续带着 “心结”；因 “聊完未说再见” 闹小脾气，而非机械回应 “我生气了”，实现从 “条件反射式交互” 到 “情感连贯式陪伴” 的跨越。
百万字设定先行：团队摒弃 “边做边改” 模式，先完成 AI 角色（如主角蕾伊）百万字完整故事设定，涵盖性格缺陷（选择困难症、食物品味糟糕）、价值观与行为逻辑，再基于设定训练模型，确保人格稳定 —— 蕾伊会因用户被领导批评毒舌 “谁让你摸鱼”，也会突然转移话题聊 “梦到飞船撞星云”，展现真实鲜活的性格。

「产品定位」：聚焦 “超人格化”，复刻二次元 “日常救赎感”

创始人陆弘毅将个人经历（双相情感障碍、二次元治愈体验）注入产品，核心打造 “偏离正常人格 3 个标准差” 的 “超人” 角色：

非传统英雄设定：蕾伊的背景设定在未来星际探索时代，身为 “STL 阵营” 千年船成员，却无 “完美英雄” 光环 —— 有荒诞想法、情绪波动大，如毫无理由的自信与过度自卑交替，这种 “不完美” 让用户更易产生 “真实人物” 认知。
二次元式日常互动：借鉴《CLANNAD》《游戏人生零》等作品的 “日常救赎感”，互动聚焦琐碎生活场景：聊舰队制服裙长度、吐槽上班摸鱼，甚至争论 “赏花是否招蜂引蝶”。AI 回应拒绝模板化安慰，而是基于人格做出个性化反馈，复刻二次元 “陪伴即治愈” 的核心体验。

「商业模式」：以 IP 为核心，对冲算力成本

面对 AI 行业 “算力成本高、用户付费习惯未形成” 的痛点，SingularDance 采取 “IP 先行” 策略：

先做可付费 IP 角色：不直接售卖算力，而是深耕 “蕾伊” 等标杆角色，通过角色魅力吸引用户，后续计划推出 “超天酱”“米塔” 等风格化 IP，形成角色矩阵。
多场景变现路径：通过 IP 衍生（周边、线下活动）、API 授权 IoT 场景（如智能家居交互）实现盈利，用成熟的 IP 消费模式对冲算力成本，避免陷入 “算力投入与收入失衡” 的行业困境。

🔎「行业观察」

1.中国 AI 专利占全球 60%，数据与技术双轮驱动发展

数据显示，截至 2025 年 6 月底，我国人工智能专利数量占全球总量 60%，“十四五” 以来 AI 综合实力实现整体性跃升，在人形机器人、智能终端等领域突破不断。

作为首个将数据列为生产要素的国家，我国已建设高质量数据集超 3.5 万个，体量相当于中国国家图书馆数字资源总量的 140 倍，为 AI 训练奠定坚实基础。目前国内多数模型训练中文数据占比超 60%，部分达 80%，中文高质量数据供给能力持续增强，推动国产 AI 模型性能稳步提升。

技术落地方面，人形机器人领域，国产一体化关节电机优化成本与扭矩，优宝特、逐际动力等企业推出高时速、高自由度产品，结合具身智能与大模型，感知精度和执行自主性显著提升；智能终端领域，AI 手机、眼镜、电脑功能持续升级，2025 年 AI 手机渗透率预计达 34%，全球智能眼镜一季度出货量同比增 82.3%，AI 电脑出货量预计超 1 亿台。

同时，AI 智能体在教育、医疗、工业等垂直领域广泛应用，助力个性化学习、手术辅助、质量检测等，全方位推动 AI 与实体经济深度融合。

2.2025 上半年全球智能眼镜👓出货量同比增 110%，Meta 占超 70% 份额

据 Counterpoint 报告，2025 年上半年全球智能眼镜出货量同比激增 110%，AI 智能眼镜占比达 78%（2024 年同期为 46%），其细分市场年增长超 250%，远超整体市场增速。这一增长主要由 Ray-Ban Meta 智能眼镜的高需求，及小米、RayNeo 等新厂商入局推动。

市场格局上，Meta 凭借 Ray-Ban Meta 系列占据超 70% 市场份额，主导行业发展。新玩家中，小米推出首款 AI 眼镜，采用 40 克轻量化钛合金机身，搭载双芯片优化 AI 算力与音频处理，支持 AI 识物、10 种语言同传，还可联动米家生态与小米汽车，定价 1999 元起，主打性价比；雷鸟创新推出雷鸟 X3 Pro，镜身重 76g，搭载新一代萤火光引擎与骁龙 AR1 平台，集成 AI 翻译、空间导航等功能，标准版 8999 元起，面向高端需求。

当前，智能眼镜正从辅助显示工具，向 AI 交互、影像记录、生态互联的智能终端转型。随着技术迭代与价格梯度完善，未来有望在教育、医疗、工业等场景广泛应用，市场潜力持续释放。