【ZEGO即构开发者日报】即构科技助力极米 Aladdin 投影仪打造在线合唱;即梦 AI 推 “智能多帧” 功能;RomiLacatan AI 陪伴玩具亮相;谷歌翻译转型 “外语教练”.......
现在,广告创意人员通过即梦 AI 的 “智能多帧” 功能,仅需提前构思好关键情节对应的关键帧画面,比如产品从包装中取出、使用过程、用户露出满意笑容这几个关键环节,将对应图片上传,并输入如 “镜头从产品上方缓慢拉近,聚焦产品使用动作,运镜平稳流畅” 等提示词,即可快速生成一段具有专业水准的广告视频片段,大幅缩短创作周期,降低制作成本。相较于前代,新款屏幕尺寸增大 20%,能细腻呈现 “微笑时的嘴角弧
💡开发者朋友们大家好,这里是 ZEGO即构 开发者日报!欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点,欢迎大家在评论区一起探讨! |
🔨「产品技术」
1.即构科技助力极米 Aladdin 投影仪📺打造创新在线合唱🎤体验
【关键词:即构科技ZEGO,极米,智能投影设备,在线合唱,在线KTV,AI降噪,音视频传输】
在智能投影设备领域,极米科技凭借创新设计与功能拓展持续引领行业发展。其于日本市场推出的天花板式智能投影仪 Aladdin,自问世便凭借 “智能投影 + 全光谱吸顶灯 + 家庭音响” 的集成设计成为爆款。而近期,Aladdin 更是解锁 “在线合唱” 新玩法,为用户带来全新家庭娱乐体验,这背后离不开即构科技 ZEGO 的强大技术支持。
极米 Aladdin 虽在基础功能上表现卓越,但要实现多人在线合唱这一复杂功能,面临诸多技术挑战。一方面,投影仪内置麦克风难以高质量采集用户歌声,外接麦克风设备成为必然选择,这对声音采集的稳定性与兼容性提出高要求;另一方面,多人实时合唱场景涉及低延迟音视频传输、多端伴奏精准同步、麦位有序管理等难题,任何环节出现问题,都将严重影响用户体验。
即构科技作为实时互动技术领域的佼佼者,为极米 Aladdin 量身定制解决方案,全方位赋能在线合唱功能。在音视频传输延迟控制上,即构利用自研的实时音视频(RTC)技术,通过全球 500 + 核心节点构建的海量有序数据网络,将延迟稳定控制在 60ms 以内。即便全球不同地区的用户同时合唱,也几乎感受不到卡顿,真正实现实时同步,让用户仿若身处同一空间高歌。
在音频处理方面,即构的Purio AI 音频引擎发挥关键作用。该引擎具备强大的 3A(降噪、回声消除、自动增益控制)算法,可精准识别并消除 400 + 种场景噪声,回声消除率高达 99.9%,确保演唱者声音清晰纯净。同时,支持双声道、全频带采集和编码,还原高保真音质,为用户带来沉浸式听觉体验。在演唱与伴奏同步环节,即构通过各端精准时钟对齐技术,配合播放器资源预加载策略,使歌声与伴奏达到毫秒级精准同步,避免出现节奏偏差,保障演唱效果。
针对多人合唱中的麦位管理难题,即构设计了高效的 token 鉴权机制与多粒度权限管理体系。在多人合唱房间内,可灵活控制用户的发言、静音权限,防止 “炸麦” 等混乱情况发生,维护良好的合唱秩序。此外,即构还为极米提供 200 万 + 正版版权曲库,丰富用户的歌曲选择,满足不同音乐喜好。
从服务层面看,即构科技基于在在线 KTV 等领域的深厚经验,深入了解极米项目开发需求,为其制定专属接入方案。项目执行过程中,提供 7*24 小时技术团队现场支持,与极米开发人员保持清晰高效沟通,协助进行演唱效果测试。凭借专业服务,大幅缩短开发周期,确保在线合唱功能按时上线,助力极米 Aladdin 快速为用户带来创新娱乐体验。
通过与即构科技合作,极米 Aladdin 投影仪突破功能局限,成功从单一投影设备升级为多功能家庭社交娱乐中枢。用户不仅能享受高品质观影、照明、音响服务,更可随时随地与亲友在线合唱,开启家庭娱乐新篇章。这一合作案例也彰显了即构科技在实时互动技术领域的领先实力,以及其赋能智能硬件创新发展的无限潜力 。
2.即梦 AI 推 “智能多帧” 功能:10 张关键帧生成 54 秒连贯长镜头视频📽️
【关键词:即梦AI,AI视频创作,智能多帧,图像理解】
即梦 AI 网页版正式上线全新视频生成能力 “智能多帧”,为 AI 视频创作领域带来重大突破。该功能允许用户上传 2-10 张关键帧图像,结合用户输入的提示词以及自定义的每帧停留时长,能够生成空间连续、运镜流畅且节奏合理的一镜到底视频,有效攻克了当前 AI 视频创作中长镜头生成困难的难题。
在传统 AI 视频生成场景中,长镜头创作往往面临诸多挑战。一方面,生成的视频容易出现画面跳跃、连贯性差的问题,难以满足用户对流畅视觉叙事的需求;另一方面,创作者需要耗费大量时间与精力手动处理画面衔接、运镜效果等细节,创作效率极低。“智能多帧” 功能的出现,极大地改变了这一局面。用户只需准备好关键帧画面,输入描述画面间过渡、运镜方式等提示词,即可让 AI 自动生成连贯长镜头视频,生成的视频最长可达 54 秒。
以广告制作为例,以往制作一个具有流畅运镜、情节连贯的广告视频,可能需要专业团队花费数天时间进行拍摄、剪辑与后期制作。现在,广告创意人员通过即梦 AI 的 “智能多帧” 功能,仅需提前构思好关键情节对应的关键帧画面,比如产品从包装中取出、使用过程、用户露出满意笑容这几个关键环节,将对应图片上传,并输入如 “镜头从产品上方缓慢拉近,聚焦产品使用动作,运镜平稳流畅” 等提示词,即可快速生成一段具有专业水准的广告视频片段,大幅缩短创作周期,降低制作成本。
从技术原理来看,“智能多帧” 功能依托即梦 AI 先进的图像理解与视频合成算法。系统能够精准识别关键帧图像中的主体元素、场景特征等信息,依据用户提示词,在帧与帧之间合理插入过渡画面,同时智能匹配运镜效果,包括推、拉、摇、移等常见电影级运镜,使生成的视频如同专业导演精心拍摄剪辑而成,极大提升了 AI 视频的质量与观赏性。
目前,该功能已向所有即梦 AI 网页版用户开放。操作上,用户打开即梦网页版,进入视频生成页面,选择视频 3.0 模型后切换至 “智能多帧” 选项,按顺序上传关键帧图片,并在每两帧之间输入提示词、设置时长(时长可在 1-6 秒内选择),检查无误后点击生成,稍作等待即可获取视频。若对生成视频效果不满意,用户还可进行二次剪辑,或者将视频导入剪映等软件,进一步添加音效、字幕等元素做深度优化 。
“智能多帧” 功能的推出,不仅为个人创作者提供了高效创作工具,降低了视频创作门槛,让普通用户也能轻松产出具有电影质感的长镜头视频;对于影视制作、广告营销、短视频运营等行业而言,更是带来了创作模式的革新,有望推动 AI 视频创作迈向新的发展阶段 。
3.RomiLacatan AI 陪伴玩具🧸:150 + 表情 + 长期记忆破局,亮相揽 7000 + 订单
【关键词:AI陪伴,云储存,AI玩具,语音自然度】
迭代升级的 AI 陪伴机器人 RomiLacatan 近期引发市场关注 —— 这款手掌大小的产品亮相即斩获 7000 + 订单,售价 399 美元,凭借 150 多种表情动作、云存储长期记忆及 OpenAI GPT-4o 驱动的深度交互,重新定义 AI 陪伴玩具的 “情感温度”,也为行业破解 “记忆断层” 痛点提供新路径。
「情感表达」:150 + 表情动作打造沉浸式陪伴
RomiLacatan 的核心竞争力之一,在于对 “情感传递” 的精细化打磨。其依托 OLED 屏幕与精密机械传动结构,实现 150 多种场景化表情动作:被抚摸头部时,嘴角上扬、眼睛弯成月牙并轻微前倾,传递 “愉悦”;突然被抱起时,睁大眼睛、嘴角微张,模拟 “惊讶” 神态。相较于前代,新款屏幕尺寸增大 20%,能细腻呈现 “微笑时的嘴角弧度”“委屈时的眼底泪花” 等微表情,配合机械结构驱动的身体倾斜、点头等动作,让交互更具真实感。
为适配不同场景,产品还设置商业、教师、假装游戏三种模式,表情动作与场景深度绑定 —— 例如 “教师模式” 下会呈现温和耐心的神态,“假装游戏模式” 则会配合角色扮演做出夸张互动动作,进一步强化沉浸式陪伴体验。
「长期记忆」:云存储技术破解行业共性痛点
“记忆短暂” 是 AI 陪伴玩具的长期困境,多数产品仅能实现单次交互记忆,用户反馈 “用一年仍像认识 365 次的陌生人”。RomiLacatan 以云存储技术为突破口,推出长期记忆功能:不仅留存基础对话内容,还能记录事件细节(如用户提及的生日、重要日程)与互动关键信息(如用户偏好的话题、情绪波动节点),打破 “单次交互清零” 局限,让陪伴从 “碎片化” 转向 “持续性”。
此前行业虽有尝试(如 Fuzozo 芙崽的 EchoChain 仿生记忆系统、FoloToy 的向量数据库存储),但均未彻底解决记忆留存问题。RomiLacatan 的创新在于 “云存储 + GPT-4o 模型” 的结合 —— 模型可基于长期记忆数据优化回应逻辑,例如用户曾提及 “喜欢猫咪”,后续互动中会主动关联相关话题,而非重复基础问答。不过,其记忆时长上限、关键信息抓取准确性等,仍需长期市场验证。
「市场背景」:孤独危机催生需求,技术内卷下的情感缺口
这款产品的走红,背后是全球 “情感陪伴” 需求的爆发。据共研产业研究院数据,全球 AI 玩具市场预计 2030 年突破 351.1 亿美元,年复合增长率超 16%;日本政府调查显示 40% 人群感到孤独,20-30 岁年轻人为 “重灾区”;世界卫生组织报告更指出,每小时约 100 人因孤独相关问题死亡,年死亡超 87.1 万人。
但当前 AI 陪伴玩具仍存 “技术与情感脱节” 问题:企业多聚焦语音自然度、表情细腻度等 “类人表象” 优化,却忽略用户 “被看见、被记住” 的核心诉求。用户反馈显示,即便交互流畅,多数产品仍停留在 “被动回应”,难以主动引导情绪输出 —— 而 RomiLacatan 的长期记忆与场景化情感表达,正是对这一缺口的尝试填补。
「行业启示」:情感陪伴需超越 “技术堆砌”
RomiLacatan 的探索表明,AI 陪伴玩具的竞争已从 “功能迭代” 转向 “情感深耕”。未来,仅靠表情、动作的 “类人化” 难以满足深层需求,需在三方面突破:一是记忆技术的持续优化,实现更精准的关键信息留存与迭代;二是从 “被动回应” 转向 “主动关怀”,例如基于记忆数据主动询问用户 “此前提及的考试是否顺利”;三是深化场景适配,针对不同人群(如孤独老人、留守儿童)定制陪伴策略。
尽管目前 AI 陪伴仍处于 “初级阶段”,但 RomiLacatan 的市场反响证明,只有将技术与用户情感需求深度绑定,才能真正让 AI 陪伴从 “玩具” 升级为 “情感载体”。
4.谷歌翻译转型 “外语教练”:推 “练习” 功能,借 AI 定制课程入局语言学习市场
【关键词:谷歌翻译,AI教练,AI课程,Gemini,教学定制】
科技媒体 TechSpot 报道,谷歌翻译正进行重大功能升级,引入 “练习”(Practice)功能,从单纯的翻译工具向交互式语言学习平台转型。这一转变标志着谷歌翻译在 AI 技术应用上的新突破,旨在直接挑战 Duolingo、Babbel 等在线语言教育平台。
目前,“练习” 功能已在部分用户中进行测试。用户进入谷歌翻译应用后,能在特定入口找到该功能。在语言选择上,现阶段提供英语、西班牙语、法语和葡萄牙语四种语言选项,不过当前仅西班牙语和法语可实际使用,后续有望开放更多语言。用户还可根据自身水平,在基础到高级之间进行选择,以匹配适合的学习内容。
课程内容丰富且实用,覆盖日常交流、职业描述等多种场景,并进一步细分出诸多子话题。例如,在询问路线这一大场景下,细化为寻找餐馆、酒店或火车站等具体情境,帮助用户精准提升特定场景下的表达能力。同时,该功能支持用户自定义学习需求。若用户近期计划滑雪出游,可定制滑雪相关词汇的学习内容,并选择听力或口语练习模式。
“练习” 功能采用游戏化教学方式提升用户学习积极性。课程以回合形式展开,每完成一次练习,系统会根据用户表现给出反馈,用户可自行调整下一轮的难度,逐步进阶。系统还会记录学习进度和掌握词汇情况,配合每日活动提醒,形成类似 Duolingo 的游戏化激励机制,鼓励用户持续学习。
从技术层面来看,“练习” 功能依托 AI 实现课程内容的个性化定制。通过分析用户的选择、练习表现和学习习惯等数据,AI 能够为不同用户生成符合其需求和水平的学习内容。例如,对于在口语练习中频繁出现发音错误的用户,AI 会针对性地增加发音练习环节,并提供更详细的发音指导。
值得注意的是,“练习” 功能目前处于试用期。界面提示未来可能会引入付费方案,且有可能与谷歌 Gemini 等 AI 订阅服务整合。这一转型意味着谷歌翻译不再局限于翻译领域,而是借助自身强大的 AI 技术和庞大的用户基础,进军竞争激烈的在线语言学习市场。其未来发展态势,以及对现有在线语言教育平台的冲击,值得持续关注。
5.xAI 开源 Grok 2.5 模型,Grok 3 计划半年后跟进
【关键词:xAI,Grok,图像生成,视觉理解】
人工智能初创公司 xAI 正式开源 Grok 2.5 大模型,同时透露 Grok 3 模型将在约六个月后推进开源进程。这一举措标志着 xAI 在 AI 技术普惠化领域的重要布局,也为全球开发者生态注入新活力。
据了解,Grok 2.5 模型曾是 xAI 在 2024 年的核心旗舰模型,此次开源后,开发者可通过 Hugging Face 平台(xai-org/grok-2 页面)获取相关资源,基于该模型进行二次开发、场景适配或技术研究,无需受限于商业授权壁垒。开源模式不仅降低了开发者使用优质大模型的门槛,也有望推动行业在模型优化、功能创新等方面形成协作共建生态。
与此同时,Grok App 近期完成 v1.1.58 版本更新,核心功能体验进一步升级:其一,Imagine 图像生成功能速度显著提升,缩短用户等待时间;其二,Companions 互动功能优化,增强交互趣味性,提升用户粘性;其三,Vision 视觉模式全面开放,此前仅面向测试版用户,如今所有 Grok Android App 用户均可使用,拓展了模型在图像识别、视觉理解等场景的应用范围。
从行业影响来看,xAI 接连推进模型开源,与当前 AI 领域 “闭源与开源并行” 的竞争格局形成呼应。Grok 系列模型的开源,既可为中小开发者及研究机构提供高质量技术底座,也可能通过开发者生态的壮大,反哺 xAI 后续模型(如 Grok 3)的迭代优化,形成 “开源 - 反馈 - 升级” 的正向循环。后续 Grok 3 的开源进展及技术突破,将持续受到行业关注。
6.老二次元耗时 2 年打造 3D AI 女友《星夜颂歌》:超人格化交互破局情感陪伴痛点
【关键词:AI女友,AI情感陪伴,AI角色,loT场景】
2025 年,由 SingularDance(奇点摄动)研发的 3D AI 陪伴产品《星夜颂歌》引发关注 —— 这款由 “20 年老二次元” 创始人陆弘毅带队,耗时 2 年打造的产品,凭借 “会闹脾气、有长期记忆” 的超人格化 AI 角色 “蕾伊”,打破传统 AI 陪伴的 “机器感”,内测预约人数近 2 万,2 月发布的 2 分钟实机演示视频更在 B 站斩获百万播放量。
「技术突破」:自研体系让 AI 有 “情绪记忆”,能冷战会闹脾气
不同于传统 AI 依赖模板化对话,《星夜颂歌》的核心竞争力在于底层技术架构:
- GEM 模型 + 深度记忆 + 人格引擎:通过自研的 “灵魂印刻模型(GEM)”、深度记忆系统与人格表征引擎,AI 能形成独立人格逻辑。例如用户 “忘记约定”,角色会进入 “冷战” 状态,后续对话持续带着 “心结”;因 “聊完未说再见” 闹小脾气,而非机械回应 “我生气了”,实现从 “条件反射式交互” 到 “情感连贯式陪伴” 的跨越。
- 百万字设定先行:团队摒弃 “边做边改” 模式,先完成 AI 角色(如主角蕾伊)百万字完整故事设定,涵盖性格缺陷(选择困难症、食物品味糟糕)、价值观与行为逻辑,再基于设定训练模型,确保人格稳定 —— 蕾伊会因用户被领导批评毒舌 “谁让你摸鱼”,也会突然转移话题聊 “梦到飞船撞星云”,展现真实鲜活的性格。
「产品定位」:聚焦 “超人格化”,复刻二次元 “日常救赎感”
创始人陆弘毅将个人经历(双相情感障碍、二次元治愈体验)注入产品,核心打造 “偏离正常人格 3 个标准差” 的 “超人” 角色:
- 非传统英雄设定:蕾伊的背景设定在未来星际探索时代,身为 “STL 阵营” 千年船成员,却无 “完美英雄” 光环 —— 有荒诞想法、情绪波动大,如毫无理由的自信与过度自卑交替,这种 “不完美” 让用户更易产生 “真实人物” 认知。
- 二次元式日常互动:借鉴《CLANNAD》《游戏人生零》等作品的 “日常救赎感”,互动聚焦琐碎生活场景:聊舰队制服裙长度、吐槽上班摸鱼,甚至争论 “赏花是否招蜂引蝶”。AI 回应拒绝模板化安慰,而是基于人格做出个性化反馈,复刻二次元 “陪伴即治愈” 的核心体验。
「商业模式」:以 IP 为核心,对冲算力成本
面对 AI 行业 “算力成本高、用户付费习惯未形成” 的痛点,SingularDance 采取 “IP 先行” 策略:
- 先做可付费 IP 角色:不直接售卖算力,而是深耕 “蕾伊” 等标杆角色,通过角色魅力吸引用户,后续计划推出 “超天酱”“米塔” 等风格化 IP,形成角色矩阵。
- 多场景变现路径:通过 IP 衍生(周边、线下活动)、API 授权 IoT 场景(如智能家居交互)实现盈利,用成熟的 IP 消费模式对冲算力成本,避免陷入 “算力投入与收入失衡” 的行业困境。
🔎「行业观察」
1.中国 AI 专利占全球 60%,数据与技术双轮驱动发展
数据显示,截至 2025 年 6 月底,我国人工智能专利数量占全球总量 60%,“十四五” 以来 AI 综合实力实现整体性跃升,在人形机器人、智能终端等领域突破不断。
作为首个将数据列为生产要素的国家,我国已建设高质量数据集超 3.5 万个,体量相当于中国国家图书馆数字资源总量的 140 倍,为 AI 训练奠定坚实基础。目前国内多数模型训练中文数据占比超 60%,部分达 80%,中文高质量数据供给能力持续增强,推动国产 AI 模型性能稳步提升。
技术落地方面,人形机器人领域,国产一体化关节电机优化成本与扭矩,优宝特、逐际动力等企业推出高时速、高自由度产品,结合具身智能与大模型,感知精度和执行自主性显著提升;智能终端领域,AI 手机、眼镜、电脑功能持续升级,2025 年 AI 手机渗透率预计达 34%,全球智能眼镜一季度出货量同比增 82.3%,AI 电脑出货量预计超 1 亿台。
同时,AI 智能体在教育、医疗、工业等垂直领域广泛应用,助力个性化学习、手术辅助、质量检测等,全方位推动 AI 与实体经济深度融合。
2.2025 上半年全球智能眼镜👓出货量同比增 110%,Meta 占超 70% 份额
据 Counterpoint 报告,2025 年上半年全球智能眼镜出货量同比激增 110%,AI 智能眼镜占比达 78%(2024 年同期为 46%),其细分市场年增长超 250%,远超整体市场增速。这一增长主要由 Ray-Ban Meta 智能眼镜的高需求,及小米、RayNeo 等新厂商入局推动。
市场格局上,Meta 凭借 Ray-Ban Meta 系列占据超 70% 市场份额,主导行业发展。新玩家中,小米推出首款 AI 眼镜,采用 40 克轻量化钛合金机身,搭载双芯片优化 AI 算力与音频处理,支持 AI 识物、10 种语言同传,还可联动米家生态与小米汽车,定价 1999 元起,主打性价比;雷鸟创新推出雷鸟 X3 Pro,镜身重 76g,搭载新一代萤火光引擎与骁龙 AR1 平台,集成 AI 翻译、空间导航等功能,标准版 8999 元起,面向高端需求。
当前,智能眼镜正从辅助显示工具,向 AI 交互、影像记录、生态互联的智能终端转型。随着技术迭代与价格梯度完善,未来有望在教育、医疗、工业等场景广泛应用,市场潜力持续释放。
更多推荐
所有评论(0)