【ZEGO即构开发者日报】即构科技上线云端实时语音识别 API：低延迟高精准；DeepSeek ：UE8M0 FP8 参数精度适配下一代国产芯片；百度蒸汽机 2.0 大模型上线：行业首破多......

采用 “有效内容触发识别” 机制，仅在检测到真实有效语音内容时启动识别功能，大幅提升资源利用率，相较传统方案节省 50% 以上成本在功能细节上，方案设计贴合多场景需求：识别维度支持 “房间维度”，可对 RTC 房间内所有音视频流分别识别，输出结果包含 roomid（房间 ID）、userid（用户 ID）、streamid（流 ID）、userdata（用户数据）及 ASR 识别文本等完整信息，便

ZEGO即构开发者

923人浏览 · 2025-08-22 12:01:36

ZEGO即构开发者 · 2025-08-22 12:01:36 发布

💡开发者朋友们大家好，这里是 ZEGO即构 开发者日报！欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点，欢迎大家在评论区一起探讨！

🔨「产品技术」

1.即构科技上线云端实时语音识别 API：低延迟高精准，赋能多场景实时音视频交互

即构科技 ZEGO 正式推出云端实时语音识别 API，可将语音通话、视频直播、在线会议等实时音视频场景中的语音内容，快速转化为文字结果，成功覆盖 1v1 语音通话实时字幕与翻译、在线会议实时字幕及会后纪要总结、全球直播字幕、直播间主播内容实时总结等多元场景，为实时音视频交互提供语言转译新解决方案。

该云端实时语音识别方案核心优势显著，从效率、精准度到成本实现全面优化：

「低延迟响应」：用户说话结束后，仅需约 600 毫秒即可获取 ASR 识别结果，确保实时场景下的流畅体验，避免字幕或翻译滞后影响交互；

「高识别准确度」：相较传统方案，识别准确度提升 40% 以上。通过针对性优化的降噪能力，可有效过滤环境噪声、远处人声等干扰；同时具备更优 AI 回声消除技术，能排除直播间礼物音效、背景音乐、语聊房其他用户语音等导致的误识别问题；

「低成本优势」：采用 “有效内容触发识别” 机制，仅在检测到真实有效语音内容时启动识别功能，大幅提升资源利用率，相较传统方案节省 50% 以上成本在功能细节上，方案设计贴合多场景需求：识别维度支持 “房间维度”，可对 RTC 房间内所有音视频流分别识别，输出结果包含 roomid（房间 ID）、userid（用户 ID）、streamid（流 ID）、userdata（用户数据）及 ASR 识别文本等完整信息，便于场景化管理；语言覆盖广泛，除中文普通话外，还支持粤语、上海话、四川话等 18 种方言，以及英语、日语、韩语、泰语等 16 种外语，适配跨地域、跨语种交互；断句配置灵活，用户可自定义断句间隔时长，默认设置为 500 毫秒，兼顾文字连贯性与实时性。

目前，开发者可通过即构科技官方接入文档 Server 云端实时语音识别 ZEGO即构科技 - 开发者中心 -快速接入快速对接该云端实时语音识别 API，将其应用于在线教育、跨境直播、远程办公等各类实时音视频场景。

2.DeepSeek 发布 V3.1 模型：UE8M0 FP8 参数精度适配下一代国产芯片

2025 年 8 月 22 日，深度求索（DeepSeek）正式推出 AI 模型 DeepSeek-V3.1，其核心亮点在于采用 UE8M0 FP8 Scale 参数精度。官方在评论区置顶明确表示，该参数精度是专为即将发布的下一代国产芯片设计，凸显模型与国产硬件的适配性布局。

此次模型升级包含三大关键变化：一是采用混合推理架构，单个模型可同时支持 “思考模式” 与 “非思考模式”，灵活适配不同场景需求；二是提升思考效率，相较此前的 DeepSeek-R1-0528 版本，新版本的 DeepSeek-V3.1-Think 模块能在更短时间内输出答案；三是强化 Agent 能力，通过训练后优化，模型在工具使用、智能体任务执行中的表现显著提升。

目前，DeepSeek 官方 App 及网页端已同步完成 DeepSeek-V3.1 的模型升级，用户可直接体验新版本功能。

3.百度蒸汽机 2.0 大模型上线：行业首破多人有声视频一体化生成，多版本开放体验

百度正式推出蒸汽机（MuseSteamer）音视频一体化大模型 2.0 版本，在音视频生成领域实现关键突破 —— 行业内首次达成多人有声视频一体化生成能力，为视频创作提供更高效、更具表现力的解决方案。

此次 2.0 版本的核心升级，依托三大领先技术支撑：一是多模态时空规划技术，可精准协调多人动作、场景切换与镜头运动的同步性；二是中文场景深度优化，针对中文语境下的人物表情、语音语调适配性做专项打磨，更贴合国内用户创作需求；三是音视端到端建模，打破音频与视频生成的技术壁垒，实现声音与画面的无缝融合。基于这些技术，新版本能生成多人同框的有声视频，同时支持复杂运镜效果、电影级细腻的人物动作与表情，以及高流畅度的画质，大幅提升视频创作的真实感与专业度。

目前，百度蒸汽机 2.0 的 Turbo 版、Lite 版、Pro 版及全系有声版已全面开放。个人用户可通过百度搜索 “百度蒸汽机”，或登录 “绘想” 平台直接体验；企业用户则可在百度千帆平台申领高性能视频生成服务，适配商业宣传、内容创作等多样化场景。

值得注意的是，百度曾于 8 月 19 日发布声明提示：近期海外出现大量冒充 “百度蒸汽机（MuseSteamer）” 的虚假网站，可能存在诈骗风险，呼吁用户仔细甄别官方渠道，避免遭受财产损失。

4.阿里发布 AI 编程工具 Qoder：集成顶尖模型支持 10 万文件检索，限时免费开放

阿里正式向全球用户推出 Agentic 编程平台 Qoder，这款 AI 编程工具以 “提升真实软件开发效率” 为核心定位，集成全球顶尖编程模型，并凭借多项创新功能打破传统开发瓶颈，目前处于限时免费阶段，Windows 与 macOS 版本已开放使用。

从核心能力来看，Qoder 在代码处理与智能协作上实现多重突破。

其一，具备行业领先的上下文工程能力，内置代码检索引擎可一次性检索 10 万个代码文件，大幅提升复杂项目中代码定位与复用效率；

其二，率先支持 Repo Wiki 功能，能将代码工程中的隐性知识（如开发逻辑、协作规范）转化为显性文档，帮助开发者与 AI 更精准理解项目架构；

其三，搭载长短期记忆系统，可基于历史会话总结项目经验与用户开发偏好，并以 “笔记” 形式存储，实现 AI 自我学习进化，让后续代码生成更贴合用户习惯 —— 例如用户若有 “完成任务后生成单元测试” 的需求，Qoder 会记忆该偏好并自动执行。

在使用模式上，Qoder 提供三种灵活方案适配不同开发场景：基础的 Ask Mode（问答模式）满足即时代码咨询需求；Agent Mode（智能体模式）可辅助完成工具调用、代码调试等专项任务；全新推出的 Quest Mode（AI 自主编程模式）则实现 “需求到成品” 的全流程自动化 ——AI 可扮演全栈工程师角色，将模糊需求转化为详尽设计规范，自主完成研发。官方数据显示，借助该模式开发电商网站前后端，能将原本需数天的工作量压缩至十分钟，效率提升超百倍。

目前，用户可免费下载使用 Qoder，详细定价计划将后续公布。此外，平台还提供 2 周 Pro 版试用权益，Pro 版包含 2000 次聊天与智能体请求额度、Quest Mode 及 Repo Wiki 功能； Teams 版则额外支持管理仪表盘、SSO 单点登录与集中计费，适配企业团队协作需求。

5.夏普推出口袋智能伙伴 “Poketomo”：CE-LLM 驱动对话陪伴，11 月上市含机器人与 APP 双形态

夏普正式发布口袋智能伙伴 “Poketomo”，以 “日常陪伴、情感互动” 为核心定位，凭借小巧便携的设计与个性化 AI 交互能力，旨在为用户生活增添陪伴感。该产品首版以猫鼬为设计灵感，推出机器人与智能手机应用双形态，计划于今年 11 月正式上市，同时启动分阶段预订。

“Poketomo” 的核心交互能力由夏普自主研发的 CE-LLM（Communication Edge - Large Language Model）人工智能技术支撑，可实现深度个性化语音对话：既能倾听用户分享喜悦、兴趣爱好，也能在用户孤独或情绪低落时主动发起交流、给予鼓励；更关键的是，它会记忆与用户的对话内容、用户去过的地点及见过的事物，随着使用时间推移，逐步形成更贴合用户需求的陪伴模式，强化 “专属伙伴” 属性。

在形态设计上，机器人版本高度约 12 厘米、重 200 克，小巧到可轻松放入口袋或挂在包上，手掌即可握持。它通过丰富的肢体动作与腹部 LED 灯颜色变化（如彩虹色表达快乐）传递情绪，增强互动真实感；机身配备双位置语音识别按键、麦克风、扬声器及 USB 充电口（位于脚部），支持静音模式切换。若机器人不在身边或不便语音交流，用户可通过智能手机 APP 与 “Poketomo” 进行语音或文字互动，且 APP 与机器人的对话数据实时同步，确保 “共同记忆” 一致，用户也可选择仅使用 APP 功能。

价格与上市信息方面，“Poketomo” 机器人在夏普官方线上商店售价 39600 日元（按现汇率约合 1929 元人民币），将于 11 月正式发售；配套智能手机 APP 则从 11 月起推出订阅服务，每月 495 日元（约合 24.1 元人民币）。夏普还公布销售目标：计划到 2027 年前售出 10 万台，产品将在夏普及家电量贩店的电商平台上架。

6.英国 AI 工具箱 Pixi 年入 244 万美元：功能覆盖设计与生活，但核心体验待优化

2024 年 7 月上线的英国 AI 工具应用 “AI Chatbot: Pixi”，凭借 “超级工具箱” 定位整合多元功能，上线一年多全球下载量达 419 万，累计收入 244 万美元，其中美国市场贡献 51.65% 营收，英国、加拿大等发达国家为主要补充市场，成为 AI 应用出海中 “广覆盖 + 深切入” 模式的典型案例。

「“全能工具箱”：从设计到生活需求全覆盖」

Pixi 的核心竞争力在于功能的 “广度” 与 “垂直性” 结合。在核心的 AI 设计领域，它设有 Logo 设计、签名生成、车辆造型、纹身创意、时装设计等清晰入口，用户上传素材或输入文本、选择风格即可生成结果，精准契合海外 AI 设计赛道的热度；生产力工具层面，覆盖邮件撰写、语音转文字、文档提炼、社交媒体文案生成，适配职场与个人场景；更有 “AI 专家” 模块，支持梦境解析、健康健身咨询、食谱推荐等情感与生活类交互，用户还能上传 YouTube 链接、图片或文件获取定制化分析。此外，用户可自由选择 GPT-5、GPT-4o mini 等不同模型输出结果，进一步提升个性化体验。

「设计为付费核心，订阅模式支撑营收」

尽管功能多元，但 Pixi 的营收核心仍聚焦设计类功能。据广告数据显示，过去一年其展示估值最高的广告多围绕签名设计、Logo 设计展开，8 条估值 30 万 - 78 万美元的高价值广告中，室内设计占 2 条，花园设计广告估值约 19 万美元，印证设计功能是用户付费的主要驱动力。
Pixi 采用 “免费试用 + 订阅” 模式：用户可免费体验 3 天，后续可选 49.99 美元 / 年、月付或周付套餐，订阅后可解锁全部功能，包括调用 GPT-4o 模型、无限对话及所有设计工具。目前周订阅占比最高，反映用户多为短期体验设计功能付费。不过其收入曲线已现波动，2025 年 3 月起收入增长，6 月达下载高峰，但 7-8 月收入明显回落。

「用户反馈暴露短板：体验不足恐失竞争优势」

应用商店评论显示，Pixi 的核心痛点集中在设计功能体验上：部分用户反馈 “输入提示词与系统实际使用内容不符，生成结果与预期偏差大”，且操作依赖预设提示词，缺乏自主调整空间；另有用户提到 “使用时间越长稳定性越差，调整颜色、添加电话等简单操作都会导致设计完全重置”，最终转向 ChatGPT 等竞品。此外，用户反馈渠道受限 —— 仅能选择预设提示词反馈，无法自由表达问题，进一步降低使用满意度。

「行业共性挑战：平衡 “广度” 与 “深度” 成关键」

Pixi 的模式并非个例，据 36 氪研究院数据，当前约 62% 的 AI 应用开发者选择接入第三方模型（如 Pixi 接入 GPT-5）以降低研发成本，但外部技术依赖难以替代产品层面的调优。其困境印证了 AI 工具的核心竞争力仍在 “单点体验质量”：用户愿为 “效果准、效率高” 付费，而非 “功能多”。未来，如何在 “工具箱” 的功能广度与设计等核心场景的体验深度间找到平衡，避免因 “全而不精” 流失用户，将是 Pixi 及同类 AI 工具出海的关键课题。

「广告获客聚焦设计场景，行业数据凸显模式局限」

从获客策略看，Pixi 的广告投放高度聚焦设计功能 —— 除高估值的 Logo、室内设计广告外，花园设计相关广告也有稳定关注度，进一步说明设计场景是其吸引用户下载的核心抓手。但结合行业现状，第三方模型接入的普遍性（62% 开发者采用）也意味着竞争门槛降低：若 Pixi 无法快速优化提示词篡改、设计稳定性等问题，即便依托 “工具箱” 广度吸引用户，也难以应对 ChatGPT 等兼具技术深度与体验稳定性的竞品冲击，这也是其后续需突破的核心瓶颈。

🔎「行业观察」

1.7 月海外短剧市场：下载 1.4 亿次揽金近 2 亿，免费 APP 与本土内容成新势

DataEye 2025 年 7 月海外短剧月报显示，当月 APP 双端总下载 1.414 亿次（环比增 410 万次），预估内购 1.875 亿美元（环比微降），因免费 APP 分流用户付费率、暑期线下娱乐挤压碎片时间。

地区表现分化显著：收入端美加占 46%（4866.4 万美元），日韩（12%）、东南亚（10%）次之；下载端拉美居首（4229.9 万次，34%），东南亚（20%）、南亚（13%）为增量主力。

头部 APP 格局生变：下载 TOP3 为 DramaBox（2247.7 万次）、ReelShort（1913.9 万次）、印度免费 APP Kuku TV（1850.6 万次，唯一破千万免费 APP），NetShort 下载暴涨 30.2% 至 1228 万次；收入 TOP3 是 ReelShort（4032.3 万，环比降 310.9 万）、DramaBox（3453.5 万）、NetShort（1787.9 万，环比增 222.8 万），共 5 款 APP 收入超千万。

投放端热度飙升：素材 115 万组（增 32%，创年内高），区域语种取代英语成局部主流；新 APP70 款（增 233%），超半为免费模式；IAAP（免费 + 内购）APP179 款占比超 50%，IAA 素材涨 50%。

内容上女频占优（素材 48.6 万组，男频 22.1 万），情感、都市、逆袭占 69.7%，本土题材现部落、鱼人变体；热榜 TOP30 中本土剧 21 部，印尼《Cinta Tak Sampaiku》登顶。

2.工信部组织开展2025年度人工智能赋能中小企业典型应用场景征集工作。

征集方向包含人工智能赋能中小企业“创新产品服务”，场景内容应突出中小企业运用人工智能技术实现突破性创新，研发具有前瞻性的新产品、新服务，以技术驱动业务模式根本性升级，推动经营模式和发展路径实现重大变革，开辟新的商业空间。具体可包括但不限于：①智能化产品。应用领先的人工智能技术，具备自主感知、深度学习、自主决策、互动反馈等高级功能，面向未来创新场景的智能实体或虚拟产品。②智能化服务。依托人工智能技术，对外提供的各类新型服务，以及由人工智能驱动的创新商业模式。