【ZEGO即构开发者日报】即构科技上线云端实时语音识别 API:低延迟高精准;DeepSeek :UE8M0 FP8 参数精度适配下一代国产芯片;百度蒸汽机 2.0 大模型上线:行业首破多......
采用 “有效内容触发识别” 机制,仅在检测到真实有效语音内容时启动识别功能,大幅提升资源利用率,相较传统方案节省 50% 以上成本在功能细节上,方案设计贴合多场景需求:识别维度支持 “房间维度”,可对 RTC 房间内所有音视频流分别识别,输出结果包含 roomid(房间 ID)、userid(用户 ID)、streamid(流 ID)、userdata(用户数据)及 ASR 识别文本等完整信息,便
💡开发者朋友们大家好,这里是 ZEGO即构 开发者日报!欢迎查阅您的实时互动日报。本栏目实时聚焦、每日更新【AI】、【泛娱乐】、【语音交互】、【实时音视频】等领域热点,欢迎大家在评论区一起探讨! |
🔨「产品技术」
1.即构科技上线云端实时语音识别 API:低延迟高精准,赋能多场景实时音视频交互
即构科技 ZEGO 正式推出云端实时语音识别 API,可将语音通话、视频直播、在线会议等实时音视频场景中的语音内容,快速转化为文字结果,成功覆盖 1v1 语音通话实时字幕与翻译、在线会议实时字幕及会后纪要总结、全球直播字幕、直播间主播内容实时总结等多元场景,为实时音视频交互提供语言转译新解决方案。
该云端实时语音识别方案核心优势显著,从效率、精准度到成本实现全面优化:
「低延迟响应」:用户说话结束后,仅需约 600 毫秒即可获取 ASR 识别结果,确保实时场景下的流畅体验,避免字幕或翻译滞后影响交互;
「高识别准确度」:相较传统方案,识别准确度提升 40% 以上。通过针对性优化的降噪能力,可有效过滤环境噪声、远处人声等干扰;同时具备更优 AI 回声消除技术,能排除直播间礼物音效、背景音乐、语聊房其他用户语音等导致的误识别问题;
「低成本优势」:采用 “有效内容触发识别” 机制,仅在检测到真实有效语音内容时启动识别功能,大幅提升资源利用率,相较传统方案节省 50% 以上成本在功能细节上,方案设计贴合多场景需求:识别维度支持 “房间维度”,可对 RTC 房间内所有音视频流分别识别,输出结果包含 roomid(房间 ID)、userid(用户 ID)、streamid(流 ID)、userdata(用户数据)及 ASR 识别文本等完整信息,便于场景化管理;语言覆盖广泛,除中文普通话外,还支持粤语、上海话、四川话等 18 种方言,以及英语、日语、韩语、泰语等 16 种外语,适配跨地域、跨语种交互;断句配置灵活,用户可自定义断句间隔时长,默认设置为 500 毫秒,兼顾文字连贯性与实时性。
目前,开发者可通过即构科技官方接入文档 Server 云端实时语音识别 ZEGO即构科技 - 开发者中心 -快速接入 快速对接该云端实时语音识别 API,将其应用于在线教育、跨境直播、远程办公等各类实时音视频场景。
2.DeepSeek 发布 V3.1 模型:UE8M0 FP8 参数精度适配下一代国产芯片
2025 年 8 月 22 日,深度求索(DeepSeek)正式推出 AI 模型 DeepSeek-V3.1,其核心亮点在于采用 UE8M0 FP8 Scale 参数精度。官方在评论区置顶明确表示,该参数精度是专为即将发布的下一代国产芯片设计,凸显模型与国产硬件的适配性布局。
此次模型升级包含三大关键变化:一是采用混合推理架构,单个模型可同时支持 “思考模式” 与 “非思考模式”,灵活适配不同场景需求;二是提升思考效率,相较此前的 DeepSeek-R1-0528 版本,新版本的 DeepSeek-V3.1-Think 模块能在更短时间内输出答案;三是强化 Agent 能力,通过训练后优化,模型在工具使用、智能体任务执行中的表现显著提升。
目前,DeepSeek 官方 App 及网页端已同步完成 DeepSeek-V3.1 的模型升级,用户可直接体验新版本功能。
3.百度蒸汽机 2.0 大模型上线:行业首破多人有声视频一体化生成,多版本开放体验
百度正式推出蒸汽机(MuseSteamer)音视频一体化大模型 2.0 版本,在音视频生成领域实现关键突破 —— 行业内首次达成多人有声视频一体化生成能力,为视频创作提供更高效、更具表现力的解决方案。
此次 2.0 版本的核心升级,依托三大领先技术支撑:一是多模态时空规划技术,可精准协调多人动作、场景切换与镜头运动的同步性;二是中文场景深度优化,针对中文语境下的人物表情、语音语调适配性做专项打磨,更贴合国内用户创作需求;三是音视端到端建模,打破音频与视频生成的技术壁垒,实现声音与画面的无缝融合。基于这些技术,新版本能生成多人同框的有声视频,同时支持复杂运镜效果、电影级细腻的人物动作与表情,以及高流畅度的画质,大幅提升视频创作的真实感与专业度。
目前,百度蒸汽机 2.0 的 Turbo 版、Lite 版、Pro 版及全系有声版已全面开放。个人用户可通过百度搜索 “百度蒸汽机”,或登录 “绘想” 平台直接体验;企业用户则可在百度千帆平台申领高性能视频生成服务,适配商业宣传、内容创作等多样化场景。
值得注意的是,百度曾于 8 月 19 日发布声明提示:近期海外出现大量冒充 “百度蒸汽机(MuseSteamer)” 的虚假网站,可能存在诈骗风险,呼吁用户仔细甄别官方渠道,避免遭受财产损失。
4.阿里发布 AI 编程工具 Qoder:集成顶尖模型支持 10 万文件检索,限时免费开放
阿里正式向全球用户推出 Agentic 编程平台 Qoder,这款 AI 编程工具以 “提升真实软件开发效率” 为核心定位,集成全球顶尖编程模型,并凭借多项创新功能打破传统开发瓶颈,目前处于限时免费阶段,Windows 与 macOS 版本已开放使用。
从核心能力来看,Qoder 在代码处理与智能协作上实现多重突破。
其一,具备行业领先的上下文工程能力,内置代码检索引擎可一次性检索 10 万个代码文件,大幅提升复杂项目中代码定位与复用效率;
其二,率先支持 Repo Wiki 功能,能将代码工程中的隐性知识(如开发逻辑、协作规范)转化为显性文档,帮助开发者与 AI 更精准理解项目架构;
其三,搭载长短期记忆系统,可基于历史会话总结项目经验与用户开发偏好,并以 “笔记” 形式存储,实现 AI 自我学习进化,让后续代码生成更贴合用户习惯 —— 例如用户若有 “完成任务后生成单元测试” 的需求,Qoder 会记忆该偏好并自动执行。
在使用模式上,Qoder 提供三种灵活方案适配不同开发场景:基础的 Ask Mode(问答模式)满足即时代码咨询需求;Agent Mode(智能体模式)可辅助完成工具调用、代码调试等专项任务;全新推出的 Quest Mode(AI 自主编程模式)则实现 “需求到成品” 的全流程自动化 ——AI 可扮演全栈工程师角色,将模糊需求转化为详尽设计规范,自主完成研发。官方数据显示,借助该模式开发电商网站前后端,能将原本需数天的工作量压缩至十分钟,效率提升超百倍。
目前,用户可免费下载使用 Qoder,详细定价计划将后续公布。此外,平台还提供 2 周 Pro 版试用权益,Pro 版包含 2000 次聊天与智能体请求额度、Quest Mode 及 Repo Wiki 功能; Teams 版则额外支持管理仪表盘、SSO 单点登录与集中计费,适配企业团队协作需求。
5.夏普推出口袋智能伙伴 “Poketomo”:CE-LLM 驱动对话陪伴,11 月上市含机器人与 APP 双形态
夏普正式发布口袋智能伙伴 “Poketomo”,以 “日常陪伴、情感互动” 为核心定位,凭借小巧便携的设计与个性化 AI 交互能力,旨在为用户生活增添陪伴感。该产品首版以猫鼬为设计灵感,推出机器人与智能手机应用双形态,计划于今年 11 月正式上市,同时启动分阶段预订。
“Poketomo” 的核心交互能力由夏普自主研发的 CE-LLM(Communication Edge - Large Language Model)人工智能技术支撑,可实现深度个性化语音对话:既能倾听用户分享喜悦、兴趣爱好,也能在用户孤独或情绪低落时主动发起交流、给予鼓励;更关键的是,它会记忆与用户的对话内容、用户去过的地点及见过的事物,随着使用时间推移,逐步形成更贴合用户需求的陪伴模式,强化 “专属伙伴” 属性。
在形态设计上,机器人版本高度约 12 厘米、重 200 克,小巧到可轻松放入口袋或挂在包上,手掌即可握持。它通过丰富的肢体动作与腹部 LED 灯颜色变化(如彩虹色表达快乐)传递情绪,增强互动真实感;机身配备双位置语音识别按键、麦克风、扬声器及 USB 充电口(位于脚部),支持静音模式切换。若机器人不在身边或不便语音交流,用户可通过智能手机 APP 与 “Poketomo” 进行语音或文字互动,且 APP 与机器人的对话数据实时同步,确保 “共同记忆” 一致,用户也可选择仅使用 APP 功能。
价格与上市信息方面,“Poketomo” 机器人在夏普官方线上商店售价 39600 日元(按现汇率约合 1929 元人民币),将于 11 月正式发售;配套智能手机 APP 则从 11 月起推出订阅服务,每月 495 日元(约合 24.1 元人民币)。夏普还公布销售目标:计划到 2027 年前售出 10 万台,产品将在夏普及家电量贩店的电商平台上架。
6.英国 AI 工具箱 Pixi 年入 244 万美元:功能覆盖设计与生活,但核心体验待优化
2024 年 7 月上线的英国 AI 工具应用 “AI Chatbot: Pixi”,凭借 “超级工具箱” 定位整合多元功能,上线一年多全球下载量达 419 万,累计收入 244 万美元,其中美国市场贡献 51.65% 营收,英国、加拿大等发达国家为主要补充市场,成为 AI 应用出海中 “广覆盖 + 深切入” 模式的典型案例。
「“全能工具箱”:从设计到生活需求全覆盖」
Pixi 的核心竞争力在于功能的 “广度” 与 “垂直性” 结合。在核心的 AI 设计领域,它设有 Logo 设计、签名生成、车辆造型、纹身创意、时装设计等清晰入口,用户上传素材或输入文本、选择风格即可生成结果,精准契合海外 AI 设计赛道的热度;生产力工具层面,覆盖邮件撰写、语音转文字、文档提炼、社交媒体文案生成,适配职场与个人场景;更有 “AI 专家” 模块,支持梦境解析、健康健身咨询、食谱推荐等情感与生活类交互,用户还能上传 YouTube 链接、图片或文件获取定制化分析。此外,用户可自由选择 GPT-5、GPT-4o mini 等不同模型输出结果,进一步提升个性化体验。
「设计为付费核心,订阅模式支撑营收」
尽管功能多元,但 Pixi 的营收核心仍聚焦设计类功能。据广告数据显示,过去一年其展示估值最高的广告多围绕签名设计、Logo 设计展开,8 条估值 30 万 - 78 万美元的高价值广告中,室内设计占 2 条,花园设计广告估值约 19 万美元,印证设计功能是用户付费的主要驱动力。
Pixi 采用 “免费试用 + 订阅” 模式:用户可免费体验 3 天,后续可选 49.99 美元 / 年、月付或周付套餐,订阅后可解锁全部功能,包括调用 GPT-4o 模型、无限对话及所有设计工具。目前周订阅占比最高,反映用户多为短期体验设计功能付费。不过其收入曲线已现波动,2025 年 3 月起收入增长,6 月达下载高峰,但 7-8 月收入明显回落。
「用户反馈暴露短板:体验不足恐失竞争优势」
应用商店评论显示,Pixi 的核心痛点集中在设计功能体验上:部分用户反馈 “输入提示词与系统实际使用内容不符,生成结果与预期偏差大”,且操作依赖预设提示词,缺乏自主调整空间;另有用户提到 “使用时间越长稳定性越差,调整颜色、添加电话等简单操作都会导致设计完全重置”,最终转向 ChatGPT 等竞品。此外,用户反馈渠道受限 —— 仅能选择预设提示词反馈,无法自由表达问题,进一步降低使用满意度。
「行业共性挑战:平衡 “广度” 与 “深度” 成关键」
Pixi 的模式并非个例,据 36 氪研究院数据,当前约 62% 的 AI 应用开发者选择接入第三方模型(如 Pixi 接入 GPT-5)以降低研发成本,但外部技术依赖难以替代产品层面的调优。其困境印证了 AI 工具的核心竞争力仍在 “单点体验质量”:用户愿为 “效果准、效率高” 付费,而非 “功能多”。未来,如何在 “工具箱” 的功能广度与设计等核心场景的体验深度间找到平衡,避免因 “全而不精” 流失用户,将是 Pixi 及同类 AI 工具出海的关键课题。
「广告获客聚焦设计场景,行业数据凸显模式局限」
从获客策略看,Pixi 的广告投放高度聚焦设计功能 —— 除高估值的 Logo、室内设计广告外,花园设计相关广告也有稳定关注度,进一步说明设计场景是其吸引用户下载的核心抓手。但结合行业现状,第三方模型接入的普遍性(62% 开发者采用)也意味着竞争门槛降低:若 Pixi 无法快速优化提示词篡改、设计稳定性等问题,即便依托 “工具箱” 广度吸引用户,也难以应对 ChatGPT 等兼具技术深度与体验稳定性的竞品冲击,这也是其后续需突破的核心瓶颈。
🔎「行业观察」
1.7 月海外短剧市场:下载 1.4 亿次揽金近 2 亿,免费 APP 与本土内容成新势
DataEye 2025 年 7 月海外短剧月报显示,当月 APP 双端总下载 1.414 亿次(环比增 410 万次),预估内购 1.875 亿美元(环比微降),因免费 APP 分流用户付费率、暑期线下娱乐挤压碎片时间。
地区表现分化显著:收入端美加占 46%(4866.4 万美元),日韩(12%)、东南亚(10%)次之;下载端拉美居首(4229.9 万次,34%),东南亚(20%)、南亚(13%)为增量主力。
头部 APP 格局生变:下载 TOP3 为 DramaBox(2247.7 万次)、ReelShort(1913.9 万次)、印度免费 APP Kuku TV(1850.6 万次,唯一破千万免费 APP),NetShort 下载暴涨 30.2% 至 1228 万次;收入 TOP3 是 ReelShort(4032.3 万,环比降 310.9 万)、DramaBox(3453.5 万)、NetShort(1787.9 万,环比增 222.8 万),共 5 款 APP 收入超千万。
投放端热度飙升:素材 115 万组(增 32%,创年内高),区域语种取代英语成局部主流;新 APP70 款(增 233%),超半为免费模式;IAAP(免费 + 内购)APP179 款占比超 50%,IAA 素材涨 50%。
内容上女频占优(素材 48.6 万组,男频 22.1 万),情感、都市、逆袭占 69.7%,本土题材现部落、鱼人变体;热榜 TOP30 中本土剧 21 部,印尼《Cinta Tak Sampaiku》登顶。
2.工信部组织开展2025年度人工智能赋能中小企业典型应用场景征集工作。
征集方向包含人工智能赋能中小企业“创新产品服务”,场景内容应突出中小企业运用人工智能技术实现突破性创新,研发具有前瞻性的新产品、新服务,以技术驱动业务模式根本性升级,推动经营模式和发展路径实现重大变革,开辟新的商业空间。具体可包括但不限于:①智能化产品。应用领先的人工智能技术,具备自主感知、深度学习、自主决策、互动反馈等高级功能,面向未来创新场景的智能实体或虚拟产品。②智能化服务。依托人工智能技术,对外提供的各类新型服务,以及由人工智能驱动的创新商业模式。
更多推荐
所有评论(0)