ayx体育官网下载:
10月1日,OpenAI 推出新一代视频生成大模型 Sora2,凭借10秒有声一体化视频及社交化玩法迅速引爆网络,不仅让用户可对生成内容做分享、点赞、评论,形成病毒式传播,更直接加剧了国内视频模型赛道的技术竞赛压力。
面对Sora2的“破圈”,国内的视频生成模型团队迅速响应。近期,百度蒸汽机团队在接受《中国经营报》等媒体记者正常采访时透露:“国庆中秋期间合法加班。” 快手 AI 团队同样 8 天无休,不少视频模型勇于探索商业模式的公司更是全员投入工作。
10月15日,即Sora2发布半个月后,视频生成模型蒸汽机(文心专精)再次升级。在与蒸汽机团队核心成员近一小时的采访中,记者看出“卷” 成为一个高频词,而这正是国内视频生成赛道竞争态势的真实写照。
Sora2的发布,让国内视频模型团队的技术竞速节奏进一步加快。当被问及国庆中秋是否休假时,百度副总裁、移动生态商业体系负责人陈一凡坦言:“过去50多天,团队一直高强度推进工作,国庆中秋期间属于合法加班。”
百度商业体系商业研发总经理刘林补充道,蒸汽机团队的创新速度始终保持高位。“从7月 2日音视频一体化模型上线日完成版本升级,团队曾在50多天内实现两次重大迭代;此次10月15日的升级,距离上次更新同样仅间隔50多天。”
此次蒸汽机升级的核心突破,是打破了传统 AI 视频生成 10 秒左右的时长限制,在行业内首次实现AI长视频实时交互生成——用户可支持无限时长视频生成,并能在生成过程中实时交互,随时改写内容或扩写续集,标志着 AI 视频生成从 “开盲盒”“一次性输出” 迈入 “动态创作流” 新阶段,AI视频生成从“单向生成”迈向“双向共创”,真正的完成“无限画布”式的连续创作体验。
对于Sora2的爆火,百度蒸汽机团队认为它的产品化和社交裂变方面带来了重要启发。刘林表示,Sora2 的 “明星效应” 和平台化运营值得借鉴,但国内赛道的竞争激烈程度远超国外,“精彩得多、刺激得多”,且呈现百花齐放的状态。
百度商业研发首席架构师李双龙从技术层面分析指出,当前多模态领域的竞争十分焦灼,没有团队能拥有绝对、长期的技术优势,短期优势或许存在,但想领先一年或两年并不现实。
陈一凡指出,当前视频生成技术发展中,创新路径逐渐多元,但也面临明显瓶颈。“DiT架构初期表现出色,但随着需求深化,成本、生成时间、算力需求都呈几何级数增长。视频生成模型的高门槛大多数表现在两点:一是生成技术本身的复杂性,二是对‘及时满足’的要求,用户没有办法接受延时等待。” 陈一凡说。
Sora2诞生的背后,其底层模型有一定提升,让视频内容在一致性、大动作呈现、运镜丰富度等方面表现更好。但“其基础模型的升级幅度,远不如从GPT到GPT-3.5那般显著”。陈一凡说道。
为突破长视频生成的痛点,百度蒸汽机团队进行了架构层面的核心革新。“主流视频生成多采用窗口级扩散模型,其计算成本会跟着时间窗口大小呈平方级增长,不足以满足实时性需求。” 李双龙介绍,团队创新性地将自回归流式生成与扩散模型相结合,构建出新型混合架构。
“自回归视频生成模型像大语言模型一样,一个Token一个Token地生成,成本是线性的,适合长视频;同时我们通过训推一致、关键参考帧注意力、历史帧扰动等技术,有效缓解了自回归带来的累计误差与一致性问题。”李双龙强调,这一技术路径并非突发奇想,而是“从短到长、从慢到快”的自然演进。
此次升级中最引人注目的,是“实时交互”能力的实现。用户可在视频生成过程中随时暂停、修改某一段落,甚至插入新情节。
刘林强调,这一改变彻底告别了 “盲盒式生成”,“让创作过程符合创作者‘边写边改’的思维习惯,用户想到‘可编辑、可打断的长视频’,第一个就能想到蒸汽机”。
值得注意的是,Sora2 因定价高昂被开发者吐槽 “太贵”,而百度蒸汽机在升级后,仍坚持原有定价策略。刘林表示,团队有严谨的定价体系,会综合考量工程优化、算力成本与千帆平台资源,“未来会通过技术降本持续为用户释放红利,而非陷入短期价格战”。
(原标题:对话百度蒸汽机团队:国内视频生成模型赛道非常“卷”,Sora2发布后团队都没休假)
郑重声明:天天基金网发布此信息目的是传播更多详细的信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。
客服邮箱:div
人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。