开云体育主如若因为视频中存在无数冗余信息-开云·Kaiyun(中国)官方网站-科技股份有限公司

发布日期：2026-04-09 13:28 点击次数：147

2月10日，字节格外旗下豆包大模子团队发布视频生成实验模子“VideoWorld”，该模子由豆包大模子团队与北京交通大学、中国科学时刻大学结合提议。不同于 Sora 、DALL-E 、Midjourney等主流多模态模子开云体育，VideoWorld在业界初次完满无需依赖言语模子即可领略寰球。

受该音信影响，本日收盘，据Wind数据，机器视觉指数涨2.45%。身分股中，中光学涨停，格灵深瞳涨9.69%，宇瞳光学涨7.54%。

需防范的是，字节里面东说念主士对记者暗意，VideoWorld视觉模子属于学术究诘样子，是在探索新的时刻行为，当今并未欺诈至居品端。另外，尽管VideoWorld在围棋和模拟机器东说念主操控环境中展现出较优性能，但在实在寰球环境中的欺诈仍面对着高质料视频生成和多环境泛化等挑战。

据官方清晰，为进行该视频模子究诘，豆包团队构建了两个实验环境：视频围棋对战和视频机器东说念主模拟操控。前者是因为围棋不错评估模子规章学习、推理和研讨能力，且围棋重要信息仅有短长两色及棋盘，可将外不雅、纹理等复杂细节与高档常识的评估区别。

同期，豆包团队还选取了机器东说念主任务，以查验模子在剖析完了规章和研讨任务方面的能力。在模子西宾技艺，团队构建了一个包含无数视频演示数据的离线数据集，让模子“不雅看”学习，以此得到一个不错字据过往不雅测，揣摸异日画面的视频生成器。

经过一段时辰的探索，豆包团队发现，视频序列的常识挖掘效果显耀过期于文本花式，主如若因为视频中存在无数冗余信息，影响模子的学习效果。比如在学习棋子移动历程中，模子只需通过现象序列中少许位置标志编码，但面向视频数据，编码器则会产生过多冗余标志，不利于模子对复杂常识的快速学习，这亦然VideoWorld模子出生的布景，保留丰富视觉信息的同期，压缩重要决议和行动关联的视觉变化，完满更有用的视频学习。

VideoWorld并非字节发布的首款视频大模子。上周，字节格外对外清晰旗下一站式AI创作平台即梦AI将上线多模态视频生成模子OmniHuman，仅需一张图片与一段音频便可生成一条AI视频，该模子为字节自研闭源模子。此前，字节已发布文生视频大模子MagicVideo - V2、通用多模态大模子UniDoc等居品。

除了字节格外，阿里、腾讯、快手等企业接踵推出视频生成类居品，并清晰在多模态边界布局。此前领受第一财经等媒体采访时，字节旗下火山引擎总裁谭待暗意，企业作念大模子是为了补助东说念主去作念各式事情，需要言语、视觉等方面的完满能力，这就条款大模子具备多模态能力，才能端到端地匡助个东说念主创业者与企业去惩办具体问题。

中信证券研报分析称，头部厂商关于多模态大模子的开发继续呈现你追我赶的态势，武备竞赛仍然浓烈。多模态大模子算法的突破将带来自动驾驶、机器东说念主等时刻的翻新性普及。视频模态更允洽C端用户的文娱需求，尤其是与短视频业态有较高匹配度，因此更有但愿催生高热度欺诈，但需要模子性能进一步老到以及居品界说进一步摸索。

举报第一财经告白相助，请点击这里此实践为第一财经原创，著述权归第一财经扫数。未经第一财经籍面授权，不得以任何款式加以使用，包括转载、摘编、复制或开发镜像。第一财经保留讲求侵权者法律包袱的权益。如需得回授权请关联第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作家