完全去除语言模型-豆包 VideoWorld 仅靠“看”就能学习知识

与 Sora、DALL-E、Midjourney 等主流多模态模型不同,VideoWorld 通过浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力,是业界首创。

该模型属于学术研究项目,目前并未应用至产品端,在真实世界环境中的应用也还面临着高质量视频生成和多环境泛化等挑战。

纯视觉模型昭示 AI 脱离人类自主学习潜力,有望激活 " 视觉市场 ",加速推进智能硬件落地。

在技术端,VideoWorld 或使视频转码、视觉算法、视觉系统、ISP 芯片等技术发展受益;在应用端,助力机器人、自动驾驶、AI 眼镜等纯视觉场景下的模型训练,还可二次开发、灵活部署加速模型优化。

长期来看,国产大模型 " 算法创新 + 开源生态 " 有望构建一条联合创新之路,AI 基础模型加快创新,AI 应用部署门槛降低以及成本带动应用繁荣,催化推理算力需求快速增长,软件企业合作趋势也将强化。


VideoWorld 模型架构概览:左为整体架构,右为潜在动态模型;图片来源:豆包