JavaScript is required

告别 CPU 瓶颈!智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器

随着 AI 技术的飞速发展,尤其是在大型语言模型(LLM)向视觉语言模型(VLM)及具身智能的跨越,训练数据的形式也正在经历从“静态图片”向“海量视频”的全面转变。视频数据凭借其蕴含的丰富时序信息,已成为 AI 理解物理世界动态规律的关键。

然而,伴随而来的挑战也同样巨大,海量视频数据训练面临两大核心痛点:

  • 存储难:视频数据的存储容量庞大,若将其转为图片序列(如 PNG 格式),会占用大量空间;而若存储为视频文件(如 MP4),则会导致读取速度缓慢。

  • 计算瓶颈:传统数据加载方式多依赖 CPU 进行软件解码,导致 CPU 成瓶颈,昂贵的 GPU 资源闲置浪费

可见,传统的数据加载方案(DataLoader)已无法满足高效视频数据训练的需求,成为制约模型训练速度的最大瓶颈。我们急需一个能配得上高性能 GPU 的数据加载器——这正是智元团队倾力打造 VideoDataset 的初心。

目前已正式开源,欢迎体验:

  • GitHub 地址:https://github.com/AgiBot-World/VideoDataset

01/

VideoDataset 能带来什么?

VideoDataset 是智元机器人团队基于实际 AI 训练需求深度开发的高性能视频数据加载库。

极致性能: 通过将解码任务从传统的 CPU 转移到 GPU,充分挖掘硬件解码能力,吞吐量提升 4 倍。

随机访问: 解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题,专为 AI 训练设计的随机采样功能。

无缝集成: 兼容 PyTorch Dataset 接口,提供 Mixin 类,开发者改几行代码即可接入现有训练流。

02/

VideoDataset 性能实测对比

为了更直观地评估 VideoDataset 的表现,我们进行了 VideoDataset 与主流 CPU 软件解码方案的全面性能对比测试,测试对象包括 OpenCV、Torchvision(PyAV)、Torchvision(VideoReader)和TorchCodec。

结果显示,VideoDataset与主流 CPU 软件解码方案对比,在解码吞吐量上提升了3到4倍。

并且,它能更有效地分担计算负载,从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率,还能最大限度地利用GPU资源,提高整体训练效率。

多进程下与主流 CPU 软件解码方案吞吐量(FPS)对比

CPU利用率(%)对比

同时,由于支持多解码器复用,在面对实际训练中海量视频随机解码的场景下,VideoDataset 的解码吞吐量相比主流 GPU 硬件解码方案同样也有明显的优势。

多进程下多视频随机解码吞吐量(FPS)对比

03/

VideoDataset 如何做到极限提升的?

硬件解码用于训练,突破软件解码瓶颈

传统解码软件往往针对每个视频流单独创建解码器实例,这在视频流较多、并发量高的情况下,解码器实例的动态创建与销毁将带来较大开销。VideoDataset 基于 NVIDIA Video Codec SDK 进行封装,通过多解码器(Decoder)调度和生产者—消费者模型等多种手段实现了解码与训练的完全异步流水线,使解码器利用率达到 90% 以上,提升了解码性能和吞吐量。

攻克视频随机寻帧 (Random Seek)难题

视频编码依赖前后帧(I/P/B帧),而传统的硬件解码只能顺序播放,随机跳帧时速度极慢。在 AI 训练中需要随机抽样,这就成为了训练瓶颈。Videodataset 通过将视频进行 GOP 级切分,支持快速定位到关键帧。这样,解码器无需解码整个 GOP,只需要解码到目标帧即可停止,从而实现了高效的随机寻帧。

PyTorch 多进程陷阱

解决 Python 多进程(spawn/fork)与 CUDA Context 的冲突,确保在 DataLoader 多 worker 模式下稳定运行。

04/

VideoDataset 正式开源

VideoDataset 是智元在真机训练中精心打磨出的“基建砖块”,如今正式开源,开发者可以轻松应对海量视频数据的挑战,大幅提升AI模型的训练效率,推动更多开发者与研究者一起为具身智能的未来贡献力量。

在未来的发展中,我们将不断优化和完善 VideoDataset,接下来的版本更新将包括:

  • 支持多级流水线优化,提升训练流程的灵活性与效率;

  • 完全支持Lerobot,推动生态系统的互联互通;

  • 面向PB级数据的分布式存储加载,处理海量数据不再是难题;

  • 更多视频格式的兼容,助力与HuggingFace生态深度集成。

05/

开源共研,构建开放共生新生态

智元AGIBOT自成立之初,便怀揣着让具身智能技术走出实验室、实现全民开发与产业落地的初心,立志破解机器人开发的技术壁垒,构建开放、共生的具身智能开发者生态。为此,智元从技术底层到应用层持续发力:开源 GO-1 通用基座大模型、AgiBot World 百万级真机数据集,为开发者提供核心技术底座;推出 Genie Studio 全链路开发平台、灵渠 OS 操作系统与灵创 0 代码创作平台,大幅降低开发门槛;通过举办 AgiBot World Challenge 国际赛事、启动 “智元 A 计划” 创业加速、携手产业链伙伴推进 “被集成”,全方位赋能开发者与合作伙伴。

智元AGIBOT将继续以开源为核心,与大家一同推动具身智能技术的前沿发展。我们诚邀更多志同道合的伙伴加入我们:欢迎提交 PR 和 Issue,共同完善测试与性能评测,丰富各类应用场景的验证。如果你也希望投身于这场 AI 工程化量产落地的浪潮,不妨与我们一起加速具身智能走进现实生活的步伐!

  • GitHub 地址:https://github.com/AgiBot-World/VideoDataset

点击查看全文
评论赞0分享
轨迹
智元机器人开源VideoDataset

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4