m360传赢 - 视频生成可以无限长？谷歌VideoPoet大模型上线

BY 媒介360

Google 新发布的 VideoPoet，是基于多模态大语言模型的技术，这款 LLM 应用可以执行多种视频生成任务，例如文本生成视频、图像生成视频、视频风格化以及修补和扩展功能，甚至视频到音频的转化 VideoPoet 都能胜任。

根据博主@歸藏的 AI 工具箱介绍，目前已有的视频生成模型几乎都是基于扩散模型的技术，而 VideoPoet 不同于扩散方法的其他模型，它可以将多个视频生成功能集中到单个 LLM（大语言模型）中，并且利用 LLM 训练基础设施来提高生成效率。

因此，扩散模型支持的功能 VideoPoet 几乎都可以完成，其中比较亮眼的功能为：能够从视频内容中获取信息自动生成环境音频；通过深度和光线信息将视频转换为其他风格；用视频的最后一秒来预测下一秒的内容，以此生成一条长视频等。

VideoPoet 通过类似的方法可以连续生成视频内容，并且能在数次重复生成中，与现有视频保持连贯性。