12.21.23 | 15:00 PM
视频生成可以无限长? 谷歌VideoPoet大模型上线
BY 媒介360
Google 新发布的 VideoPoet,是基于多模态大语言模型的技术,这款 LLM 应用可以执行多种视频生成任务,例如文本生成视频、图像生成视频、视频风格化以及修补和扩展功能,甚至视频到音频的转化 VideoPoet 都能胜任。

根据博主@歸藏的 AI 工具箱介绍,目前已有的视频生成模型几乎都是基于扩散模型的技术,而 VideoPoet 不同于扩散方法的其他模型,它可以将多个视频生成功能集中到单个 LLM(大语言模型)中,并且利用 LLM 训练基础设施来提高生成效率。

因此,扩散模型支持的功能 VideoPoet 几乎都可以完成,其中比较亮眼的功能为:能够从视频内容中获取信息自动生成环境音频;通过深度和光线信息将视频转换为其他风格;用视频的最后一秒来预测下一秒的内容,以此生成一条长视频等。

VideoPoet 通过类似的方法可以连续生成视频内容,并且能在数次重复生成中,与现有视频保持连贯性。

advertisement