OpenAI 在2024年2月16日推出了视频生成模型“Sora”。Sora是OpenAI的首个文生视频模型,为全方位展示其功能,OpenAI同时发布了48个由Sora直接生成、未经修改、长度不等(9秒~60秒)的视频。Sora能够根据文本指令生成长达60秒的视频,同时保持视觉质量并遵守用户提示。它可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景,还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。
Sora不仅理解用户在提示中要求的内容,还能理解这些东西在现实世界中是如何存在的。OpenAI正在教人工智能理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。不过,Sora当前的模型存在弱点,可能难以准确地模拟复杂场景的物理表现,也可能无法理解因果关系的具体实例,比如视频很可能会出现一个人咬了一口饼干后,饼干上没有咬痕。同时,该模型还可能混淆诸如左和右这类的空间细节。
目前Sora还没有对外开放,但是今天Sora已经开始进行红队测试,以评估可能存在的危害或风险。OpenAI还授予了一些视觉艺术家、设计师和电影制作人访问权限,希望通过专业人士的意见来推进模型的优化。OpenAI表示,计划与专家团队合作测试最新模型,并密切关注包括错误信息、仇恨内容和偏见在内的各个领域。OpenAI正在开发工具来帮助检测视频真实性,例如一种可以识别出视频是否由Sora生成的检测分类器。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。还开发了鲁棒性的图像分类器,用于审查每个生成视频的帧,以帮助确保它在显示给用户之前符合使用政策。Sora将首先提供给网络安全教授,以评估产品的危害或风险。