发布时间:2024-02-19 09:50:55    次浏览
2月16日凌晨,OpenAI在官网发布视频生成模型Sora,该模型可根据文字生成一段长达1分钟的视频。相比此前的其他视频生成模型,Sora在时长、精细度方面都实现了现象级突破。
“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克,红色长裙,黑色靴子……”输入文字要求,该模型便可依据内容自动生成一段60秒的视频。视频画面中,潮湿积水的街道映照着上空的影像,光影效果、虚实变化等细节都非常逼线秒后,连女性皮肤上的毛孔、皱纹、瑕疵都清晰无遗,细节拉满让人真假难辨。
OpenAI官网还展示了多段文本生成视频作品,如两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。
Sora的出现激发了网友的强烈好奇,从已公开作品来看,该模型不仅能模拟现实中存在的事物,也为想象中才能看到的画面提供了视频化的可能。有网友表示,以后能让AI描绘自己的梦了,还有网友称想看看国足勇夺世界杯冠军
OpenAI表示,该模型可以在生成视频的同时保持视觉质量并遵守用户的提示。目前正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界互动的问题。
除了根据文本生成内容外,Sora还可以根据预先存在的图像或视频,执行广泛的图像和视频编辑任务,如创建完美的循环视频,将静态图像动态化,向前或向后扩展视频等。
OpenAI在其技术报告中展示了基于DALL·E 2和DALL·E 3的图像生成的视频,其中一段9秒长的冲浪片段,不仅动态化还原了静态图片中的场景,还将图像中原本被遮挡的部分进行了编辑和扩充。
Sora视频编辑潜力的又一体现在于其时间线扩展功能,技术报告介绍,Sora能在时间上向前或向后扩展视频。官网发布的几个片段都是从某段视频开始,向过去进行延伸,因此,尽管4个视频的开头各不相同,但其走向却都殊途同归。
除此之外,该模型还具备很强的设备兼容性,能够适配不同的尺寸和分辨率要求。
当然,OpenAI也承认,Sora目前还存在一些局限性。该模型可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人咬了一口饼干,但饼干却没有咬痕,一个玻璃杯尚未破碎,杯中饮料已洒落桌面。
报告还提到,在长时间样本中,可能出现不连贯现象。该模型可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
尽管如此,作为第一代文字生成视频模型,Sora的商业价值仍然难以估量。据财联社报道,随着OpenAI与风司Thrive capital达成最新股票出售协议,OpenAI的估值已经提高到800亿美元以上,这意味着该公司的估值已达到九个月前的近3倍。
Sora刷屏后不久,关于造成行业冲击的话题便再次引发热议,影视特效等内容生产行业首当其冲。
面对Sora强大的内容生产能力,上海戏剧学院导演系副教授章文颖告诉海报新闻记者,可以预见的是,技术进步带来的制作成本降低可能会使许多后期工作被替代,如视频剪辑、后期制作。另一方面,随着技术更新,群演可以直接用技术生成,主演用复杂的模型也可以,这就意味着不只是幕后工作者,台前的演员同样可能受到威胁。
不过,新的技术也会催生新的工种和工作方式,章文颖认为,不必对此有过多担忧。更重要的是,艺术和影视创作需要有文化和精神内容,技术再高端,也很难取代作品的精神内核,“影响肯定有,起码可以降作成本,但对虚构类的影视作品来说肯定还是内容为王。”
章文颖还说泽装备制造,Sora能够根据输入的文字自动生成视频,这在新闻报道领域同样有应用空间。除了代劳一部分简单的新闻报道工作,此类技术模型还可能为假新闻打开方便之门。
360集团创始人周鸿祎表示泽装备制造,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合都需要人的创意。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败Tik Tok,更可能成为Tik Tok的创作工具。
虽然Sora风头正猛,但在章文颖看来,这款所谓史诗级模型的存在感目前还停留在宣传和金融层面,它对行业的具体影响还要等到正式投入使用时才能见分晓。泽装备制造