OpenAI发布首个文生视频模型Sora三大亮点突出

编辑：佚名来源：财经新闻网 人工智能周鸿祎

2024-02-17 23:01:13

财经新闻网消息：wRJ财经新闻网

Open AI于2月16日发布了首款视频模型Sora，可直接输出长达60秒的视频，且包含高度细致的背景、复杂的多角度镜头、多个情感人物，效果震撼。wRJ财经新闻网

业界普遍认为，AI多模态能力的快速发展将使智能计算资源更加稀缺。 360创始人周鸿祎在表达对Sora的看法时提到，Open Al训练这个模型应该多看视频。wRJ财经新闻网

业内人士表示，多模态训练和推理将进一步增加对计算基础设施的需求。wRJ财经新闻网

值得注意的是，谷歌也在同一天发布了其大作矩阵1.5。扩展后，这种多模式大型模型可以一次处理大量信息，包括长达一小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。wRJ财经新闻网

《Sora》三大亮点凸显wRJ财经新闻网

2 月 16 日，Open AI 发布了第一个视频模型 Sora。从Open AI目前展示的信息来看，Sora具有三大亮点，在AIGC领域取得了里程碑式的进展。wRJ财经新闻网

首先，Sora可以生成60秒的长视频，可以保持视频主体和背景的高度流畅性和稳定性；其次，单视频多角度拍摄，Sora可以实现一个视频多角度拍摄，分镜头切换逻辑清晰，非常流畅。 ; 然后还有理解现实世界的能力。 Sora对光影反射、运动图案、镜头移动等细节处理得很好，大大提高了真实感。wRJ财经新闻网

_周鸿祎对赌协议_周鸿祎怒怼90后 wRJ财经新闻网

_周鸿祎怒怼90后_周鸿祎对赌协议 wRJ财经新闻网

目前Sora并未完全对外开放，仅邀请部分测试者体验。wRJ财经新闻网

随后，Open AI解释了Sora的工作原理：Sora采用架构，是一种扩散模型，具有很强的可扩展性。wRJ财经新闻网

Sora从一段类似静态噪声的视频开始，通过多个步骤逐渐去除噪声，将视频从最初的随机像素转变为清晰的图像场景。wRJ财经新闻网

视频和图像是称为“补丁”的较小数据单元的集合。每个“补丁”类似于GPT中的一个标记（Token）。通过统一的数据表达方式，可以应用在更广泛的可视化数据上。训练和扩散变化，包括不同的时间、分辨率和纵横比。wRJ财经新闻网

据悉，Sora是基于过去对DALL·E和GPT的研究。它利用DALL·E 3的重述提示词技术为视觉模型训练数据生成高度描述性的注释，使模型能够更好地遵循文本指令。。wRJ财经新闻网

周鸿祎怒怼90后_周鸿祎对赌协议_ wRJ财经新闻网

周鸿祎说话很快wRJ财经新闻网

就像Open AI将于2022年底公开-3.5一样，Sora在发布当天立即引起了全球的关注。wRJ财经新闻网

360创始人周鸿祎很快发微博，提到了自己对Sora的看法。周鸿祎对空给予了高度评价。他认为Sora的诞生意味着AGI（通用人工智能）的实现可能从10年缩短到一两年。wRJ财经新闻网

周鸿祎对赌协议_周鸿祎怒怼90后_ wRJ财经新闻网

在他看来，空只是一个小小的考验。它展现的不仅仅是其视频制作能力，而是大模型理解和模拟现实世界后将带来新的成果和突破。他认为，人工智能可能不会那么快颠覆所有行业，但它可以激发更多人的创造力。wRJ财经新闻网

“很多人担心《空》对影视行业的影响，但视频的主题、剧本、镜头策划、台词配合都需要人的创造力，或者至少是提示文字。而一个视频或电影是由无数个60秒组成的。” ”周鸿祎直言，“今天的Sora可能会给广告行业、电影预告片、短视频行业带来巨大的颠覆，但可能不会那么快被打败，它可能会成为一种创作工具。”wRJ财经新闻网

周鸿祎怒怼90后__周鸿祎对赌协议 wRJ财经新闻网

谈及Sora最大的优势，周鸿祎表示，以前文盛视频软件都是在2D平面上操作图形元素。视频可以看作是多个真实图片的组合，并没有真正掌握世界的知识。 “但在Sora生成的视频中，它可以像人类一样理解坦克的冲击力巨大。坦克可以撞毁汽车，但不会出现汽车撞坦克那样的情况。”wRJ财经新闻网

他表示，此次Open AI利用大语言模型的优势，让Sora实现了理解现实世界和模拟世界的两层能力。 “这样生成的视频是真实的，可以跳出2D范围来模拟真实的物理世界。”wRJ财经新闻网

“马斯克说人类愿意承认失败”wRJ财经新闻网

值得注意的是，就在Sora发布几个小时后，特斯拉CEO马斯克就在X平台上回复多条帖子“输出”自己的观点。有网友在评论Sora生成的走在东京街头的60秒时尚女人时表示：“gg Pixar（皮克斯动画制作公司）”（编者注：gg是Good Games的缩写，意思是“玩得好”），我投降”），马斯克随后回复，“gg（人类）。” 随后，马斯克还表示，经过人工智能增强的人类将在未来几年创造出最好的作品。wRJ财经新闻网

谷歌1.5同日发布wRJ财经新闻网

事实上，在发布Sora之前，Open AI CEO 就对未来两年AI的发展充满期待。在他看来，人工智能有望在三个方面得到大幅提升：推理能力和可靠性、多模态（语音输入/输出、图像、视频）、可定制性和个性化。wRJ财经新闻网

周鸿祎怒怼90后__周鸿祎对赌协议 wRJ财经新闻网

认为，至少在未来5到10年，AI大模型技术将处于非常陡峭的增长曲线；同时他透露，Open AI新一代模型将是多模态大模型，支持语音、图像、Code、视频，并在个性化定制方面实现重大更新，推理能力更强、准确率更高；此外，他认为AI大模型的幻觉问题有望在新一代大模型中得到解决。wRJ财经新闻网

值得注意的是，另一巨头谷歌的举动也证实了奥特曼的猜想。在Sora发布的同一天，也发布了其大模型矩阵的最新力作——1.5，距离上一版本1.0发布仅2个月。wRJ财经新闻网

_周鸿祎对赌协议_周鸿祎怒怼90后 wRJ财经新闻网

作为新版本的最大亮点，在1.5版本中率先出现的多模态通用模型1.5 Pro，将稳定处理上下文上限拓展至100万条。横向对比，两个月前发布的1.0 Pro的上下文理解限制为32,000，而老对手Open AI的GPT-4 Turbo仅支持128,000。wRJ财经新闻网

这意味着1.5 Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、超过30,000行代码，或者超过700,000字的代码库，展现了其多模态能力。wRJ财经新闻网

对算力的需求将大幅增长wRJ财经新闻网

_周鸿祎怒怼90后_周鸿祎对赌协议 wRJ财经新闻网

真正具有多模态能力的大型模型的出现，例如Open AI的Sora和 1.5 Pro，首先会对基础计算能力提出更高的要求。wRJ财经新闻网

周鸿祎这次提到Open Al训练Sora模型应该可以读很多视频。 “人工智能一旦连接上摄像头，观看所有的电影和视频，它对世界的理解将远远超过文字学习。一张图胜过千言万语，而视频传达的信息质量也远远超过一张图片。”图片。” 周鸿祎说道。wRJ财经新闻网

国泰君安也认为，Sora模式将推动AI多模态领域快速发展，AI创造等相关领域将迎来深入变革，AI赋能范围将进一步扩大，多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态等。模态相关的训练和推理应用将进一步增强对人工智能的理解。计算基础设施的相关需求。wRJ财经新闻网

一些组织此前计算过，图像训练数据大大增加了训练代币的数量。例如，将224*224的图片划分为16*16的2D小块，即单个图片相当于(224*224)/(16*16)=196。图像训练材料的加入导致训练代币数量大幅增加，从而显着提高了AI训练的算力要求。wRJ财经新闻网

视频训练数据将大大增加训练代币的数量。与图像训练材料相比，视频训练材料增加了时间维度，训练过程更加复杂，生成的训练token数量更大，对算力的需求更大。wRJ财经新闻网

此时，北美四大云厂商的资本支出增幅可见一斑。近日，北美四大云厂商陆续发布了2023年第四季度业绩。数据显示，Meta、He、He在2023年第四季度的资本支出总计432亿美元，同比同比增长9.46%，增速全年首次转正。wRJ财经新闻网

以Meta为例，预计2024年全年资本支出在300亿美元至370亿美元之间，较2023年第三季度的预测上限额外增加20亿美元。该公司解释道认为这一增长主要是由于服务器需求的增长，包括人工智能和非人工智能领域的硬件，以及数据中心的建设。wRJ财经新闻网

华为在《智能世界2030》报告中预测，到2030年，人类将进入YB数据时代，通用算力增长10倍，人工智能算力增长500倍。在需求加速、供给不足的今天，智能算力已成为稀缺资源。wRJ财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comwRJ财经新闻网

全部评论

财经资讯频道推荐

互联网金融相关排行