Sora在人工智能中所扮演的绝色及其技术原理【sora动态吧】

sora动态吧关注：34贴子：124

3回复贴，共1页

Sora在人工智能中所扮演的绝色及其技术原理

OpenAI究竟是怎么做到的？其官网介绍，通过一次性为模型提供多帧的预测，他们解决了一个具有挑战性的问题。
总体而言，Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构。展开讲，在视觉数据上，OpenAI把视频和图像分解为较小的数据单元Patches（补片），每个patches相当于GPT中的一个token（词元）；在语言理解能力上，采用了DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。另外，Sora还能将现有的静态图像转化成视频，精准赋予图像中内容以生动的动作；模型还能扩展现有视频或补全缺失的帧。
简单概括下来，Sora功能包括“文生视频、图生视频、扩展原视频”，长度最高可达60秒，视频更高清，细节更逼真，表现力更丰富。
约翰·麦卡锡（John McCarthy，1927年9月4日~2011年）曾定义过人工智能中数据集：数据（特定数据）不可能凭空生成，也不可能凭空消失，它们总是以各种各样的形式，存在于特定介质（光，声，磁，暗物质等）中。我们可以将其称之为人工智能第一定律。同时它也是元宇宙数字生命第一定律。
Sora生成视频内容的技术原理，即是人工智能第一定律的具体应用。