设为首页收藏本站

开启辅助访问登录立即注册找回密码


百度云超级会员10天/3.5元	迅雷会员1.58元/天	10000T资料库3.9元	优酷会员5.3元/月

百度云会员百度网盘会员百度云盘会员百度云会员账号共享 › 首页 ›搜狐 › 查看内容

NVIDIA想要用AI实时生成视频效果远超想象

2018-12-11 15:56| 发布者: vipgu| 查看: 627| 评论: 0

摘要: 　　NVIDIA刚刚在NeurIPS大会上展示了一项新的人工智能应用，可以看作是一个驾驶模拟系统，特点是其中的视频内容由AI生成，你可通过真实方向盘来控制视频内的车辆。　　可能第一眼看上去并无太大差异，只是略微有些 ...

　　NVIDIA刚刚在NeurIPS大会上展示了一项新的人工智能应用，可以看作是一个驾驶模拟系统，特点是其中的视频内容由AI生成，你可通过真实方向盘来控制视频内的车辆。

　　可能第一眼看上去并无太大差异，只是略微有些模糊而已。然而，我要告诉你的是：这是一段通过AI技术并结合游戏引擎实时生成的虚拟视频。

　　视频内的场景布局逼真、自然，车辆行驶流畅，超乎了我的想象。虽然仔细看仍能看出一些不真实的地方，但依然会大吃一惊。不禁反问，这还是那个曾经为了提升游戏画面不断推出更高性能显卡的NVIDIA吗？

　　NVIDIA深度学习应用副总裁Bryan Catanzaro向外媒The Verge讲到：“这是通过深度学习渲染视频的新方式。很显然，NVIDIA非常关心图像的生成，同时我们还在思考如何通过人工智能改变这一领域。”

　　首先，我们来回忆一下日常看到的视频都是如何完成的。从视频内容的虚实角度来看，视频内容可以分为以下两大类：

　　第二类是动画、CG渲染等方式生成的虚拟视频，例如游戏、动画电影等，甚至有些游戏场景画面已经足够接近现实，甚至达到超现实主义画风，比真实场景更讨好的观感。

　　而今天NVIDIA针对的就是第二类，虚拟视频的生成。相信很多影视制作、游戏制作领域的朋友对此都不陌生。

　　游戏制作领域，制作者通常会采用大公司推出的较为成熟的引擎，例如Unity、Unreal Engine等。甚至也有些大的游戏公司拥有自己的游戏引擎，EA公司的寒霜、育碧公司的Realblast引擎等。

　　而在CG领域，同样也会结合到游戏引擎，甚至为了解决游戏实时的光线追踪难题，NVIDIA已经推出民用级NVIDIA RTX系列显卡，进一步下探了制作和应用上的局限。

　　很显然，NVIDIA展示的视频并不是真实的场景。其中，一个重要的识别方式在于它比较模糊，没有那么清晰。作为对比，当下售价200元左右的行车记录仪拍摄的视频也比上图要清晰。

　　实际上，这背后的技术并不新颖。早在今年8月份，NVIDIA就公布了一套名为vid2vid的视频转换方法，并随之在Arxiv公布论文。

　　论文提到如何基于现有技术实现该方案的方式，其中包括了一个名为pix2pix的开源系统，并由此开发了一套生成式对抗网络模型（GAN）。这些技术都是当前角为成熟的AI图像生成方式，包括此前由佳士得拍卖出的首个AI创作的画作，也是基于此模型创作诞生的。

　　GAN：生成式对抗网络模型，通过自我判断真假来不断强化学习的图像生成技术，不足在于不受人为控制，且画面分辨率和质量较低；

　　pix2pix：可以理解为GAN升级版，特点是支持有条件输入，通过成对的数据进行训练，

　　pix2pixHD：pix2pix高阶版，可生成高分辨率、更高质量的图像。

　　当然，这仅仅是一个驾驶模拟系统，你可以通过方向盘来控制视频内的车辆驾驶，走几个街区都没有问题，场景非常简单而且局限，你不能离开汽车，也不能与场景互动。也就是说，这套系统目前只有驾驶员视角。

　　在NVIDIA看来，这其中最值得炫耀的就是它只通过一块显卡即可完成，虽然我们猜测可能是刚刚发布的Titan系列显卡，价格上并不亲民。

　　Catanzaro表示：“一个视频场景的结构从传统角度来看都是被创造出来的，而人工智能生成的图像，但又不仅仅是图像那么简单。”这本身仅仅是一个演示Demo，并不能看作是一款游戏模型。

　　在一段效果还不错的视频渲染技术Demo背后，是NVIDIA工程师不断攻破技术难点而努力的结果。

　　据了解，这其中最大的难点在于如何保持对象的持久性，在视频为25帧的速率下如何让对象持续且看上去足够连贯。Catanzaro谈到：“由于每一帧的颜色和纹理都会发生变化，因此这也是最头疼的问题。”

　　不过，工程师仍然找到一个解决方案，就是给系统增加了一个短期记忆的能力。其作用是将每一帧图像与前一帧图像比较，从中预测图像的运动方向和轨迹，从而创建出一个与之运动方向相同的新帧。

　　虽然解决了图像稳定性的问题，但是也随之而来带来一个新的困扰。由于上个步骤用于判断和预测图像运动方向所需大量算力，因此当前的Demo仅能以25帧/秒的速度运行。

　　“这项时技术处于早期阶段，随着人工智能技术的不断演进成熟，可能需要几十年的时间才能普及到消费级应用场景中。”Catanzaro谈到，同时也谈到和光线追踪技术的对比。光线追踪技术是当前图形渲染的热门技术，不过由于种种限制，直到几周前才得以在游戏中展开应用，虽然它最初展现在大家面前已经是很多年之前了。

　　正因为当前这套系统还处于开发阶段，因此前在的应用场景也非常广泛。首先能想到的就机器人、自动驾驶厂商用于环境训练，用于自我模拟训练。