不明觉厉的AI绘画，对内容创作者来说有什么用？

时间：2022-10-01 来源：

AI绘画的发展速度已经超乎我们的想象了。

比如以下五张图，你能看出哪一张不是用AI生成的吗？

可能不少人会觉得惊讶，两年前AI只能画一些难以辨认的模糊图片，如今，一个没有绘画基础的人用AI输入几个关键词，等待几十秒就可以生成比较精细的作品了，如果再多加练习，部分作品甚至能达到商用的水准。

AI绘画怎么猛然进入技术爆炸的时代了？

从今年2月Disco Diffusion面世，4月MidJourney上线、DALL-E 2内测, 到5月和6月Google推出Imagen和Parti，再到7月Stable Diffusion内测、开源，各种AI绘画技术迅速更迭升级，有画师感慨几乎是“一天一个样”。

这股浪潮也从国外刮到国内，百度等互联网大厂以及一大批艺术、人工智能从业者和爱好者纷纷投入AI绘画的新领域。代表平台有文心一格、6pen、Tiamat等等。

与此同时，有关AI绘画的争议和论战越发激烈。近期出圈的一个事件是AI画作《太空歌剧院》在美国科罗拉多州博览会美术比赛中获得“数字艺术/数字修饰照片”类别的最高奖项，结果受到画师们的质疑和抵制。

对于内容创作者来说，当下要如何理解AI绘画？又有哪些应用场景和亟待探索的问题呢？我们和多位创作者聊了聊，并结合各平台的案例来分析。

文章分为三部分：第一部分是对AI绘画的基本原理和发展历史的简单科普，第二部分列举了一些AI绘画的具体应用案例，第三部分是探讨目前AI绘画存在的争议和问题，希望对感兴趣的朋友有所帮助，欢迎友好交流。

一、AI绘画是素材拼贴？

首先，我们在这里讨论的AI绘画主要是通过文本生成图像的计算机程序，即“文生图”（text2image）。

比如这张图是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”（1980年代在月球上研究AI的泰迪熊）生成的。

稍微修改一下描述，把地点换成水下“underwater with 1990s technology”就能得到以下图片：

可以看到，AI绘画并不是对现有素材进行简单的“缝合拼贴”，而是根据文字描述创建新的图像，一定程度上做到了“举一反三”，可以帮助人类画出各种奇思妙想，这背后是大量而复杂的深度学习训练。

让我们从AI绘画的技术发展史来初步认识一下文生图的基本原理。

深度学习在计算机视觉领域的发展可以追溯到2012年，AI学者吴恩达和Jeff Dean等人的猫脸识别实验（通过1000台电脑创造出多达10亿个连接的“神经网络”，上万张猫脸图片的模型训练后，最终画出了一个模糊的猫脸），这意味着机器自主学会了识别猫的面孔。

此后科学家们在AI图像生成的方向上继续深入研究，提出了“GAN（生成对抗网络）”，通过生成器与判别器的互相博弈来不断提升生成能力，就像有一位老师在检查学生画得像不像，不像的话学生就重新修改，如此循环。

2015~2020年，从GAN开始，AI绘画模型进行了很多探索，但这个时候AI还做不到根据文字来生成图片。

直到2021年1月，OpenAI接连发布了两个连接文本和图像的神经网络DALL·E和CLIP。CLIP（跨模态预训练模型）基于大规模图文数据集进行了对比学习训练，可以提取文本和视觉特征来互相匹配。也就是说，AI能够将文字“猫”与猫的图像相关联，且关联的特征是非常丰富的。

在CLIP推出一年后，2022年2月，Somnai等几个开源社区的工程师制作了一款AI图像生成器Disco Diffusion（简称DD），它能理解输入的主体内容、艺术风格、结构视角和修饰词，且生成的图片更华丽。DD作为免费开源项目搭载在Google Colab上，使用浏览器即可运行，AI绘画从此走入了大众视野。

Disco Diffusion默认画作，输入文字：A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”, “yellow color scheme”（一座奇异灯塔的美丽画作，它的光芒照耀在汹涌的血海中，Greg rutkowski和Thomas kinkade风格，A站流行，黄色配色方案）

不过DD并不是“CLIP+GAN”的组合，而是“CLIP+Diffusion”，Diffusion（扩散模型）也是当下最热门的图像生成模型。

这个半路杀出的Diffusion有什么不同？

可以看到DD图片生成的过程是从模糊逐渐变得清晰。

每张图像本质是一个像素点矩阵，Diffusion先是连续给图像添加高斯噪声，图像变成了一堆随机噪声，然后通过逆向反转这个噪声过程来学习恢复数据。

Diffusion模型的的扩散过程和逆扩散过程

所以当我们在DD输入一段文字描述时，程序以Diffusion随机生成的噪声为起点，CLIP会持续计算检查画面与描述的一致性，持续迭代修改，直到噪声变成正确关联的线条和色彩，从而生成满足需求的图像。

AI艺术研究者“FeiArt”认为，基于生成模型的AI绘画是一个“有码到无码”的艺术。

虽然DD实现了文生图，但因为是开源的，上手门槛比较高，光是满屏的代码可能就要劝退新手小白了。

“一开始要自己调整二三十个参数，以及编制比较合适的Prompt，才能画出比较理想的画面效果，对于使用者理解算法逻辑和写关键词的要求非常高。不过现在的版本基本不用调参数，只要写好关键词就可以了。”数字艺术家“脑玩家mindplayer”向我们介绍了DD的使用体验，她从今年3月开始在B站和小红书分享AI绘画作品和教程，是国内最早一批玩家。