不明觉厉的AI绘画,对内容创作者来说有什么用?

时间:2022-10-01 来源:

AI绘画的发展速度已经超乎我们的想象了。

比如以下五张图,你能看出哪一张不是用AI生成的吗?

可能不少人会觉得惊讶,两年前AI只能画一些难以辨认的模糊图片,如今,一个没有绘画基础的人用AI输入几个关键词,等待几十秒就可以生成比较精细的作品了,如果再多加练习,部分作品甚至能达到商用的水准。

AI绘画怎么猛然进入技术爆炸的时代了?

从今年2月Disco Diffusion面世,4月MidJourney上线、DALL-E 2内测, 到5月和6月Google推出Imagen和Parti,再到7月Stable Diffusion内测、开源,各种AI绘画技术迅速更迭升级,有画师感慨几乎是“一天一个样”。

这股浪潮也从国外刮到国内,百度等互联网大厂以及一大批艺术、人工智能从业者和爱好者纷纷投入AI绘画的新领域。代表平台有文心一格、6pen、Tiamat等等。

与此同时,有关AI绘画的争议和论战越发激烈。近期出圈的一个事件是AI画作《太空歌剧院》在美国科罗拉多州博览会美术比赛中获得“数字艺术/数字修饰照片”类别的最高奖项,结果受到画师们的质疑和抵制。


对于内容创作者来说,当下要如何理解AI绘画?又有哪些应用场景和亟待探索的问题呢?我们和多位创作者聊了聊,并结合各平台的案例来分析。

文章分为三部分:第一部分是对AI绘画的基本原理和发展历史的简单科普,第二部分列举了一些AI绘画的具体应用案例,第三部分是探讨目前AI绘画存在的争议和问题,希望对感兴趣的朋友有所帮助,欢迎友好交流。

一、AI绘画是素材拼贴?

首先,我们在这里讨论的AI绘画主要是通过文本生成图像的计算机程序,即“文生图”(text2image)。

比如这张图是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”(1980年代在月球上研究AI的泰迪熊)生成的。


稍微修改一下描述,把地点换成水下“underwater with 1990s technology”就能得到以下图片:


可以看到,AI绘画并不是对现有素材进行简单的“缝合拼贴”,而是根据文字描述创建新的图像,一定程度上做到了“举一反三”,可以帮助人类画出各种奇思妙想,这背后是大量而复杂的深度学习训练。

让我们从AI绘画的技术发展史来初步认识一下文生图的基本原理。


深度学习在计算机视觉领域的发展可以追溯到2012年,AI学者吴恩达和Jeff Dean等人的猫脸识别实验(通过1000台电脑创造出多达10亿个连接的“神经网络”,上万张猫脸图片的模型训练后,最终画出了一个模糊的猫脸),这意味着机器自主学会了识别猫的面孔。

此后科学家们在AI图像生成的方向上继续深入研究,提出了“GAN(生成对抗网络)”,通过生成器与判别器的互相博弈来不断提升生成能力,就像有一位老师在检查学生画得像不像,不像的话学生就重新修改,如此循环。



2015~2020年,从GAN开始,AI绘画模型进行了很多探索,但这个时候AI还做不到根据文字来生成图片。

直到2021年1月,OpenAI接连发布了两个连接文本和图像的神经网络DALL·E和CLIP。CLIP(跨模态预训练模型)基于大规模图文数据集进行了对比学习训练,可以提取文本和视觉特征来互相匹配。也就是说,AI能够将文字“猫”与猫的图像相关联,且关联的特征是非常丰富的。


在CLIP推出一年后,2022年2月,Somnai等几个开源社区的工程师制作了一款AI图像生成器Disco Diffusion(简称DD),它能理解输入的主体内容、艺术风格、结构视角和修饰词,且生成的图片更华丽。DD作为免费开源项目搭载在Google Colab上,使用浏览器即可运行,AI绘画从此走入了大众视野。


Disco Diffusion默认画作,输入文字:A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”, “yellow color scheme”(一座奇异灯塔的美丽画作,它的光芒照耀在汹涌的血海中,Greg rutkowski和Thomas kinkade风格,A站流行,黄色配色方案)

不过DD并不是“CLIP+GAN”的组合,而是“CLIP+Diffusion”,Diffusion(扩散模型)也是当下最热门的图像生成模型。

这个半路杀出的Diffusion有什么不同?

可以看到DD图片生成的过程是从模糊逐渐变得清晰


每张图像本质是一个像素点矩阵,Diffusion先是连续给图像添加高斯噪声,图像变成了一堆随机噪声,然后通过逆向反转这个噪声过程来学习恢复数据。



Diffusion模型的的扩散过程和逆扩散过程

所以当我们在DD输入一段文字描述时,程序以Diffusion随机生成的噪声为起点,CLIP会持续计算检查画面与描述的一致性,持续迭代修改,直到噪声变成正确关联的线条和色彩,从而生成满足需求的图像。

AI艺术研究者“FeiArt”认为,基于生成模型的AI绘画是一个“有码到无码”的艺术。

虽然DD实现了文生图,但因为是开源的,上手门槛比较高,光是满屏的代码可能就要劝退新手小白了。


“一开始要自己调整二三十个参数,以及编制比较合适的Prompt,才能画出比较理想的画面效果,对于使用者理解算法逻辑和写关键词的要求非常高。不过现在的版本基本不用调参数,只要写好关键词就可以了。”数字艺术家“脑玩家mindplayer”向我们介绍了DD的使用体验,她从今年3月开始在B站和小红书分享AI绘画作品和教程,是国内最早一批玩家。

DD出圈不到一个月,很快就有更成熟、门槛更低的产品出现了——Midjourney(简称MJ),目前社区成员超260万。

全国统一热线

4000-163-301

联系在线客服
不明觉厉的AI绘画,对内容创作者来说有什么用? 最新资讯 不明觉厉的AI绘画,对内容创作者来说有什么用? 相关资讯

不明觉厉的AI绘画,对内容创作者来说有什么用?

时间:2022-10-01 来源:

AI绘画的发展速度已经超乎我们的想象了。

比如以下五张图,你能看出哪一张不是用AI生成的吗?

可能不少人会觉得惊讶,两年前AI只能画一些难以辨认的模糊图片,如今,一个没有绘画基础的人用AI输入几个关键词,等待几十秒就可以生成比较精细的作品了,如果再多加练习,部分作品甚至能达到商用的水准。

AI绘画怎么猛然进入技术爆炸的时代了?

从今年2月Disco Diffusion面世,4月MidJourney上线、DALL-E 2内测, 到5月和6月Google推出Imagen和Parti,再到7月Stable Diffusion内测、开源,各种AI绘画技术迅速更迭升级,有画师感慨几乎是“一天一个样”。

这股浪潮也从国外刮到国内,百度等互联网大厂以及一大批艺术、人工智能从业者和爱好者纷纷投入AI绘画的新领域。代表平台有文心一格、6pen、Tiamat等等。

与此同时,有关AI绘画的争议和论战越发激烈。近期出圈的一个事件是AI画作《太空歌剧院》在美国科罗拉多州博览会美术比赛中获得“数字艺术/数字修饰照片”类别的最高奖项,结果受到画师们的质疑和抵制。


对于内容创作者来说,当下要如何理解AI绘画?又有哪些应用场景和亟待探索的问题呢?我们和多位创作者聊了聊,并结合各平台的案例来分析。

文章分为三部分:第一部分是对AI绘画的基本原理和发展历史的简单科普,第二部分列举了一些AI绘画的具体应用案例,第三部分是探讨目前AI绘画存在的争议和问题,希望对感兴趣的朋友有所帮助,欢迎友好交流。

一、AI绘画是素材拼贴?

首先,我们在这里讨论的AI绘画主要是通过文本生成图像的计算机程序,即“文生图”(text2image)。

比如这张图是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”(1980年代在月球上研究AI的泰迪熊)生成的。


稍微修改一下描述,把地点换成水下“underwater with 1990s technology”就能得到以下图片:


可以看到,AI绘画并不是对现有素材进行简单的“缝合拼贴”,而是根据文字描述创建新的图像,一定程度上做到了“举一反三”,可以帮助人类画出各种奇思妙想,这背后是大量而复杂的深度学习训练。

让我们从AI绘画的技术发展史来初步认识一下文生图的基本原理。


深度学习在计算机视觉领域的发展可以追溯到2012年,AI学者吴恩达和Jeff Dean等人的猫脸识别实验(通过1000台电脑创造出多达10亿个连接的“神经网络”,上万张猫脸图片的模型训练后,最终画出了一个模糊的猫脸),这意味着机器自主学会了识别猫的面孔。

此后科学家们在AI图像生成的方向上继续深入研究,提出了“GAN(生成对抗网络)”,通过生成器与判别器的互相博弈来不断提升生成能力,就像有一位老师在检查学生画得像不像,不像的话学生就重新修改,如此循环。



2015~2020年,从GAN开始,AI绘画模型进行了很多探索,但这个时候AI还做不到根据文字来生成图片。

直到2021年1月,OpenAI接连发布了两个连接文本和图像的神经网络DALL·E和CLIP。CLIP(跨模态预训练模型)基于大规模图文数据集进行了对比学习训练,可以提取文本和视觉特征来互相匹配。也就是说,AI能够将文字“猫”与猫的图像相关联,且关联的特征是非常丰富的。


在CLIP推出一年后,2022年2月,Somnai等几个开源社区的工程师制作了一款AI图像生成器Disco Diffusion(简称DD),它能理解输入的主体内容、艺术风格、结构视角和修饰词,且生成的图片更华丽。DD作为免费开源项目搭载在Google Colab上,使用浏览器即可运行,AI绘画从此走入了大众视野。


Disco Diffusion默认画作,输入文字:A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”, “yellow color scheme”(一座奇异灯塔的美丽画作,它的光芒照耀在汹涌的血海中,Greg rutkowski和Thomas kinkade风格,A站流行,黄色配色方案)

不过DD并不是“CLIP+GAN”的组合,而是“CLIP+Diffusion”,Diffusion(扩散模型)也是当下最热门的图像生成模型。

这个半路杀出的Diffusion有什么不同?

可以看到DD图片生成的过程是从模糊逐渐变得清晰


每张图像本质是一个像素点矩阵,Diffusion先是连续给图像添加高斯噪声,图像变成了一堆随机噪声,然后通过逆向反转这个噪声过程来学习恢复数据。



Diffusion模型的的扩散过程和逆扩散过程

所以当我们在DD输入一段文字描述时,程序以Diffusion随机生成的噪声为起点,CLIP会持续计算检查画面与描述的一致性,持续迭代修改,直到噪声变成正确关联的线条和色彩,从而生成满足需求的图像。

AI艺术研究者“FeiArt”认为,基于生成模型的AI绘画是一个“有码到无码”的艺术。

虽然DD实现了文生图,但因为是开源的,上手门槛比较高,光是满屏的代码可能就要劝退新手小白了。


“一开始要自己调整二三十个参数,以及编制比较合适的Prompt,才能画出比较理想的画面效果,对于使用者理解算法逻辑和写关键词的要求非常高。不过现在的版本基本不用调参数,只要写好关键词就可以了。”数字艺术家“脑玩家mindplayer”向我们介绍了DD的使用体验,她从今年3月开始在B站和小红书分享AI绘画作品和教程,是国内最早一批玩家。

DD出圈不到一个月,很快就有更成熟、门槛更低的产品出现了——Midjourney(简称MJ),目前社区成员超260万。

美妆加盟美妆店加盟美容加盟美容院加盟美容店加盟

立即投放