不明觉厉的AI绘画,对内容创作者来说有什么用?
AI绘画的发展速度已经超乎我们的想象了。
比如以下五张图,你能看出哪一张不是用AI生成的吗?
可能不少人会觉得惊讶,两年前AI只能画一些难以辨认的模糊图片,如今,一个没有绘画基础的人用AI输入几个关键词,等待几十秒就可以生成比较精细的作品了,如果再多加练习,部分作品甚至能达到商用的水准。
AI绘画怎么猛然进入技术爆炸的时代了?
从今年2月Disco Diffusion面世,4月MidJourney上线、DALL-E 2内测, 到5月和6月Google推出Imagen和Parti,再到7月Stable Diffusion内测、开源,各种AI绘画技术迅速更迭升级,有画师感慨几乎是“一天一个样”。
这股浪潮也从国外刮到国内,百度等互联网大厂以及一大批艺术、人工智能从业者和爱好者纷纷投入AI绘画的新领域。代表平台有文心一格、6pen、Tiamat等等。
与此同时,有关AI绘画的争议和论战越发激烈。近期出圈的一个事件是AI画作《太空歌剧院》在美国科罗拉多州博览会美术比赛中获得“数字艺术/数字修饰照片”类别的最高奖项,结果受到画师们的质疑和抵制。
对于内容创作者来说,当下要如何理解AI绘画?又有哪些应用场景和亟待探索的问题呢?我们和多位创作者聊了聊,并结合各平台的案例来分析。
文章分为三部分:第一部分是对AI绘画的基本原理和发展历史的简单科普,第二部分列举了一些AI绘画的具体应用案例,第三部分是探讨目前AI绘画存在的争议和问题,希望对感兴趣的朋友有所帮助,欢迎友好交流。
一、AI绘画是素材拼贴?
首先,我们在这里讨论的AI绘画主要是通过文本生成图像的计算机程序,即“文生图”(text2image)。
比如这张图是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”(1980年代在月球上研究AI的泰迪熊)生成的。
稍微修改一下描述,把地点换成水下“underwater with 1990s technology”就能得到以下图片:
可以看到,AI绘画并不是对现有素材进行简单的“缝合拼贴”,而是根据文字描述创建新的图像,一定程度上做到了“举一反三”,可以帮助人类画出各种奇思妙想,这背后是大量而复杂的深度学习训练。
让我们从AI绘画的技术发展史来初步认识一下文生图的基本原理。
深度学习在计算机视觉领域的发展可以追溯到2012年,AI学者吴恩达和Jeff Dean等人的猫脸识别实验(通过1000台电脑创造出多达10亿个连接的“神经网络”,上万张猫脸图片的模型训练后,最终画出了一个模糊的猫脸),这意味着机器自主学会了识别猫的面孔。
此后科学家们在AI图像生成的方向上继续深入研究,提出了“GAN(生成对抗网络)”,通过生成器与判别器的互相博弈来不断提升生成能力,就像有一位老师在检查学生画得像不像,不像的话学生就重新修改,如此循环。
2015~2020年,从GAN开始,AI绘画模型进行了很多探索,但这个时候AI还做不到根据文字来生成图片。
直到2021年1月,OpenAI接连发布了两个连接文本和图像的神经网络DALL·E和CLIP。CLIP(跨模态预训练模型)基于大规模图文数据集进行了对比学习训练,可以提取文本和视觉特征来互相匹配。也就是说,AI能够将文字“猫”与猫的图像相关联,且关联的特征是非常丰富的。
在CLIP推出一年后,2022年2月,Somnai等几个开源社区的工程师制作了一款AI图像生成器Disco Diffusion(简称DD),它能理解输入的主体内容、艺术风格、结构视角和修饰词,且生成的图片更华丽。DD作为免费开源项目搭载在Google Colab上,使用浏览器即可运行,AI绘画从此走入了大众视野。
Disco Diffusion默认画作,输入文字:A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”, “yellow color scheme”(一座奇异灯塔的美丽画作,它的光芒照耀在汹涌的血海中,Greg rutkowski和Thomas kinkade风格,A站流行,黄色配色方案)
不过DD并不是“CLIP+GAN”的组合,而是“CLIP+Diffusion”,Diffusion(扩散模型)也是当下最热门的图像生成模型。
这个半路杀出的Diffusion有什么不同?
可以看到DD图片生成的过程是从模糊逐渐变得清晰。
每张图像本质是一个像素点矩阵,Diffusion先是连续给图像添加高斯噪声,图像变成了一堆随机噪声,然后通过逆向反转这个噪声过程来学习恢复数据。
Diffusion模型的的扩散过程和逆扩散过程
所以当我们在DD输入一段文字描述时,程序以Diffusion随机生成的噪声为起点,CLIP会持续计算检查画面与描述的一致性,持续迭代修改,直到噪声变成正确关联的线条和色彩,从而生成满足需求的图像。
AI艺术研究者“FeiArt”认为,基于生成模型的AI绘画是一个“有码到无码”的艺术。
虽然DD实现了文生图,但因为是开源的,上手门槛比较高,光是满屏的代码可能就要劝退新手小白了。
“一开始要自己调整二三十个参数,以及编制比较合适的Prompt,才能画出比较理想的画面效果,对于使用者理解算法逻辑和写关键词的要求非常高。不过现在的版本基本不用调参数,只要写好关键词就可以了。”数字艺术家“脑玩家mindplayer”向我们介绍了DD的使用体验,她从今年3月开始在B站和小红书分享AI绘画作品和教程,是国内最早一批玩家。
DD出圈不到一个月,很快就有更成熟、门槛更低的产品出现了——Midjourney(简称MJ),目前社区成员超260万。
- 大厂运营总监教你如何深入思考
- 不明觉厉的AI绘画,对内容创作者来说有什么用?
- 字节跳动又做了一个独立站,这次能抢到SHEIN蛋糕吗?
- 东方甄选的玉米为什么卖得贵?
- 为什么兴趣社交不是一门好生意?
- 中国互联网二手车平台研究报告
- 2022年中国HR SaaS行业洞察
- 小红书上的AAA天团,消灭了多少爹味?
- 一文讲透PLG产品的定价模式
- 日活超7.8亿的小程序,网购“刺客”潜伏
- 品牌定位,抢占用户心智第一步
- 小众赛道也能变现百万,揭秘“兴趣达人”的生意经
- 如何玩转数字化门店经营,用户教育中的降本增效
- 元宇宙社交的“真需求”到底是什么?
- 如何组织创业团队?
- “看脸”时代的消费风口,“医美圈”的专业营销与生态“净化”
- 我的线索经营之旅
- 操盘100个10w+爆款,我看到品牌营销的3个雷区
- 美妆爆文拆解,11万赞藏量
- 这届年轻人,在便利店找回生活
- 万字解析无代码领头羊Webflow的增长之路
- 万字解析无代码领头羊Webflow的增长之路
- 想活下来,先从摆脱固有思维开始
- 复盘Notion从0到100亿美金的增长路径,给Global SaaS公司带来哪些启示?
- 百度糯米关停,团购大战余波未了
- 20天速成接单:手办课收割“二次元”
- 数字藏品「围城」:腾讯退场,星巴克入局
- 中美外卖发展迥异,还原被误解的佣金真相
- 117万篇笔记,60亿次播放,短视频如何建造 “梦中情房
- 传统商超,怎样留住年轻人?
- 大厂运营总监教你如何深入思考
- 不明觉厉的AI绘画,对内容创作者来说有什么用?
- 字节跳动又做了一个独立站,这次能抢到SHEIN蛋糕吗?
- 东方甄选的玉米为什么卖得贵?
- 为什么兴趣社交不是一门好生意?
- 中国互联网二手车平台研究报告
- 2022年中国HR SaaS行业洞察
- 小红书上的AAA天团,消灭了多少爹味?
- 一文讲透PLG产品的定价模式
- 日活超7.8亿的小程序,网购“刺客”潜伏
- 品牌定位,抢占用户心智第一步
- 小众赛道也能变现百万,揭秘“兴趣达人”的生意经
- 如何玩转数字化门店经营,用户教育中的降本增效
- 元宇宙社交的“真需求”到底是什么?
- 如何组织创业团队?
- “看脸”时代的消费风口,“医美圈”的专业营销与生态“净化”
- 我的线索经营之旅
- 操盘100个10w+爆款,我看到品牌营销的3个雷区
- 美妆爆文拆解,11万赞藏量
- 这届年轻人,在便利店找回生活
- 万字解析无代码领头羊Webflow的增长之路
- 万字解析无代码领头羊Webflow的增长之路
- 想活下来,先从摆脱固有思维开始
- 复盘Notion从0到100亿美金的增长路径,给Global SaaS公司带来哪些启示?
- 百度糯米关停,团购大战余波未了
- 20天速成接单:手办课收割“二次元”
- 数字藏品「围城」:腾讯退场,星巴克入局
- 中美外卖发展迥异,还原被误解的佣金真相
- 117万篇笔记,60亿次播放,短视频如何建造 “梦中情房
- 传统商超,怎样留住年轻人?