Skip to content

结束语 未来可期,一起拥抱AI绘画的新时代

你好,我是南柯。

今天是我们《AI绘画核心技术与实战》课程的最后一讲,从4月底开始筹备这门课程算起,前前后后历时快5个月的时间。对我来说这是一段非常有意义的时光。感谢你的一路相伴。

如果用一句话总结这段经历,那便是白天为公司做大模型追赶GPT-4,深夜伏案翻阅论文总结AI绘画背后的算法技巧。可以说在 “10-10-6” 的工作模式之余,我将全部的心力都倾注到了这门课程里。

知识性的内容我们前面已经讨论了很多,今天我更想和你说一些我的心里话,希望可以带给你一些启发。

一次教学相长的求知之旅

在我看来,今天的AIGC至少包括两层含义,也就是AI绘画和GPT。做个类比,多模态生成(AI绘画)和多模态理解(GPT-4)可以看做是金庸先生笔下的倚天剑与屠龙刀,是潜力无穷且相辅相成的技术。我无疑是幸运的,能够同时亲历这两大技术带来的变革。

其实,当今AIGC世界,背后无非是凭借扩散模型、文本编码器、Tranformer等等这些砖砖瓦瓦搭建起来的,想要搞懂背后的机理并不是一件遥不可及的事情。

即使仅仅从AI绘画切入,看到的也是一个宏大的世界。AI绘画相关的算法原理、代码实现和应用场景绝不是短短十几万字能讲清楚的。我能做的就是尽我所能,提炼出我觉得最基础、最核心的内容,毫无保留地分享给你。

这里我也想感谢你们的陪伴和支持,每每看到有人留言,我都会发自内心地感到亲切。

很多同学在评论中也提出了犀利的问题,比如采样器背后的数学推导、单图不训练的定制化生成如何实现、diffuser代码仓和我们用的Colab的本质差异等等。这些问题带给我不少思考,看起来一个很小的问题,我也经常需要翻阅不少论文和代码,才能给出一个合适的回答。

你们的反馈,是我创作和改进的动力,也让我真正体会到了什么是教学相长。在写这篇结束语的时候,我仍然有种“意犹未尽”的感觉。我知道,课程里呈现的仍然是AI绘画世界的冰山一角,不过我还是非常希望,这门课可以带给你同样的“意犹未尽”,让你以这门课为起点,继续带着好奇心不断探索AI绘画世界的无限风光。

回顾“旅途”收获

再重新出发之前,我还想带你简单回顾下这门课的内容。相信你现在回看开篇词里的知识地图,也会有不一样的感受。

图片

我们先是认识了AI绘画的基本能力,学习了AI绘画世界的基本组件,包括扩散模型、Transformer、UNet、采样器、CLIP和VAE。

之后,我们探讨了过去一年中经典的AI绘画解决方案,比如DALL-E 2、Imagen、DeepFloyd、Stable Diffusion和Midjourney。最后,我们还深入学习了更复杂的AI绘画技巧,比如定制化图像生成、ControlNet控图生成、修图三部曲、文生视频、文生3D等算法。

另外,我们还用六个实战项目锻炼了实战能力,从WebUI的LoRA漫画故事到SD模型微调,从使用ControlNet实现漫画上色再到复刻一个妙鸭相机。也期待你举一反三,亲手做出一些特色的AI绘画效果。

输入、消化、输出是掌握一门知识最有效的途径。对我而言,我们的专栏就是一次知识输出之旅。经历过这个旅程后,我对于AI绘画也都有了更深刻的认识。举个例子,我们公司内部曾经多次讨论过Midjourney背后的技术方案,大家各抒己见、莫衷一是。但当我耐着性子从第13讲写到第17讲时,对于Midjourney大概率采用的技术方案,我就有了更笃定的推测。

再比如,使用LoRA做照相馆的这件事情并不复杂,公司的产品经理此前甚至看不上这件事。直到我们课程更新期间,“妙鸭相机”大火,大家深扒背后的算法实现,才发现是LoRA技术配合人脸融合技巧。一个成功的爆款,再次教会我们如何利用成熟技术打造爆款产品。

这些都是很有意思的体验。 在未来遇到有影响力的AI绘画算法时,希望我们都能抱着“与我有关”的态度,去刨根问底一把。掌握的基础知识越多,理解新技术的障碍就越小。

也正是课程期间,根据我们对于AI绘画未来热点的思考,我和我的团队完成了单图不训练的创意头像算法、高精度3D生成、可驱动的3D数字人创建等技术。这些技术的论文和代码未来也会对外公布,这里我也想立个flag,争取让这些知识会出现在课程的加餐篇。

如何融入技术狂飙的时代

日新月异的AIGC技术,让我们既兴奋,又焦虑。我也在同学们的交流里发现了这一点。接下来我就聊聊我的想法。

我有一个工作习惯,每天会刷新下arxiv网站上的领域内最新论文。能明显感觉到,在AIGC领域内,几乎每天都有新论文、新方案被提出。给人的感觉是稍不留神就会掉队,但是真正一头扎进去,又会发现新论文、新技术根本学不完。

面对这个问题,我个人的看法是,不必追求大而全,跟紧自己最感兴趣的那一部分就够了,其余方向定期关注技术资讯就好。以我们的课程为例,我们的主线是以SD模型AI绘画技术,对于文生3D、文生数字人我们只需要关注最里程碑式的工作即可。

相信这样高速的技术变革,对于从事产品、设计或者算法研发的同学而言,都将孕育出很多新的机会。

谈到这里,我也说说我对于AIGC的看法。我个人认为,多模态生成与多模态理解在未来会有大一统的方案,而且我倾向于是GPT统一掉AI绘画。这件事情的标志是什么呢?我觉得应该是出现这样一个模型,它的输入是文字和图片,输出是离散化的token。而这些token可以重建为文字或者 高质量的图像。如果这一天真的到来,属于扩散模型的时代也许就要过去了。

那我们之前的知识会白学么?当然不会。就像我在课程中一直强调的,掌握了AI绘画的基础知识和经典解决方案,再去看其他非扩散模型的AI绘画方案,我们也会发现很多底层知识是相通的。在未来加餐篇,我也准备和你一起探讨探讨Parti这个token化的AI绘画方案。

接下来该学什么?怎么学?

最后我想聊一聊,当你学完这门课程后,该怎么继续探索AI绘画。

就像ChatGPT的知识水平不应该停滞在2021年,我们对于AI绘画技术的理解也不应该止步于SDXL(2023年7月)。通过这门课,我们已经掌握了AI绘画的算法原理和经典解决方案。但我更想说的是,这节课的结束 不是你学习AI绘画的终点,而是你找到一个兴趣点并深入专攻的起点。关于下一步的学习,我提供四个小建议。

第一,把课程中讲到的论文看一遍。尤其是DALL-E 2、Stable Diffusion、SDXL、ControlNet这些经典的解决方案,带着我们课程中已经学到的先验知识去看,一定能沉淀下来不少知识。

第二,牢记“纸上得来终觉浅,绝知此事要躬行”的道理。课程里我给你提供的知识更偏向内功心法。想要修炼成为一名真正的AI绘画“武林高手”,还是需要去啃这些经典解决方案背后的代码实现。我们经常拿出来讲的diffusers代码仓,就是一个很不错的选择。啃代码的过程中,可以帮你针对性补齐自己的短板,比如python编程能力、深度学习基础等等。

第三,学会利用工具。在学习过程中,遇到不懂的知识点,你可以多和ChatGPT讨论。目前的ChatGPT并不懂2022年以后的技术(比如DALL-E 2、Stable Diffusion),但对于Transformer、CLIP这类技术,ChatGPT还是游刃有余的。在啃代码的过程中,哪怕是最新技术的代码,遇到不懂的地方尽管丢给ChatGPT,用好ChatGPT这个身边的老师,就能事半功倍。

第四,选择一个你最想切入的点,深入下去。这个点可以是基础AI绘画模型,或者是定制化图像生成,再或者是3D生成、数字人等等。希望你能将这个点逐渐拓展为一个更系统、详尽知识网络,将背后的经典解决方案、最新技术进展、代码实现系统梳理一遍,最好是能够完成输入、消化、输出的全流程。

你可能会问,该如何输出呢?在如今移动互联网的时代,想输出还不容易!比如你可以通过撰写博客、发布开源项目、组织技术研讨会等形式, 将自己的知识公开化,接受所有人的检验与评判。其实,和极客时间合作这门技术课,也是我实践这种理念的一个小成果。

不过虽然这是一门技术课,但我并不是一个唯技术论的人。在我看来,无论是算法工程师,抑或是前后端工程师、产品经理、设计师,在AIGC的时代都能找到自己的兴趣点和着力点,去推动行业的发展。而且,这一切都才刚刚起步,现在进场,为时不晚。

未来AI绘画世界的机会,属于所有的有心人。希望你根据自己独特的经历,去思考AI绘画的潜力。然后去调研、去实践,搞不好就能做出了不起的事情。

希望我们都能秉承最初接触AI绘画时的好奇心,去迎接此后的未知,发挥我们的创造力做出一些有趣的东西。江湖不大,期待再度并肩!

我知道有很多同学都在努力学习,默默潜水。在专栏结束的今天,你不妨在留言区里聊聊学习这门课感受。我还准备了一份 毕业问卷,希望你能花几分钟填写一下,我会根据你的反馈继续优化课程。