醒醒！先别看ChatGPT，AI绘画突破性进展！

前言

本来想写得很短，最后又是3000字，措辞不简练是我的大毛病。

我知道ChatGPT现在非常火爆，但是我在前面的系列文章都反复强调过，这一次AIGC浪潮必须看GPT系列和Diffusion系列（AI绘画背后的技术）。

从内容生成的角度，文+图+多模态（音频、视频、3D等）才是全部的方向，目前来看GPT负责文，而Diffusion扛起来图+多模态的大旗。

而目前公众被ChatGPT吸引目光，其实是被他其中混杂的两种变革性力量一起冲击到了：一部分是文本的生成，另一部分是通用人工智能AGI&新型人机交互带来的震撼。

如果你抛开AGI&新型人机交互那部分，只看内容生成，GPT和DIffusion不分伯仲，甚至Diffusion表现更加优秀！

废话说到这里，我们开始正文，包括两个主要部分：

1. 为什么说AI绘画要二次爆发了？技术突破在哪里？延伸的影响是什么？

2. 给ChatGPT泼泼冷水，他带来的机会可能没有那么好。

Diffusion的技术爆发+影响力说明

强烈建议持续关注Diffusion

首先，Diffusion不是刚开始爆发，他是一直在爆发，他爆发得都麻了。

在这里要引入一个概念：技术的爆发来自足够基数的群体智慧。

ChatGPT的准入门槛非常高，背后的参与人员也非常少，更多是一种唐吉坷德式的狂热冲锋，某种意义上来说，他的诞生不得不说是一种幸运。

而Diffusion则不同，他的复现、训练、改进成本比GPT不可同日而语，大量的学术、工业团队都能参与其中，在去年涌现了百量级以上的Paper。

并且可以预见的是，他的技术爆发还未到达极限，仍有更多的可能性在未来会不断涌现！

到底什么爆了？——ControlNet爆了！

去年的这些Paper在多个方向同时发力，包括采样加速（降低成本的，现在成本降了70%以上），可控引导的，多模态应用探索的，生物领域应用的等等，事实上有很多爆发，但我们本文目的不是这个，略过不提。

2月10日，近期最具突破性的技术变革发生了——ControlNet。他在可控性方面，实现了极大的突破。

第一，到底突破了什么？

你能更进一步约束AI来按照你的意愿画图了！直接上图：

上面的例子分别是，基于人物姿态生成图片，基于轮廓精准绘制，基于线段检测绘图。

事实上还有更多的例子我没有放，例如基于深度图，基于法线贴图生成3D图片，基于涂鸦，基于色块等等，这一篇内容只是一个阅读引导，我不在这里长篇大论。

大家感兴趣了解详情的话，有两个途径：

1. 专业门槛较高，直奔GitHub原文：

https://github.com/lllyasviel/ControlNet#readme

2. 专业门槛较低，下载中文介绍PDF：

在公众号私信回复“项目库”，进入项目库后在“高质量知识区”Sheet可以下载

第二，这种突破的意义到底是什么

可控性带来的是更广阔的商业空间，是绘画领域从业者更进一步的工作重构。

如上图所示，纵向为某个图片细分领域的市场规模，横向为这类图片创作出来所需要的可控条件限制。

整个图像领域，随着图像的创作条件更具限制，他的商业价值就会更高，就会更需要画师、设计师二次手工介入。

而Diffusion可控性的提升，就是在将整个市场格局往右上角推进：

一方面，画师舒适区会逐步缩减，他们需要更深度调整自己的工作流程

另一方面，可控性的提升导致图像生成从C端进入B端，而B端的商业空间肯定比C端更大。

同时产生商业影响+从业者影响的突破，怎么能不重视呢？

事实上2月10日ControlNet发布，2月11日我就连夜修改了商业库中关于AI绘画所有领域的商业判断，之前被我喷得一文不名的AI绘画场景，我一个个回过头去认错修正。

朋友们，重视起来啊！

给ChatGPT泼泼冷水

最近被媒体的ChatGPT新闻弄得很烦，一惊一乍的，唯恐错过任何一点热度。

但是可能ChatGPT不一定会带来那么多增量机会，更多是存量市场的改造，而且很可能不是一片蓝海，而是起步就是红海。

存量/增量的定义是什么

存量指这个市场会拥抱新技术，但是新技术很难改变玩家现状。

例如Terms上了ChatGPT，所以腾讯会议就会跪吗？不会的，腾讯会议也会跟。当大家都996的时候，996就是一种标准，而非优势。

而新玩家想着凭借996冲进来，那也不现实。老玩家不是只靠996卷出来的，他们原本的经验、知识才是真正的壁垒。

所以存量市场如客服机器人、Office套件、语音助手等，很可能不会迎来变化。因为技术只是锦上添花，无法突破原有场景中玩家们构筑的壁垒。

但也有可能，某些玩家会有一些超级亮眼的应用，异军突起，但这里又涉及到另一个问题了——新玩家的壁垒构造，我下面会讲。

增量市场则指某个领域属于新生的，或者之前的技术不成熟导致市场不成熟

例如情感类机器人，代码辅助/生成领域，专业方向机器人，文本生成领域等等。

这类市场在以前技术不成熟，市场萎靡，玩家之间不具备充足的壁垒，新玩家携带着新技术杀入，很容易形成局部优势，并逐步构造壁垒。

他创造了新的商业空间，所以称之为增量市场。

门槛降低带来的无壁垒混战

我们抛开真正做大模型的玩家，甚至更底层的芯片、算力、数据等上下游玩家。

我们就说应用端的玩家，有几种层次的应用：

1. 小模型玩家

不会所有的需求都嫁接在大模型上，实时性、安全性、定制性都是大模型无法解决的问题，必须要靠能够私有化、响应速度快的小模型来解决问题。

这个时候通过知识蒸馏出小模型，大模型生成标注数据来调优小模型等方式，小模型的表现会相较以前更提升一个档次。

而这个方向，他的壁垒，就是技术能力、数据能力。

并且他的边际成本可能很高——要你解决的就是定制和私有化的问题，你还指望做SaaS吗？SaaS我去用LLM不好吗？

2. 基于Fine-tuning的玩家

基于大模型厂商所提供的Fine-tuning，实现专业领域的突破。

他的壁垒是什么呢？是数据！所以原有市场中握有数据的玩家非常有优势，而新玩家几乎无法参与。

3. 基于Prompt的玩家

这是现在最火爆，最五花八门的方向。

例如我开发一个写周报的应用，说白了就是在用户传入命令时，在他的命令前加一句话“你现在是一个专业的周报机器人，请基于以下文本总结、润色我的周报”。

他的壁垒在哪里呢？没有任何壁垒。唯一的壁垒可能就是翻墙+API调用——说白了就是信息差，和网上卖ChatGPT账号的灰产老哥没有任何本质区别。

并且随着百度三月开放这种壁垒会进一步下降。而且如果我是产品经理，我一定会进一步压垮这个门槛——你连怎么命令都不知道怎么和AI说？没关系，我帮你总结出来做成一排按钮，你想用哪个点哪个。

无非是再现当初VUI和GUI的融合而已，毫无困难。自然语言交互一定会向图形界面交互融合的，这是天然的信息效率决定的，谁也无法改变，无非快慢而已。

所以你看看，到底乐观在哪里呢？现在的新闻是老王的5000W美金，李志飞的再创业，他们冲的是什么方向，都是最顶端的LLM模型。

下游的应用侧可谓成也GPT，败也GPT。他对人机交互门槛、对模型调优门槛的碾压式降低，让应用如潮水涌现，也让这个方向成为彻底的红海。

没有人能白衣仗剑行，无非是一场又一场的赤身肉搏。

如果你再结合增量、存量这个角度的思考，你会发现，ChatGPT产生的新机会可能并没有那么多。

最后，我说明一下：

对Diffusion方向的判断，我应该有80%的把握

对ChatGPT方向的判断，我只有60%的把握

我的信息不全对，并随着发展会变成不全错。

我说过不要完全信任媒体，但是也不要信任我，至少不要全信我，始终保持独立思考，建立属于你自己的思考框架，不断学习。

我不信任一切体系构造者并且避开它们。构造体系的意志是一种不诚实的表现

——From 尼采与君共勉！

标签: 人工智能机器人

醒醒！先别看ChatGPT，AI绘画突破性进展！

最新资讯

北京考生衡中复读，一年提高80分，“自律到让人幸福，也害怕到从噩梦中惊醒”

成都市平均月薪10039 元排名全国第十三，月薪真的过万是常态吗？

孩子非要学游泳，但只学一个月就放弃，该怎么引导他继续学习？

妈妈仅看外孙一眼继续等待分娩女儿，拍摄者：一直在产房门口盯着，只有她在等待自己的孩子

女子求职因河南籍被拒，“不招特殊区域的人”，当事人：感觉很无语，平台：求职者可以举报

爸爸看望13岁儿子没想到成最后一面，奶奶：爸爸很幸福，有你这样的乖宝宝

文档百科