前言
本来想写得很短,最后又是3000字,措辞不简练是我的大毛病。
我知道ChatGPT现在非常火爆,但是我在前面的系列文章都反复强调过,这一次AIGC浪潮必须看GPT系列和Diffusion系列(AI绘画背后的技术)。
从内容生成的角度,文+图+多模态(音频、视频、3D等)才是全部的方向,目前来看GPT负责文,而Diffusion扛起来图+多模态的大旗。
而目前公众被ChatGPT吸引目光,其实是被他其中混杂的两种变革性力量一起冲击到了:一部分是文本的生成,另一部分是通用人工智能AGI&新型人机交互带来的震撼。
如果你抛开AGI&新型人机交互那部分,只看内容生成,GPT和DIffusion不分伯仲,甚至Diffusion表现更加优秀!
废话说到这里,我们开始正文,包括两个主要部分:
1. 为什么说AI绘画要二次爆发了?技术突破在哪里?延伸的影响是什么?
2. 给ChatGPT泼泼冷水,他带来的机会可能没有那么好。
Diffusion的技术爆发+影响力说明
强烈建议持续关注Diffusion
首先,Diffusion不是刚开始爆发,他是一直在爆发,他爆发得都麻了。
在这里要引入一个概念:技术的爆发来自足够基数的群体智慧。
ChatGPT的准入门槛非常高,背后的参与人员也非常少,更多是一种唐吉坷德式的狂热冲锋,某种意义上来说,他的诞生不得不说是一种幸运。
而Diffusion则不同,他的复现、训练、改进成本比GPT不可同日而语,大量的学术、工业团队都能参与其中,在去年涌现了百量级以上的Paper。
并且可以预见的是,他的技术爆发还未到达极限,仍有更多的可能性在未来会不断涌现!
到底什么爆了?——ControlNet爆了!
去年的这些Paper在多个方向同时发力,包括采样加速(降低成本的,现在成本降了70%以上),可控引导的,多模态应用探索的,生物领域应用的等等,事实上有很多爆发,但我们本文目的不是这个,略过不提。
2月10日,近期最具突破性的技术变革发生了——ControlNet。他在可控性方面,实现了极大的突破。
第一,到底突破了什么?
你能更进一步约束AI来按照你的意愿画图了!直接上图:
上面的例子分别是,基于人物姿态生成图片,基于轮廓精准绘制,基于线段检测绘图。
事实上还有更多的例子我没有放,例如基于深度图,基于法线贴图生成3D图片,基于涂鸦,基于色块等等,这一篇内容只是一个阅读引导,我不在这里长篇大论。
大家感兴趣了解详情的话,有两个途径:
1. 专业门槛较高,直奔GitHub原文:
https://github.com/lllyasviel/ControlNet#readme
2. 专业门槛较低,下载中文介绍PDF:
在公众号私信回复“项目库”,进入项目库后在“高质量知识区”Sheet可以下载
第二,这种突破的意义到底是什么
可控性带来的是更广阔的商业空间,是绘画领域从业者更进一步的工作重构。
如上图所示,纵向为某个图片细分领域的市场规模,横向为这类图片创作出来所需要的可控条件限制。
整个图像领域,随着图像的创作条件更具限制,他的商业价值就会更高,就会更需要画师、设计师二次手工介入。
而Diffusion可控性的提升,就是在将整个市场格局往右上角推进:
一方面,画师舒适区会逐步缩减,他们需要更深度调整自己的工作流程
另一方面,可控性的提升导致图像生成从C端进入B端,而B端的商业空间肯定比C端更大。
同时产生商业影响+从业者影响的突破,怎么能不重视呢?
事实上2月10日ControlNet发布,2月11日我就连夜修改了商业库中关于AI绘画所有领域的商业判断,之前被我喷得一文不名的AI绘画场景,我一个个回过头去认错修正。
朋友们,重视起来啊!
给ChatGPT泼泼冷水
最近被媒体的ChatGPT新闻弄得很烦,一惊一乍的,唯恐错过任何一点热度。
但是可能ChatGPT不一定会带来那么多增量机会,更多是存量市场的改造,而且很可能不是一片蓝海,而是起步就是红海。
存量/增量的定义是什么
存量指这个市场会拥抱新技术,但是新技术很难改变玩家现状。
例如Terms上了ChatGPT,所以腾讯会议就会跪吗?不会的,腾讯会议也会跟。当大家都996的时候,996就是一种标准,而非优势。
而新玩家想着凭借996冲进来,那也不现实。老玩家不是只靠996卷出来的,他们原本的经验、知识才是真正的壁垒。
所以存量市场如客服机器人、Office套件、语音助手等,很可能不会迎来变化。因为技术只是锦上添花,无法突破原有场景中玩家们构筑的壁垒。
但也有可能,某些玩家会有一些超级亮眼的应用,异军突起,但这里又涉及到另一个问题了——新玩家的壁垒构造,我下面会讲。
增量市场则指某个领域属于新生的,或者之前的技术不成熟导致市场不成熟
例如情感类机器人,代码辅助/生成领域,专业方向机器人,文本生成领域等等。
这类市场在以前技术不成熟,市场萎靡,玩家之间不具备充足的壁垒,新玩家携带着新技术杀入,很容易形成局部优势,并逐步构造壁垒。
他创造了新的商业空间,所以称之为增量市场。
门槛降低带来的无壁垒混战
我们抛开真正做大模型的玩家,甚至更底层的芯片、算力、数据等上下游玩家。
我们就说应用端的玩家,有几种层次的应用:
1. 小模型玩家
不会所有的需求都嫁接在大模型上,实时性、安全性、定制性都是大模型无法解决的问题,必须要靠能够私有化、响应速度快的小模型来解决问题。
这个时候通过知识蒸馏出小模型,大模型生成标注数据来调优小模型等方式,小模型的表现会相较以前更提升一个档次。
而这个方向,他的壁垒,就是技术能力、数据能力。
并且他的边际成本可能很高——要你解决的就是定制和私有化的问题,你还指望做SaaS吗?SaaS我去用LLM不好吗?
2. 基于Fine-tuning的玩家
基于大模型厂商所提供的Fine-tuning,实现专业领域的突破。
他的壁垒是什么呢?是数据!所以原有市场中握有数据的玩家非常有优势,而新玩家几乎无法参与。
3. 基于Prompt的玩家
这是现在最火爆,最五花八门的方向。
例如我开发一个写周报的应用,说白了就是在用户传入命令时,在他的命令前加一句话“你现在是一个专业的周报机器人,请基于以下文本总结、润色我的周报”。
他的壁垒在哪里呢?没有任何壁垒。唯一的壁垒可能就是翻墙+API调用——说白了就是信息差,和网上卖ChatGPT账号的灰产老哥没有任何本质区别。
并且随着百度三月开放这种壁垒会进一步下降。而且如果我是产品经理,我一定会进一步压垮这个门槛——你连怎么命令都不知道怎么和AI说?没关系,我帮你总结出来做成一排按钮,你想用哪个点哪个。
无非是再现当初VUI和GUI的融合而已,毫无困难。自然语言交互一定会向图形界面交互融合的,这是天然的信息效率决定的,谁也无法改变,无非快慢而已。
所以你看看,到底乐观在哪里呢?现在的新闻是老王的5000W美金,李志飞的再创业,他们冲的是什么方向,都是最顶端的LLM模型。
下游的应用侧可谓成也GPT,败也GPT。他对人机交互门槛、对模型调优门槛的碾压式降低,让应用如潮水涌现,也让这个方向成为彻底的红海。
没有人能白衣仗剑行,无非是一场又一场的赤身肉搏。
如果你再结合增量、存量这个角度的思考,你会发现,ChatGPT产生的新机会可能并没有那么多。
最后,我说明一下:
对Diffusion方向的判断,我应该有80%的把握
对ChatGPT方向的判断,我只有60%的把握
我的信息不全对,并随着发展会变成不全错。
我说过不要完全信任媒体,但是也不要信任我,至少不要全信我,始终保持独立思考,建立属于你自己的思考框架,不断学习。
我不信任一切体系构造者并且避开它们。构造体系的意志是一种不诚实的表现
——From 尼采 与君共勉!