一开yun体育网
按参数算,东说念主脑至极于多大的模子?
谜底是:要看若何算。
如果只看神经元的个数,东说念主脑冒昧是860亿个神经元,也即是86B的模子,并不大。
参考一下,DeepSeek V3是671B,Kimi K2.5冒昧1000B,即1T;
但事实上东说念主脑每个神经元又有7000个突触,从本领的角度类比,颗粒度更小的突触才更像AI模子的权重参数。
如果这样算,860亿*7000,那么东说念主类大脑至极于大致600T模子。
而这样大的模子,今天的硬件投诚暂时还跑不动。
这样类比略糙。
但也说明——我们这颗脑子的架构如故很复杂的,属于先进制程。
有点得力。
二
那么,大脑的制程到底有多先进呢?
我立时问了Claude opus 4.6和Gemini 3.1 Pro一个问题(实在受不了GPT无比巴结的作风)——
“如果东说念主脑是一块芯片,那么它的制程是几纳米的?”
他们的谜底荒芜一致:
如果看神经元细胞体直径的直径,冒昧 10000-100000 纳米 (10-100微米)。
这样看大脑至极于几十年前的电子管算计机。
这也太过期了。
但逻辑清晰不是这样的:
神经元并非一个浅易的开关,它更像处理器的一个核,真的的开关和信号传递发生在突触。
那么突触是什么水平的制程呢?
神经元之间传递信号的突触缺陷,它的宽度冒昧是20到40纳米。
这至极于台积电2012年操纵的水平,也即是28nm工艺。
如果单看这个目的,我们得脑子也即是个iPhone 5的水准。
关系词,账不可这样算,碳基有碳基得力的处所——
我东说念主脑传递电信号最细颗粒度的单元是——细胞膜上的离子通说念卵白(Ion Channels)。
这些卵白质孔说念的直径只消0.3~0.5纳米,这个尺寸仅允许单个离子(如钠、钾离子)列队通过。
在这个层面上,我东说念主类得力的大脑达到了原子级别,也即是0.3nm工艺。
这是目下包括台积电在内的通盘硅基芯片还没达到的物理极限。
东说念主脑得力!
其实还有更得力的——
硅基芯片如故在一个平面硅片上通过光刻层层堆叠,层数有限,也即是说它其实推行是2D的。
而东说念主脑是一个充满了胶状物的真的三维结构,一个神经元突触能同期犬牙相制地和一万个邻居搭上线。
这个复杂度,要高几个量级。
2D VS 3D,东说念主脑,升维了。
更要害的是,晶体管就俩个情景,开或者关(0和1),是个竭诚东说念主。
而我东说念主脑突触传递的信号是蚁合的、有强有弱、还带化学反应的。
一个突触干的活,信息量比一个晶体管要高一个层级。
是以,从架构层面,东说念主脑:有点东西。
来,可酌情站起来,晃一晃咱这颗几斤重的脑袋(我有利去查了一下,准确地说是1300克操纵,包括大脑、小脑和脑干),随着我说一句——
“碳基黑科技,得力!”
三
再说一说功耗,东说念主脑的功率大致20瓦,恒定运行。
防备,这20瓦不是只全部用来想问题的,是同期在管呼吸、心跳、消化、厚谊,也包括你目下对我发这篇著述的阅读透露。
剖析神经科学的测量浮现,大脑在高强度想考时功耗只比静息态多出大致1 瓦。
这意味着,一个问题想 5 秒钟,额外耗电约0.0014瓦时(瓦是功率单元,瓦时是耗能单元,还没健忘吧?)。
那AI回答一个问题要耗若干能量呢?
碰巧旧年6月10日,山姆*奥特曼在它的个东说念主博客上那篇着名的《和善的奇点》的著述里透露过
“东说念主们时常有趣 ChatGPT 查询会铺张若干能量;平均而言,一次查询大致铺张 0.34 瓦时,这大致至极于烤箱在一秒多一丝的时候里铺张的电量,或者一个高效节能灯泡在几分钟内铺张的电量。”
0.0014瓦时 VS 0.34瓦时。
我东说念主脑依然当先2个数目级。
很清晰,无与伦比的功耗,亦然碳基智能的一个显性上风。
四
DeepSeek V3统统671B参数,每次推理只激活37B。
也即是说,它95%的参数在每次想考时是躺平的,只消5%在干活。(Kimi K2.5这种参数更大的模子激活参数比例更小:3.2%)
嘿嘿,巧的事,我们进化了那么久的东说念主脑亦然这样干的:
字据Lennie, P. (2003)基于大脑能量预算的算计——
平均皮层神经元的放电频率大致只消0.16Hz,也即是每6秒才开火一次。
Shoham(2006)等东说念主得揣度也发现——
跨越90%的大脑神经元在职何给定时候王人处于千里寂情景,千里寂到实验建设根本探伤不到它们的存在。
(论文地址:https://pubmed.ncbi.nlm.nih.gov/16550391/,有真谛的是:达尔文的曾孙Horace Barlow亦然揣度这方面的大众,扯远了,打住!)
是以,我开导我家妮儿功课频繁用的表面禅——能不可上点心?你只用了你脑子的1%!
这句话既不错形容AI,也不错形容东说念主类。
他们王人有一个洋气的名字——MoE。
大模子有幻觉:一册正经、瞎掰八说念。
这被视为缺陷。
但东说念主脑呢?
每天晚上准时幻觉八小时——梦。
清醒时的幻觉,如果质料高,叫联想力,再高一丝,叫创造力,高到至极得力,就TM叫艺术。
Anthropic、OpenAI和宽广国内的实验室王人在花了巨资试图不断幻觉这件事。
但幻觉并非模子的缺陷,而是特点。
2024年头,康奈尔大学的Ziwei Xu等东说念主在一篇揣度(arXiv: 2401.11817)中从数学上证明——幻觉对于LLM是不可幸免的。
幻觉和创造力是一枚硬币的两面。
东说念主脑差未几亦然这样的机制。
东说念主和AI相似,既要又如果不现实的。
五
DeepSeek V3的高下文窗口是 128K,大致十万字。
最新的Claude Opus 4.6 到了1M,接近百万字,差未几是一整本《红楼梦》塞进去还过剩。
东说念主脑的高下文长度是若干?
谜底是:很难评。
短期追念,我根本记不住两个以上的手机号码。
热沈学家米勒1956年在那篇援用量破天空的论文《The Magical Number Seven, Plus or Minus Two》中量化过了,使命追念的容量是 7±2 个组块。
你致使记不住一个略微复杂的考证码。
按这个算,东说念主脑的高下文窗口冒昧也就几十个token,连GPT-2王人不如。
但耐久追念呢?
你不错记着15年前初恋的表情。
其实,大脑的存储自身是很大的——
2016年,Salk揣度所的揣度给出过一个参考数字:每个突触不错存储大致4.7bits的信息。
按照大脑皮层约125万亿个突触来算,仅皮层的存储容量就达到了大致74 TB,整个大脑的存储容量还要高一个数目级。
是以,大脑的高下文窗口到底是长是短?
这个问题自身就问错了,因为东说念主脑根底不是用高下文窗口这个东东来运行的。
大脑最得力的是压缩与空洞。
你不需要记着雇主三个月来发的通盘微信,你只需要记着一个判断:这东说念主不靠谱。
这个操作在信息论里叫作念——极点的有损压缩。
这个压缩不是一次性完成的:
每天晚上,你的海马体王人在趁你就寝的时候把白昼的履历重播给新皮层听,反复蒸馏。
这个压缩比,任何模子系统王人作念不到。
六
有真谛的是,DeepSeek在模拟近似的恶果——
2025年底DeepSeek发的OCR论文就在探索用视觉token来压缩文本信息:把翰墨拍成像片喂给模子。
它的机制是:最近的内容保留高清细节,越久远的内容存储得越朦胧。
这和东说念主脑的追念,惊东说念主的相似。
本年年1月,DeepSeek又放了一个更得力的东西:Engram,梁文锋亲身挂名。
Engram论文的中枢搞法是:把想和记分开——75%的算力给推理,25% 给追念查找。
这不即是东说念主脑的运作花样么?
你知说念你妈的生辰,不需要重新回忆,这是论说性追念,胜仗读取。
而当你需要解通盘新的数学题,那才动用推理——推理是立志的,东说念主脑也不肯意自负整它。
丹尼尔·卡尼曼管这叫系和调解系统二:快想考和慢想考。
是以你看,AI发展了70年,兜兜转转,一定程度上,如故陆续往东说念主脑的架构上靠。
东说念主脑这个东西,阻截易搞明白,但不解觉厉。(我有点透露也曾的首富陈天桥为什么要花辣么多钱资助脑科学揣度了。)
从这个道理上,我更期待行将发布的DeepSeek V4了,但愿是憋了一个大招。
七
再说说测验数据。
GPT-4 据传用了大致13万亿token来测验,DeepSeek V3用了14.8万亿,目下最新的模子只会用得更多。
东说念主类呢?
Michael Frank在2023年发表于Trends in Cognitive Sciences的论文中作念了一个系统的估算:
一个孩子从出身到成年(约20岁),统统战斗到的语言输入大致是2×10⁸个词(2亿)(我又用Gemini 3,1 Pro和Claude opus 4.6证明了一遍,谜底略有各异,但数目级没跑)
2亿 VS 13万亿。
差了五个数目级。
东说念主脑的样本效劳,狠狠地碾压通盘AI模子。
事实上,若何莳植样本效劳,亦然目下各大顶尖AI实验室最前沿的揣度课题。
毕竟环球依稀嗅觉到,单纯堆数据的Scaling Law可能正在接近它的天花板。
而东说念主脑用少量的数据就能兑现极高的泛化,这个阴私一朝被破解,可能即是下一次AI跃迁的钥匙。
本年我在承德过年的时候,我一岁3个月的小侄女,还不太会语言。
我用iPhone上自带的阿谁动态情态逗她玩,我惊诧于她能相等准确地永诀每一个极其空洞的动物。

说真话,我王人对辣个永诀度不大的小猫和小狐狸图标有点蒙眬。(不信你去望望)
至于我东说念主类是若何作念到的?
中枢在于进化的5亿年中,我们的脑子里是预装了一堆先验学问滴,比如婴儿天生就会防备东说念主脸,这是出厂诞生。
AI要从零启动学,东说念主脑天生带着外挂。
八
东说念主脑有一个大模子目下莫得的东西:肉体。(陆续看就知说念我不是在聊目下火热的具身智能。)
这句话听上去像谎话,但其实很致命。
频年来剖析科学有一个越来越火的家数叫Embodied Cognition。
他们中枢不雅点是:想维并非单纯发生在脑子里的,肉体自身就参与了想考。
举个栗子,你透露“千里重”这个词,是因为你真的搬过重东西,你的肌肉记起那种嗅觉。
你说这个东西很千里的时候,此时如果给你作念核磁共振,是能看到你的通顺皮层有在微小激活滴。
这即是为什么我们说AI,如故在作念语言层面的模式匹配,而非真的的共情。
虽然你不错说,谁TM在乎它是不是真的共情呢,它的回答够好不就行了么?
这话也对。
但这引出了一个玄学味很重但又避不开的问题:智能,到底需不需要一个肉体?
目下的谜底是:不知说念。
九
我平时看的东西很杂。
聊到这我想起了刘慈欣6年前(彼时ChatGPT还没诞生)在喜马拉雅上线了一个付费节目,叫“刘慈欣的想想实验室”。
其中有一期在回答文体教诲戴锦华的发问中说了这样一段话——
“按照传统的不管是科幻限度的想维,如故我们平淡的想维说,(东说念主如故东说念主)这个底线在大脑。
即是说他的周围的其他的这个生物器官王人换成机器了,只消他的大脑还在,我们就合计他如故东说念主。
但最近的一些揣度,发现事情统统莫得这样浅易,东说念主的想维不单是是由大脑决定的。
就像莎士比亚有一句诗,他说:“爱情啊你来自何方?是大脑如故心房?”
而对外部全国的感知,以及我们对自身的感知,至极一部分并非只由大脑来决定的,而是由我们整个的生物学结构来决定的。
而生物学结构90%王人变了,就剩一个大脑,那这个大脑的想维花样如故蓝本的大脑?它如故东说念主类的想维吗?这个目下很难说。”
大刘的这段话清晰更具现实想维而非科幻想维。
这和《三体》第三部程心吧云天明的大脑送给三体全国并祈望他们再行复原的想路并不一致。
(推选去付费听原节目,充满哲想,极度精彩,尤其这个节目是ChatGPT诞生之前聊AI,不错和目下进行对照,踯躅的同学也不错在“卫夕指北”公众号回话“刘慈欣”得到这一期节目的翰墨稿再决定要不要付费)
无论若何,东说念主脑依然和东说念主脑相反相成的生物学结构,是我们看成碳基生命专有的存在。
是滴,时隔好多年的某个午后,不经意在东说念主群中闻到初恋的同款香水,我们会忽然一阵鼻酸。
而AI这货,莫得鼻子。
Vibe到这里,请允许我彪一句英文舒一下情——
We are unmistakably unique—irreplaceable, unrepeatable, and entirely our own!
(我有利让Claude opus 4.6给我写的,我写不出这样骚的词)
没错,如果只拼显性才气,大模子毫无疑问朝夕会追上并高出东说念主脑。
可如果拼的是:To live as a human being should,硅基目下看起来还需要时候。
这里边惟一的不细则性在于——
AI是否有可能走出了一条统统不同的、我们今天根本联想不到的智能旅途。
毕竟,飞机也不是靠扇翅膀飞起来的。
我信托,这个概率绝非0。
事实上,DeepMind的哈萨比斯在多个播客里说,要兑现AGI,目下其实差一到两个揣度范式的打破。
十
前边说了辣么多东说念主脑得力的处所,是时候说点扎心的了。
东说念主脑的通盘上风,有一个致命的前提——它TM是静态的。
你今天的大脑有860亿个神经元,600T的突触参数,功耗20瓦——5万年前智东说念主的大脑,基本亦然这个设立。
进化给了我们一颗很得力的脑子,然后就撒手不管了。
而AI呢?
GPT-3是2020年发布的,1750亿参数,今天Kimi、智谱、Minimax这些最得力的开源模子,依然奔着万亿走了。
(其实它们不错作念的更大,只是为了衡量资本作念到目下的水平。)
这是指数莳植,更无须说芯片限度基本罢黜的摩尔定律。(我有利不提量子算计,免得有读者说我过于放飞)
前边我们算过,东说念主脑在功耗上圈套先AI两个数目级,在测验数据效劳上圈套先五个数目级,在制程上碾压到原子级别。
听上去遥遥当先,对吧?
但要知说念,指数增长眼前,几个数目级其实不算什么。
来,浅易算一笔账——
如果AI的能效每两年莳植10倍(这如故保守揣度,推行上好多目的的莳植速率远快于此),那两个数目级的当先,四年就追平了;
五个数目级,十年。
十年,也即是你家娃从小学到大学的时候。
如果你略微懂一丝数学,你就晓得,指数增长意味着——前边99%的路程,只占了总进程的很小一部分。
没错,我得力东说念主脑,如实是一颗了不得的处理器。
但,它是一颗不会迭代的处理器。
十一
再说一件最近被群众低估的一件事——
旧年5月,Google DeepMind发布了一个叫AlphaEvolve的系统——用AI来发现和优化算法。
它的使命花样是:不绝生成代码、测试代码、淘汰烂的、保留好的,我方跟我方玩迭代进化。
旧年它干的一件事是优化了Gemini自身的测验经过,让测验速率快了1%。
好像也没什么,关系词事情并莫得扫尾。
一周前,2月18日,DeepMind放出了一篇对于AlphaEvolve的论文:
标题叫——《Discovering Multiagent Learning Algorithms with Large Language Models》(用大语言模子发现多智能体学习算法)。
这篇论文讲的即是——让AI去缠绵AI的学习范例。
多智能体强化学习(MARL)是AI限度最硬核的子方针之一,揣度的是多个AI在博弈中若何学习最优战略。
这个限度的核默算法,比如CFR(反事实缺憾最小化)和PSRO(战略空间反应预言机),王人是顶级揣度者花了十几年搞出来的。
而目下,AlphaEvolve禁受了这个经过。
它发现了两个全新的算法:VAD-CFR和SHOR-PSRO。
这两个名字你不需要记着,你只需要知说念一件事——它击败了东说念主类揣度东说念主员花了十几年搞出来的最优算法。
论文里一句描写值得磋商:VAD-CFR接纳了“novel, non-intuitive mechanisms”——新颖的、反直观的机制。
也即是说,这个算法的中枢逻辑,冒昧率是东说念主类极难料到的。
来,我们把这个逻辑链理一理——
AI缠绵出了比东说念主类更好的AI学习算法,更好的学习算法让AI学得更快,学得更快的AI又能缠绵出更好的算法。
没错,它递归了,加快了。(至少进展了递归的特征)
业界把这个称之为递归式自我校正(Recursive Self-Improvement)。
往日业界只是究诘递归在表面上的可能性,目下,它在真实地悄然演出。
你品,你细品。
十二
写到这里,我如实有一种略奇怪的嗅觉——
启动一直在说东说念主脑得力——600T参数、0.3nm制程、20瓦功耗、样本效劳碾压一切。
后头又讲了另一件事——AI在指数增长、在缠绵让我方更得力的算法,在递归自我校正。
疾苦的是,这两件事同期为真。
AI赶上东说念主脑的交叉点什么时候到来?
莫得东说念主知说念。
也许很快,也许永久莫得这种可能性。
没错,这篇著述是我vibe writing出来的——
从上昼10点启动,5个小时,和Claude以及Gemini聊着聊着就健忘吃午饭了。(一边说东说念主脑何等得力,一边如故离不开AI,想想也挺讥讽的)
中间歇了一会刷了半个小Twitter,又是满屏的AI新得力冒出来,根本看不外来:
杰克*多西还告示把公司1万东说念主一下子裁掉40%,防备:是40%。(忽然想起来,四年前公众号还专门写过他——为什么杰克多西是一位奇东说念主?)
我依然累了,这篇就头重脚轻吧,说两点——
第一,隆重地煽个情——趁我们还领有看成碳基生命惟一的感受力:去闻一闻三月的风。
(Claude opus 4.6还给我写了大段煽情的话,我王人删掉了,环球王人不傻,搞一堆信息量接近为0的话,是蹧跶读者的时候。)
第二,闻完三月的风,陆续总结和AI相爱相杀,so,该跟还得跟,该学还得学。
逃不掉的宿命,毕竟,莫得东说念主惬心被AI斩杀。
我耐久有一个朴素的概念:略微激进一丝没啥的,毕竟,我们也亏损不了什么。
就酱!开yun体育网