
文 | 海浪不癫
梁文锋是个很有利象的东谈主。他不热衷融资、不搞团建、不卤莽,公司不到200东谈主,下昼六七点放工,在中国科技圈险些是一股清流。
昨天看了误点的稿子,写DeepSeek在V4发布前夜的气象,有好多让浪哥印象深化、且深有同感的细节。
比如,deepseek不加班,因为梁文锋觉得,一个东谈主每天能高质料输出的时期,很难卓绝 6~8 小时,加班疲惫会让判断力下落,反而铺张算力资源;再比如,梁文峰在责任中只作念少数事情,但要作念得精致、作念到极致。
kaiyun开云中国2026世界杯官网入口依然让东谈主心生笃信。
但看稿子也能嗅觉到,deepseek目下到了一个隐秘的转换点了:中枢研讨员赓续出走,期权价值不解,Agent标的的产物司理刚运转招,编程器具还没影。
这家也曾靠极致效果和开源碾压全场的公司发现,只是专注提高大谈话模子的智能上限,还是不够了。
这不怪deepseek,而是行业还是转向。
畴前两年,大模子限制的作念事逻辑很是像高考,跑分即是分数线,Benchmark即是科场,谁的分数高谁即是状元。
但目下,OpenAI在搞Agent,Anthropic在搞Claude Code,Google在搞多模态,扫数头部玩家皆在回复合并个问题:模子若何实在帮东谈主把活干完?
这就像一个高考状元发现,用东谈主单元的口试官翻了翻你的获利单,点点头说\"可以\",然后问你:“能不行沉寂完成一个技俩?能不行作念好团队谐和?际遇没见过的问题你若何办?”
大模子告别作念题家期间了。
职场的条款不一样了
要统一新的竞争到底比什么,有一个现成的鲜嫩案例。
3月31日,Anthropic的明星产物Claude Code,闹出了代码裸露的大乌龙,酿成了实在open的AI了。
吃瓜全球扒完代码之后,发现Claude比内行想象的还更利弊,专科分析有好多,就不细说了,划重心即是一句话:Claude实在的竞争力,远不啻模子自己。
模子虽然如故中枢,莫得Claude巨大的推理能力,什么系统皆空费。但光有模子,就像光有一个才调160的天才,你把他丢到一个生分的工地上,莫得图纸、莫得器具、莫得安全范例,他照样干不成活。
Claude Code那51万行代码干的事情,即是给这个作念题家成立上打工东谈主需要的能力。浮浅看几个例子就昭彰——
省钱的能力。每次调用API皆是真金白银,Claude Code把System Prompt切成“不变的部分”和“庸俗变的部分”,斗鱼体育中国官网入口不变的部分缓存起来反复用,变的部分才从头生成。这个Benchmark不会考,但降本有多垂死,打工东谈主皆知谈。
知谈什么时候该问东谈主的能力。Claude Code搞了一套四层递进的安全机制——成立白名单、器具自检、一个专门判断“这条高唱危不危机”的小模子、终末才是弹窗问用户。这就像一个靠谱的新职工,拿不准的事不会闷头干,但也不会事事皆去问陶冶,绝大大量情况我方就处理了。这个Benchmark虽然也不会考,但它告成决定了用户敢不敢把确凿的代码仓库交给AI。
记性好的能力。对话一长,模子就会“忘事”。Claude Code的决策不是硬塞一个向量数据库,而是把对话历史压缩成一份结构化的纲目——主见是什么、作念了哪些决策、代码改了那处——存在腹地文献里。浮浅,但有用。就像每个东谈主每天皆写责任文档,第二天内行翻一翻就能接着干。
这些东西莫得一项是“模子更贤达、考分更好”就能处理的,它们处理的是另一个层面的问题:若何让一个贤达的模子在确凿宇宙里安靖、高效、安全、可捏续地干活。
这也意味着,大模子同学走出学校、投入职场,别东谈主对你的条款就变了。
好马也要配好鞍
科技圈向来擅长发明各式黑话,这样大的转换点,黑话细目少不了。
最新很火的一个,即是跟这关连的,叫Harness Engineering。
Harness这个词,底本是马具的意象——套在马身上,不是为了料理它,而是为了让马的力量按照你要的标的开释出来。
用在AI这儿,意象即是:模子是那匹马,kaiyun体育网页版登录入口Harness是那套缰绳、马鞍和标的盘。
这个观点若何出圈,浪哥专门去考古一下,发现存两个重要节点。
第一个是2026年2月5日,在工程界的江湖地位很高的一位老兄,Terraform的作家Mitchell Hashimoto,写了篇著述讲我方从间隔到拥抱AI的心路流程,其中提了一条中枢原则:
任何时候你发现Agent犯了错,就花时期想象一个决策,确保它长期不再犯通常的错。
听着像妄言对吧?但你仔细品品,它的潜台词是:竞争力不在模子里,在你若何驯从模子的那套系统里。 模子会犯错,这是天性;但你的系统能不行把每一次犯错酿成长期性的转变,这是时候。
第二个重要节点更早一些。1月5日,Google DeepMind的工程师Philipp Schmid发了一篇博客,甩出一句引起行业大规划的话:
“The Harness is the Dataset.(Harness自己即是数据集)”
这话的杀伤力在哪?
说白了即是:好的Harness能纪录下模子在确凿任务中的好意思满轨迹——它看到了什么信息、作念了什么判断、在哪一步翻了车、终末若何修好的。这些轨迹,反过来即是素养下一代模子最有价值的燃料。
也即是说,谁先把Harness跑通,谁就最初启动了一个数据飞轮——系统越好,数据越好,模子越好,系统又更好。
大模子和它周围的足下系统,不再是两件事,而是一个共生体。
接待来到确凿的宇宙
所谓AI一日,东谈主间一年。回头看大模子短短这几年,其实走过了三个阶段:
2022到2024年,内行琢磨的是若何问——Prompt Engineering,写好教导词,把模子的能力哄出来。
2025年,进化到给什么高下文——Context Engineering,把对的信息在对的时候塞给模子。
到了2026年,竞争升级到若何搭整套系统——Harness Engineering,从器具调用、驰念管理、老本甩掉到安全看重,全筹算虑。
竞争颗粒度在一步步变大:从一句话,到一段信息,到一整套系统。
这趋势还是是共鸣了。
几个月前,MiniMax独创东谈主闫俊杰在罗永浩的播客访谈里,反复讲一个判断:模子能力正在趋同。中国公司用好意思国1/50的资源,就能作念到95%的性能。5%的差距虽然存在,但它还是不是决定赢输的变量了。
这几天,MiniMax交出上市后的首份财报,闫俊杰给了几个新的判断:编程限制会运转出现L4–L5级别的智能,从“器具”走向“共事级”谐和;办公限制接下来一年,会复刻旧年编程限制的逾越速率;多模特会走向“直出可委派”的中长实质,以致出现接近及时输出的形状。
每一个皆指向更系统的能力,更全面的条款,更可靠的实施,而不再是浮浅的模子参数和跑分。
回到deepseek。
误点稿子里,有一段话很是垂死:行将发布的 V4,省略率仍是开源最强模子,但很难是碾压级的强。因为目下不同场景的不同拓荒者和用户对 “强” 的尺度和体感已越来越多元。
有个很好的参照例子,即是跟V4通常预测在4月发布的腾讯混元新模子。按照以往的脚本,这又该是一轮“谁的分数高”的跑分大战,混元的分数,臆想也会被deepseek摁地上摩擦。
有利象的是,在告别作念题家的新语境下,混元的压力反而没那么大了,因为比的不再是两张考卷的分数,而是两套系统在确凿场景里,谁更能把活干完。之前误点说,姚顺雨上任后,明确条款混元团队“不以打榜为导向”——亦然意志到训练分数还是没那么垂死的,更垂死的是,作念一个更适配腾讯的大模子。
但对deepseek来说,这也意味着一个学霸,不行再链接呆在象牙塔里埋头研讨了,你得走到更大的系统里,去适应新的游戏法例了——
你贤达虽然好,但能不行用好器具、能不行跟共事作念好谐和、能不行在复杂系统里找到我方的位置、犯了错能不行自我修正……这些在科场里根底不考的东西,反而决定了你能否成事,干事活命能否走得更远。
接待来到这个确凿的宇宙,deepseek同学,祝你好运。