安康铁皮保温工程 从 Harness 到 Loop: AI 居品的下个联想层

118     2026-06-12 21:09:37
铁皮保温

AI居品司理的职责范式正在阅历刻变革——从编写静态prompt到联想动态loop机制。当ClaudeCode的作家声称"我的职责是写loop"时安康铁皮保温工程,这记号着个新期间的运转:居品司理需要构建包含验收圭臬、立评审机制和止损条款的好意思满轮回系统。本文将入默契loop联想如何成为AI居品的中枢竞争力,以及居品司理该如何委派包含判定机制与驰念回路的下代案。

前几天Anthropic的LanceMartin发了篇著作,讲他若何用loop来跑新模子。著作自身是写给工程师的,但我读完的反映是:这事跟居品司理的联系,可能比跟工程师的联系还大。

ClaudeCode的作家BorisCherny说过句近被反复援用的话:他照旧不径直prompt模子了,”我的职责是写loop”。几百个agent读他的GitHub和Slack,我方决定接下来作念什么。

loop俄顷火起来,但中语社区的筹画大多停在工程层面:若何写bash轮回、若何配hook。

我想换个角度聊聊:若是你是个作念AI居品的PM,loop意味着什么。

先把意见捋明晰:harness是环境,loop是机制

昨年遍及在谈harness。模子除外的切都算harness:

给它什么器具、什么沙箱、能读哪些文献、有哪些权限。句话,harness是模子干活的环境。

但环境是静态的。你给模子配了间建立皆全的车间安康铁皮保温工程,不等于它知说念今天该干什么、干到什么进程算完、干了若何办。

loop补的即是这层。它是架在harness之上的运行机制:模子跑轮,从环境里收到反馈,对照圭臬检查,没达标就带着反馈再跑轮,直到验收通过。Lance著作里提到的ClaudeCode的/goal号令、Claude托管Agent里的Outcomes,都是把这套机制作念成了居品原语。

是以目下的AI居品其实有三层:

模子是引擎,harness是车间,loop是排班和验收轨制。引擎遍及从几厂商买,车间的搭法也越来越圭臬化,能拉开差距的运转酿成三层。而机制联想这件事,工程师未比PM擅长。

Lance的实验里,藏着两个居品启示

Lance作念了个实验:让模子在8张H100上自主作念机器学习调,纠合跑8个小时,我方改代码、跑查考、读日记、决定下个实验。细节不伸开,我只说两个对居品东说念主灵验的发现。

个:他给模子的不是操作设施,而是份验收清单。九条可检查的圭臬,比如”须先跑基线”、”至少作念20组实验”。模子若何完毕,随它。

这其实即是PRD想路的迁徙。夙昔咱们写需求文档是给东说念主看的,要形容经由和交互;给loop写的”需求文档”是份rubric,中枢只消个问题:什么景色算完成,若何客不雅地检查。比起章程若何作念,说清什么动作念完紧要得多。条污秽的圭臬(”代码质料要”)会让所有loop空转,换成可检查的写法(”测试全过且新增lint报错”)它才不时得了。

二个发现存理由:弗成让模子我方给我方分。

Lance提到,模子自我批判的果不好,它会倾向于招供我方刚作念完的东西。有的作念法是再开个立的”验收agent”,在干净的高下文里分安康铁皮保温工程,跟本质者遮挡。开通员弗成兼任裁判,对模子也样。

这对居品联想的含义很径直:在你的AI居品里,”判定任务完成”应该是个立的机制,而不是本质经由的后步。谁来验收、欠亨过若何回?验收者能看到哪些信息,管道保温施工会不会被本质过程的诠释带偏?这些都得画进居品案。

驰念:跨会话的外轮回

著作后半段讲驰念,我认为是被低估的部分。

若是说自我纠错是会话内的小轮回,驰念即是跨会话的外轮回:

此次踩的坑,下次别再踩。Lance用个基准测试对比了三代模子若何用驰念,三代都在记,差距体目下驰念的度上。他形容了个五步的递进:出错并记下来,弄明晰为什么错,考证我方的会诊,把会诊索求成通用规矩,后在新任务里径直查规矩而不是重新踩坑。

瑕疵的模子停在步,驰念库即是堆错题集和推断,下次也想不起来翻。强的模子能走程,把教养酿陈规矩。

作念过驰念的PM应该都有体感:

大部分居品的”驰念”即是存聊天历史,内容是个回收站。Lance这个递进给了个好的联想框架。驰念的价值不在存储,而在回路是否闭:写进去的东西经过了考证吗?索求成可复用的花样了吗?下次任务运转时,它会被读到吗?三个要津断掉任何个,驰念就仅仅占地的日记。

反过来,回路旦闭,这部分集结很难被抄走。模子才气东说念主东说念主都买取得,但你的居品在这个用户身上考证过的那些规矩,竞品拿不到。

那PM到底要委派什么

说点实操的。若是你在作念agent类居品,我认为有四个问题值得在案评审之前先想明晰。

任务的”完成”由谁判定、依据什么圭臬?反馈信号从那儿来,是测试效力、用户行为,如故立的评审agent?loop什么时刻须停,迭代次数上限和预算上限是几许?驰念写入什么、何时被奢华?

三个问题单说句。loop不会我方停,住手条款是联想出来的。Uber本年给工程师设了每东说念主每器具每月1500好意思元的AI开支上限,因为年度预算四个月就完毕。个莫得止损机制的loop,要么钱,要么”领域化地分娩自信的乖张”。止损听起来是资本问题,等账单大约乖张交到用户手上,就酿成信任问题了。

这两年这个岗亭的职责对象直在上移:

先是写prompt,自后管高下文,目下到了联想loop。委派物也随着变了,以前是界面和经由图,目下还要加上份验收圭臬、个判定机制和组止损条款。

模子还会连续变强。我的判断是,这反而让机制联想值钱:引擎越猛,向和刹车越弗成省。地址:大城县广安工业区相关词条:设备保温     塑料挤出机厂家     预应力钢绞线    玻璃丝棉    万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》安康铁皮保温工程,以此来变相勒索商家索要赔偿的违法恶意行为。