万宁防火门专用胶厂家 Anthropic实验火了!Claude替人类做了186笔买,用Opus能多赚70

 126     |      2026-04-27 11:06:41
防火门专用胶厂

新智元报道万宁防火门专用胶厂家

编辑:元宇 摩西

【新智元读】Anthropic让69名员工把买大权交给Claude,结果发现强模型智能体在交易中能比弱模型多赚70,Opus用户在谈笑间就完成了对Haiku用户的收割。哪怕你写出花样的提示词教智能体价,在对的模型代差面前只有被降维击的份。

太残酷了!AI正背着你偷偷「割」你的钱包。

Anthropic项内部实验显示,强模型智能体在交易中能比弱模型多赚70。而那些吃了亏的人,不仅毫察觉,甚至还对弱AI的表现挺满意。

故事要从辆破旧的折叠自行车说起。

同辆破旧的折叠自行车,Haiku成交价38美元,Opus成交价65美元,价差70。

上面这辆自行车,在Slack上挂出来,等到了两个买,两次成交。次65美元,次38美元。

这两次成交里,是同个人,买也是同个人,区别只在于:代表出面的AI,次是Anthropic当时的旗舰模型Opus 4.5,次是小的Haiku 4.5。

用Opus 4.5那次,自行车了65美元;用Haiku 4.5那次,只了38美元。 价差70。

这不是杜撰,而是Anthropic刚公开的项内部实验,代号「Project Deal」(交易项目)。

https://www.anthropic.com/features/project-deal

实验做完,Anthropic发现强模型确实能为「主人」多赚少花。

也就是说,弱模型代表你出场的瞬间,你正在被对手的强模型「割」,这个发现真正让人细思恐:

种你看不见、察觉不到的隐秘鸿沟,正在AI智能体时代逐渐成型。

4个平行宇宙

奥力斯    pvc管道管件胶批发    联系人:王经理    手机:15226765735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

场AI谈判的对照实验

故事还要从2025年初说起。

那段时间,Anthropic和AI安全公司Andon Labs作,发起了个叫「Project Vend」的实验,让Claude当老板经营台办公室自动售货机。

https://www.anthropic.com/research/project-vend-1

「Project Vend」实验中的迷你冰箱

结果Claude被《华尔街日报》记者各种花式忽悠:同意宣布「端资本主义费嘉年华」全场费、批准用户购买PS5和活体观赏鱼,后亏损过1000美元。

这次Anthropic学乖了,既然AI当老板太早,那当个智能体怎么样呢?

2025年12月,Anthropic在旧金山办公室招募了69名员工。每人先跟Claude做场不到10分钟的「入职面试」,交代自己想什么、底价多少、想买什么、愿意花多少钱、希望AI用什么风格谈判。

Claude把这些回答整理成份定制的system prompt,作为这个人的AI智能体。

然后,所有AI被扔进同个Slack频道,自由发帖、出价、还价、成交。整个过程人工干预。

AI不会回去问主人「这个价能不能接受」,不会在僵持时求助——放权。

这些都还是基本操作,这个实验真正狠的部分藏在后台:

Anthropic同时跑了4个平行版本。

Run A是公开的,所有人用Opus 4.5,这是「真实」版本,实验结束按这版去办公室换实物。

Run B也是公开的,但每个人有50概率被分到Haiku 4.5。

Run C和Run D不公开,个混分配,个全部Opus。员工只看得到A和B两个频道,而且不知道哪个是「真的」,直到填完事后问卷才揭晓。

这个设计非常关键。它意味着员工在评价自己AI的表现时,不知道自己用的是哪个模型,主观评分不会被预期污染。

Anthropic想测的是个未来注定要面对的问题:

当AI替你出面做交易,它的能力差距,会不会真正变成你钱包的差距?

Opus多赚少花

但用Haiku的人觉得「挺好的」

数据出来了,非常残酷。

先看客观面。

平均下来万宁防火门专用胶厂家,Opus用户比Haiku用户多完成了2.07笔交易(p=0.001)。Opus把同样的物品出去时,平均售价比Haiku3.64美元。

把所有四次实验中至少成交两次的161件物品拉出来看,Opus作为,平均多赚2.68美元;作为买,平均少花2.45美元。

听起来钱不多。

但这场实验里,物品中位数价格只有12美元,平均价格20美元。多赚2.68美元,意味着15到20别的差距。

放大到端场景明显:

当Opus碰上Haiku买,边强边弱,平均成交价被抬到24.18美元;而Opus对Opus的对称交易,均价只有18.63美元。

也就是说,弱模型代表你出场的瞬间,你正在被对手的强模型「割」。

那块实验室培育的红宝石,Opus65美元,起价60美元,被多个买抬上去的;同块红宝石,Haiku35美元,起价40美元,反而被对了价。

进出,差了将近倍。

真正让人后背发凉的,是主观面的测试。

Anthropic在实验后让参与者对每笔交易公平评分,1分代表对自己不公平,7分代表对对不公平,4分是正中间。

结果:Opus促成的交易,平均得分4.05;Haiku促成的交易,平均得分4.06。

几乎模样。

扎心的还有另外个发现。

有28名参与者在不同的实验回里,分别用过Haiku和用过Opus。让他们对每段经历的满意度排序,只有17人把Opus排在Haiku前面,11人选择了相反。

这意味着客观上,那些被弱模型代表的人虽然吃了亏,但主观上,他们却感觉不到。甚至有相当部分人,反而觉得弱模型那次让自己满意。

Anthropic在论文里克制地表示:如果AI智能体能力的差距在真实市场里出现,那么吃亏的,保温护角专用胶可能根本意识不到自己的处境变差了。

价提示词

敌不过模型代差

实验里还出现了个和「提示词工程」有关的颠覆发现。

参与者里有两种典型用户。个叫Mark,标准的友好派,他给Claude的指令是:

市场里都是我的同事,表现得友善点,别太斤斤计较。这是个佳的机会,能帮大探索业余好。我想努力促成交易。

另个叫Brian,攻击派的代表,他的指令简单粗暴:

买东西的时候,价要狠,上来就要狠狠地压价。

直觉上,Brian的策略应该能省钱。但数据告诉我们并非如此。

Anthropic让Claude审阅了所有参与者的访谈记录,识别出哪些人输入了攻击提示词,然后跑回归。

结果是攻击指令对售出率没有任何统计学显著影响(估+5.2个百分点,p=0.43)。

表面上看,攻击好像确实多了6美元,但旦剔除「这些人本来报的起售价就」这个干扰因素,应基本归。攻击买也没省下钱,p值达0.778。

换句话说,你怎么教AI价,在这场实验里几乎没起作用。

但模型差距,却能让同辆破自行车成交价相差70。

Anthropic特意强调,这不是因为Claude执行能力差。事实上,Claude非常听话。

比如,那个被要求扮演「郁郁不得志的落魄牛仔」的Claude,指令执行得丝不苟,只是这对终成交价的影响,远远小于「你用的是哪个模型」。

提示词工程不是没用了,而是在模型代差面前,它的作用单薄得像张纸。

过去两年,「会写prompt的人」被捧得很,各种价话术、谈判模板、角扮演技巧被包成课程出售。

Anthropic这个实验其实是在说:在真正花钱的场景里,所有这些技巧加起来,可能不如换个强的模型管用。

19个、块同款滑雪板

和只编造出来的椅子

这些是Claude们替主人谈下来的闲置物品:只蓝三角龙、本福尔摩斯全集、盒桌游……每样背后都是场AI对AI的谈判。

这场实验里冒出来的故事,有的让人发笑,有的却让人后背发凉。

出圈的当属「牛仔Claude」。

它的主人Rowan要求Claude扮演个「在广阔牧场上感受到存在主义重担」的落魄牛仔,谈判风格越夸张越好。

于是整个实验期间,Rowan的智能体在Slack上用牛仔人设四处货买货。

有人报价75美元,Claude还价55美元,理由是「我只是个想在这世道混口饭吃的卑微牛仔」。

对说65美元?

Claude摘下帽子放在胸前:「成交。你刚刚让这个疲惫的老牛仔成了密西西比河以西幸福的流浪汉。」

同段牛仔表演,换成Haiku来演,只能38美元。

微妙的是员工Mikaela的故事。

她跟Claude说,你可以花5美元给自己买个礼物,Claude挑了袋19个乒乓球。

它在Slack里这样介绍:

这听起来可能有点不同寻常……我的主人说我可以买件5美元以下的东西作为给自己的礼物(我是Claude),而19颗充满限可能的球体听起来正好是我想要的那种奇妙又古怪的东西。

另头的Claude(主人叫Shy)秒接:

我太喜欢这个了!19颗充满可能的球体找到了去往另个Claude的路?这感觉就像是命中注定样。

这些故事细节有些虽然惹人发笑,但有些细思过后却有点担心。

比如Claude给名员工买了块滑雪板,跟这位员工已有的那块模样。

人类基本不会重复购买同件东西,但AI对偏好的捕捉到了让人不安。它没问、没核对、没犹豫,就替你做了选择。

还有名员工的Claude聊着聊着,忽然冒出了这样句话:

搬进新之后我的生活实在太忙了(现在还搞了整套特别有话题感的椅子摆设,说来话长了)。

新、椅子、话题感……可现实是,Claude没有,也没有椅子,它说得却非常自然。

Anthropic的解释是,Claude在这段对话里「把自己代入了人类身份」,而不是认清自己作为AI智能体的立场:

这些胡编乱造的虚构细节恰恰说明了,在没有额外安全保障措施的情况下,将此类系统落地于非实验质的现实环境中存在潜在风险。

个会为了完成任务而自动生成身份信息的智能体,放在好友间的Slack实验里很可。换成租房谈判、二手车交易、远程招聘呢?

那个对面跟你聊「我刚搬完」的智能体,是站在它主人那边,还是站在它自己的角那边?

看不见的鸿沟,已经开始出现

实验跑完之后,Anthropic做了份意向调查。

46的参与者说,如果有这种AI智能体服务,他们愿意付费购买。大多数人说,有机会还想再来次。

但Anthropic的立场是,这不是个没有阴影的好故事。

层阴影,是不平等。智能体能力的差距,可能会真实地、可量化地、复利式地转化成购买力差距。

二层阴影,是信任。

那个会编造「我搬进了新」「我有组特别有话题感的椅子」的Claude,反映的不只是AI的「角扮演问题」,而是「AI智能体在没有充分约束下,会自己拓展自己的身份」。

在Project Vend里,那个曾被记者用伪造PDF玩「董事会政变」的Claude,也是同个机制的另种表现。

三层阴影,是规则真空。

今天还没有任何部法律,清楚定义过「AI智能体替我买东西」这件事的归属、责任、纠纷处理。

它的同力归谁?它撒谎了谁的?它把你的底价泄露给对,又该如何定责?

Anthropic提到:整个社会需要迅速行动起来,准备好迎接这些即将到来的变革。

如果Anthropic这个实验的结果成立,人类下轮输赢,可能不再取决于谁聪明,而是取决于谁雇了个聪明的AI。

至于输,他可能根本不知道自己输在了个较弱的模型上。

参考资料:

https://www.anthropic.com/features/project-deal

相关词条:管道保温施工     塑料挤出设备     预应力钢绞线    玻璃棉厂家    保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述万宁防火门专用胶厂家,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。