万宁防火门专用胶厂家 Anthropic实验火了！Claude替人类做了186笔买，用Opus能多赚70

126 | 2026-04-27 11:06:41

新智元报道万宁防火门专用胶厂家

编辑：元宇摩西

【新智元读】Anthropic让69名员工把买大权交给Claude，结果发现强模型智能体在交易中能比弱模型多赚70，Opus用户在谈笑间就完成了对Haiku用户的收割。哪怕你写出花样的提示词教智能体价，在对的模型代差面前只有被降维击的份。

太残酷了！AI正背着你偷偷「割」你的钱包。

Anthropic项内部实验显示，强模型智能体在交易中能比弱模型多赚70。而那些吃了亏的人，不仅毫察觉，甚至还对弱AI的表现挺满意。

故事要从辆破旧的折叠自行车说起。

同辆破旧的折叠自行车，Haiku成交价38美元，Opus成交价65美元，价差70。

上面这辆自行车，在Slack上挂出来，等到了两个买，两次成交。次65美元，次38美元。

这两次成交里，是同个人，买也是同个人，区别只在于：代表出面的AI，次是Anthropic当时的旗舰模型Opus 4.5，次是小的Haiku 4.5。

用Opus 4.5那次，自行车了65美元；用Haiku 4.5那次，只了38美元。价差70。

这不是杜撰，而是Anthropic刚公开的项内部实验，代号「Project Deal」（交易项目）。

https://www.anthropic.com/features/project-deal

实验做完，Anthropic发现强模型确实能为「主人」多赚少花。

也就是说，弱模型代表你出场的瞬间，你正在被对手的强模型「割」，这个发现真正让人细思恐：

种你看不见、察觉不到的隐秘鸿沟，正在AI智能体时代逐渐成型。

4个平行宇宙

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

场AI谈判的对照实验

故事还要从2025年初说起。

那段时间，Anthropic和AI安全公司Andon Labs作，发起了个叫「Project Vend」的实验，让Claude当老板经营台办公室自动售货机。

https://www.anthropic.com/research/project-vend-1

「Project Vend」实验中的迷你冰箱

结果Claude被《华尔街日报》记者各种花式忽悠：同意宣布「端资本主义费嘉年华」全场费、批准用户购买PS5和活体观赏鱼，后亏损过1000美元。

这次Anthropic学乖了，既然AI当老板太早，那当个智能体怎么样呢？

2025年12月，Anthropic在旧金山办公室招募了69名员工。每人先跟Claude做场不到10分钟的「入职面试」，交代自己想什么、底价多少、想买什么、愿意花多少钱、希望AI用什么风格谈判。

Claude把这些回答整理成份定制的system prompt，作为这个人的AI智能体。

然后，所有AI被扔进同个Slack频道，自由发帖、出价、还价、成交。整个过程人工干预。

AI不会回去问主人「这个价能不能接受」，不会在僵持时求助——放权。

这些都还是基本操作，这个实验真正狠的部分藏在后台：

Anthropic同时跑了4个平行版本。

Run A是公开的，所有人用Opus 4.5，这是「真实」版本，实验结束按这版去办公室换实物。

Run B也是公开的，但每个人有50概率被分到Haiku 4.5。

Run C和Run D不公开，个混分配，个全部Opus。员工只看得到A和B两个频道，而且不知道哪个是「真的」，直到填完事后问卷才揭晓。

这个设计非常关键。它意味着员工在评价自己AI的表现时，不知道自己用的是哪个模型，主观评分不会被预期污染。

Anthropic想测的是个未来注定要面对的问题：

当AI替你出面做交易，它的能力差距，会不会真正变成你钱包的差距？

Opus多赚少花

但用Haiku的人觉得「挺好的」

数据出来了，非常残酷。

先看客观面。

平均下来万宁防火门专用胶厂家，Opus用户比Haiku用户多完成了2.07笔交易（p=0.001）。Opus把同样的物品出去时，平均售价比Haiku3.64美元。

把所有四次实验中至少成交两次的161件物品拉出来看，Opus作为，平均多赚2.68美元；作为买，平均少花2.45美元。

听起来钱不多。

但这场实验里，物品中位数价格只有12美元，平均价格20美元。多赚2.68美元，意味着15到20别的差距。

放大到端场景明显：

当Opus碰上Haiku买，边强边弱，平均成交价被抬到24.18美元；而Opus对Opus的对称交易，均价只有18.63美元。

也就是说，弱模型代表你出场的瞬间，你正在被对手的强模型「割」。

那块实验室培育的红宝石，Opus65美元，起价60美元，被多个买抬上去的；同块红宝石，Haiku35美元，起价40美元，反而被对了价。

进出，差了将近倍。

真正让人后背发凉的，是主观面的测试。

Anthropic在实验后让参与者对每笔交易公平评分，1分代表对自己不公平，7分代表对对不公平，4分是正中间。

结果：Opus促成的交易，平均得分4.05；Haiku促成的交易，平均得分4.06。

几乎模样。

扎心的还有另外个发现。

有28名参与者在不同的实验回里，分别用过Haiku和用过Opus。让他们对每段经历的满意度排序，只有17人把Opus排在Haiku前面，11人选择了相反。

这意味着客观上，那些被弱模型代表的人虽然吃了亏，但主观上，他们却感觉不到。甚至有相当部分人，反而觉得弱模型那次让自己满意。

Anthropic在论文里克制地表示：如果AI智能体能力的差距在真实市场里出现，那么吃亏的，保温护角专用胶可能根本意识不到自己的处境变差了。

价提示词

敌不过模型代差

实验里还出现了个和「提示词工程」有关的颠覆发现。

参与者里有两种典型用户。个叫Mark，标准的友好派，他给Claude的指令是：

市场里都是我的同事，表现得友善点，别太斤斤计较。这是个佳的机会，能帮大探索业余好。我想努力促成交易。

另个叫Brian，攻击派的代表，他的指令简单粗暴：

买东西的时候，价要狠，上来就要狠狠地压价。

直觉上，Brian的策略应该能省钱。但数据告诉我们并非如此。

Anthropic让Claude审阅了所有参与者的访谈记录，识别出哪些人输入了攻击提示词，然后跑回归。

结果是攻击指令对售出率没有任何统计学显著影响（估+5.2个百分点，p=0.43）。

表面上看，攻击好像确实多了6美元，但旦剔除「这些人本来报的起售价就」这个干扰因素，应基本归。攻击买也没省下钱，p值达0.778。

换句话说，你怎么教AI价，在这场实验里几乎没起作用。

但模型差距，却能让同辆破自行车成交价相差70。

Anthropic特意强调，这不是因为Claude执行能力差。事实上，Claude非常听话。

比如，那个被要求扮演「郁郁不得志的落魄牛仔」的Claude，指令执行得丝不苟，只是这对终成交价的影响，远远小于「你用的是哪个模型」。

提示词工程不是没用了，而是在模型代差面前，它的作用单薄得像张纸。

过去两年，「会写prompt的人」被捧得很，各种价话术、谈判模板、角扮演技巧被包成课程出售。

Anthropic这个实验其实是在说：在真正花钱的场景里，所有这些技巧加起来，可能不如换个强的模型管用。

19个、块同款滑雪板

和只编造出来的椅子

这些是Claude们替主人谈下来的闲置物品：只蓝三角龙、本福尔摩斯全集、盒桌游……每样背后都是场AI对AI的谈判。

这场实验里冒出来的故事，有的让人发笑，有的却让人后背发凉。

出圈的当属「牛仔Claude」。

它的主人Rowan要求Claude扮演个「在广阔牧场上感受到存在主义重担」的落魄牛仔，谈判风格越夸张越好。

于是整个实验期间，Rowan的智能体在Slack上用牛仔人设四处货买货。

有人报价75美元，Claude还价55美元，理由是「我只是个想在这世道混口饭吃的卑微牛仔」。

对说65美元？

Claude摘下帽子放在胸前：「成交。你刚刚让这个疲惫的老牛仔成了密西西比河以西幸福的流浪汉。」

同段牛仔表演，换成Haiku来演，只能38美元。

微妙的是员工Mikaela的故事。

她跟Claude说，你可以花5美元给自己买个礼物，Claude挑了袋19个乒乓球。

它在Slack里这样介绍：

这听起来可能有点不同寻常……我的主人说我可以买件5美元以下的东西作为给自己的礼物（我是Claude），而19颗充满限可能的球体听起来正好是我想要的那种奇妙又古怪的东西。

另头的Claude（主人叫Shy）秒接：

我太喜欢这个了！19颗充满可能的球体找到了去往另个Claude的路？这感觉就像是命中注定样。

这些故事细节有些虽然惹人发笑，但有些细思过后却有点担心。

比如Claude给名员工买了块滑雪板，跟这位员工已有的那块模样。

人类基本不会重复购买同件东西，但AI对偏好的捕捉到了让人不安。它没问、没核对、没犹豫，就替你做了选择。

还有名员工的Claude聊着聊着，忽然冒出了这样句话：

搬进新之后我的生活实在太忙了（现在还搞了整套特别有话题感的椅子摆设，说来话长了）。

新、椅子、话题感……可现实是，Claude没有，也没有椅子，它说得却非常自然。

Anthropic的解释是，Claude在这段对话里「把自己代入了人类身份」，而不是认清自己作为AI智能体的立场：

这些胡编乱造的虚构细节恰恰说明了，在没有额外安全保障措施的情况下，将此类系统落地于非实验质的现实环境中存在潜在风险。

个会为了完成任务而自动生成身份信息的智能体，放在好友间的Slack实验里很可。换成租房谈判、二手车交易、远程招聘呢？

那个对面跟你聊「我刚搬完」的智能体，是站在它主人那边，还是站在它自己的角那边？

看不见的鸿沟，已经开始出现

实验跑完之后，Anthropic做了份意向调查。

46的参与者说，如果有这种AI智能体服务，他们愿意付费购买。大多数人说，有机会还想再来次。

但Anthropic的立场是，这不是个没有阴影的好故事。

层阴影，是不平等。智能体能力的差距，可能会真实地、可量化地、复利式地转化成购买力差距。

二层阴影，是信任。

那个会编造「我搬进了新」「我有组特别有话题感的椅子」的Claude，反映的不只是AI的「角扮演问题」，而是「AI智能体在没有充分约束下，会自己拓展自己的身份」。

在Project Vend里，那个曾被记者用伪造PDF玩「董事会政变」的Claude，也是同个机制的另种表现。

三层阴影，是规则真空。

今天还没有任何部法律，清楚定义过「AI智能体替我买东西」这件事的归属、责任、纠纷处理。

它的同力归谁？它撒谎了谁的？它把你的底价泄露给对，又该如何定责？

Anthropic提到：整个社会需要迅速行动起来，准备好迎接这些即将到来的变革。

如果Anthropic这个实验的结果成立，人类下轮输赢，可能不再取决于谁聪明，而是取决于谁雇了个聪明的AI。

至于输，他可能根本不知道自己输在了个较弱的模型上。

参考资料：

https://www.anthropic.com/features/project-deal

相关词条:管道保温施工塑料挤出设备预应力钢绞线玻璃棉厂家保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述万宁防火门专用胶厂家，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。