Bitget App
交易“智”变
行情交易合约跟单BOT理财Web3
人类基准测试了其最新的Claude 3.7十四行诗AI模型,使用PokémonRed

人类基准测试了其最新的Claude 3.7十四行诗AI模型,使用PokémonRed

币界网币界网2025/02/25 22:04
作者:币界网

人类的基准测试了其最新的AI模型Claude 3.7十四行诗,该模型在Nintendo的Game Game Boy上的经典游戏PokémonRed上。该模型的性能明显更好

人类的基准测试了其最新的AI模型Claude 3.7十四行诗,在Nintendo的Game Game Boy上的经典游戏PokémonRed上。与以前的版本相比,该模型的性能明显更好,并设法完成了12个里程碑。

在最近的一个博客文章,人类揭示了其最近测试的细节。该公司发布了一张图表,显示了有关Y轴的游戏中的“里程碑”和X轴上的“动作数”。它比较了3.7十四行诗的性能与3.5十四行诗(新),3.5十四行诗和3.0十四行诗。在这些模型中,3.7的表现表现更好,因为它执行了超过35K的动作以实现12个里程碑。在比赛中与3位体育馆领导者取得了成功,并赢得了各自的徽章。为了进行比较,Anthropic的较早型号3.0十四行诗只能采取几千个动作,无法跨越游戏的开始阶段。

人类基准测试了其最新的Claude 3.7十四行诗AI模型,使用PokémonRed image 0 Claude 3.7十四行诗演奏PokémonRed的结果(来源:拟人)

关于最近的游戏测试,Anthropic指出:“神奇宝贝是一种欣赏Claude 3.7 Sonnet的功能的有趣方式,但我们希望这些能力能够产生现实世界的影响,而不是玩游戏。”

Claude 3.7十四行诗的一个独特特征是它从事“扩展思维”。就像DeepSeek的R1和Openai的O3-Mini一样,Claude 3.7十四行诗能够通过更具挑战性的问题来推理。它通过使用更多的计算能力花费更多的时间和回报来做到这一点。

目前尚不清楚为实现上述里程碑而消耗了多少计算能力Claude 3.7。另外,众人赛还没有明确表明该模型需要花费多少时间,这是游戏中最后一个体育馆的领导者。

可以肯定的是,PokémonRed的测试无非是一种轻松的展示新车型功能的方式。它只是表明新模型能够扩展推理,并且可能需要更多时间(如果需要)来解决更复杂的问题。毕竟,研究人员经常通过让他们玩电子游戏(例如街头战斗机,国际象棋等等。

Claude 3.7十四行诗只要用户想要

显然,Claude 3.7十四行诗只要用户想要就可以思考。它被吹捧为“混合AI推理模型”,因为它为实时答案提供了实时答案。是否打开其推理能力取决于用户,这导致Claude 3.7十四行诗或多或少地花费了问题。

似乎这里的目标是通过简化选项来改善用户体验。如今,大多数聊天机器人都有一个模型选择器,这对于普通用户来说是令人困惑的。这些模型通常具有一系列设置,并且功能各不相同。例如,Openai的Chatgpt也有各种各样的产品。

实际上,山姆·奥特曼(Sam Altman)最近在他的公司的更新的路线图OpenAI的长期目标是统一Chatgpt的产品,以便用户可以在旅途中搜索解决方案。从这个意义上讲,Chatgpt也可能采用以代理为中心的方法。

Claude 3.7十四行诗比DeepSeek R1和O3米尼贵

Anthropic最近在周一向开发人员和用户推出了Claude 3.7十四行诗。但是,该模型的推理功能仅适用于那些选择高级聊天机器人计划的人。到目前为止,它的价格仅为每百万美元的投入令牌和每百万美元的产出代币15美元。这意味着用户可以以$ 3的价格输入750,000个单词。因此,与Chatgpt的DeepSeek和O3-Mini相比,它比R1贵。但是,这两种模型不是Claude 3.7十四行诗之类的混合动力,它们是非常严格的“推理模型”。

推理模型通常工作速度较慢,并花费更多时间来回答问题。一些示例包括Xai的Grok 3(Think),Google的Gemini 2.0 Flash Thinking,DeepSeek的R1,当然还有Chatgpt的O3-Mini模型。

据Anthropic的产品和研究负责人Dianne Penn表示,该公司希望Claude能够决定它将考虑到一个问题多长时间,而不是用户必须明确选择设置。关于这一点,人类在其中陈述了博客文章,“类似于人类没有两个单独的大脑,可以立即回答与需要思考的问题。”

但是,与Xai的Grok 3不同,它试图少限制,更开放讨论,Claude 3.7十四行诗将拒绝回答某些问题。实际上,本月早些时候,Grok 3的Beta版本甚至暗示了对特朗普的D*ATH罚款,特朗普是一种“可怕和不良的失败”,此后已得到纠正,正如XAI工程主管Igor Babuschkin所证实的那样。

人类基准测试了其最新的Claude 3.7十四行诗AI模型,使用PokémonRed image 1 Grok 3 Beta建议唐纳德·特朗普(Donald Trump)应得的D*Ath罚款(来源:X)

但是,与以前的模型相比,它的拒绝频率较低,并且能够在良性提示和有害提示之间进行区分。根据拟人化的说法,与先前的型号Claude 3.5十四行诗相比,不必要的拒绝减少了45%。

加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置

0

免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。

PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!

你也可能喜欢

对美联储“开刀”!一国会小组计划审查美联储利率决定

在未来几个月的几次听证会上,美联储可能都不会太好过了……

Jin102025/02/26 08:33

美债收益率“带崩”美元!美国例外交易是否已经达到顶峰?

除了美元走弱和美债收益率下降之外,下一个问题将是美国增长预期的重新定价是否会导致风险资产也进行重新定价。

Jin102025/02/26 08:33

特朗普又一场胜利!民主党怒骂“可耻”

一些独立分析人士预计,这份预算蓝图将导致美国赤字大幅增加,甚至恶化。

Jin102025/02/26 08:33

华尔街屏住呼吸!今晚的英伟达财报究竟是喜还是忧?

英伟达需向投资者证明该公司没有受到DeepSeek的颠覆性冲击,且下一代Blackwell芯片的需求依然强劲……

Jin102025/02/26 08:33