人类基准测试了其最新的Claude 3.7十四行诗AI模型，使用PokémonRed

Bitget App

交易“智”变

Bitget

资讯中心

币界网2025/02/25 22:04

作者:币界网

人类的基准测试了其最新的AI模型Claude 3.7十四行诗，该模型在Nintendo的Game Game Boy上的经典游戏PokémonRed上。该模型的性能明显更好

人类的基准测试了其最新的AI模型Claude 3.7十四行诗，在Nintendo的Game Game Boy上的经典游戏PokémonRed上。与以前的版本相比，该模型的性能明显更好，并设法完成了12个里程碑。

在最近的一个博客文章，人类揭示了其最近测试的细节。该公司发布了一张图表，显示了有关Y轴的游戏中的“里程碑”和X轴上的“动作数”。它比较了3.7十四行诗的性能与3.5十四行诗（新），3.5十四行诗和3.0十四行诗。在这些模型中，3.7的表现表现更好，因为它执行了超过35K的动作以实现12个里程碑。在比赛中与3位体育馆领导者取得了成功，并赢得了各自的徽章。为了进行比较，Anthropic的较早型号3.0十四行诗只能采取几千个动作，无法跨越游戏的开始阶段。

人类基准测试了其最新的Claude 3.7十四行诗AI模型，使用PokémonRed image 0

Claude 3.7十四行诗演奏PokémonRed的结果（来源：拟人）

关于最近的游戏测试，Anthropic指出：“神奇宝贝是一种欣赏Claude 3.7 Sonnet的功能的有趣方式，但我们希望这些能力能够产生现实世界的影响，而不是玩游戏。”

Claude 3.7十四行诗的一个独特特征是它从事“扩展思维”。就像DeepSeek的R1和Openai的O3-Mini一样，Claude 3.7十四行诗能够通过更具挑战性的问题来推理。它通过使用更多的计算能力花费更多的时间和回报来做到这一点。

目前尚不清楚为实现上述里程碑而消耗了多少计算能力Claude 3.7。另外，众人赛还没有明确表明该模型需要花费多少时间，这是游戏中最后一个体育馆的领导者。

可以肯定的是，PokémonRed的测试无非是一种轻松的展示新车型功能的方式。它只是表明新模型能够扩展推理，并且可能需要更多时间（如果需要）来解决更复杂的问题。毕竟，研究人员经常通过让他们玩电子游戏（例如街头战斗机，国际象棋等等。

Claude 3.7十四行诗只要用户想要

显然，Claude 3.7十四行诗只要用户想要就可以思考。它被吹捧为“混合AI推理模型”，因为它为实时答案提供了实时答案。是否打开其推理能力取决于用户，这导致Claude 3.7十四行诗或多或少地花费了问题。

似乎这里的目标是通过简化选项来改善用户体验。如今，大多数聊天机器人都有一个模型选择器，这对于普通用户来说是令人困惑的。这些模型通常具有一系列设置，并且功能各不相同。例如，Openai的Chatgpt也有各种各样的产品。

实际上，山姆·奥特曼（Sam Altman）最近在他的公司的更新的路线图OpenAI的长期目标是统一Chatgpt的产品，以便用户可以在旅途中搜索解决方案。从这个意义上讲，Chatgpt也可能采用以代理为中心的方法。

Claude 3.7十四行诗比DeepSeek R1和O3米尼贵

Anthropic最近在周一向开发人员和用户推出了Claude 3.7十四行诗。但是，该模型的推理功能仅适用于那些选择高级聊天机器人计划的人。到目前为止，它的价格仅为每百万美元的投入令牌和每百万美元的产出代币15美元。这意味着用户可以以$ 3的价格输入750,000个单词。因此，与Chatgpt的DeepSeek和O3-Mini相比，它比R1贵。但是，这两种模型不是Claude 3.7十四行诗之类的混合动力，它们是非常严格的“推理模型”。

推理模型通常工作速度较慢，并花费更多时间来回答问题。一些示例包括Xai的Grok 3（Think），Google的Gemini 2.0 Flash Thinking，DeepSeek的R1，当然还有Chatgpt的O3-Mini模型。

据Anthropic的产品和研究负责人Dianne Penn表示，该公司希望Claude能够决定它将考虑到一个问题多长时间，而不是用户必须明确选择设置。关于这一点，人类在其中陈述了博客文章，“类似于人类没有两个单独的大脑，可以立即回答与需要思考的问题。”

但是，与Xai的Grok 3不同，它试图少限制，更开放讨论，Claude 3.7十四行诗将拒绝回答某些问题。实际上，本月早些时候，Grok 3的Beta版本甚至暗示了对特朗普的D*ATH罚款，特朗普是一种“可怕和不良的失败”，此后已得到纠正，正如XAI工程主管Igor Babuschkin所证实的那样。

人类基准测试了其最新的Claude 3.7十四行诗AI模型，使用PokémonRed image 1

Grok 3 Beta建议唐纳德·特朗普（Donald Trump）应得的D*Ath罚款（来源：X）

但是，与以前的模型相比，它的拒绝频率较低，并且能够在良性提示和有害提示之间进行区分。根据拟人化的说法，与先前的型号Claude 3.5十四行诗相比，不必要的拒绝减少了45％。

加密大都会学院：想在2025年养活您的钱吗？在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置

免责声明：文章中的所有内容仅代表作者的观点，与本平台无关。用户不应以本文作为投资决策的参考。

PoolX：锁仓获得新代币空投

不要错过热门新币，且APR 高达 10%+

立即参与！

你也可能喜欢

美国消费者信心跌至两年多新低，长期通胀预期飙升

三分之二的消费者预计未来一年美国失业率将上升，创2009年以来最高……

Jin10•2025/03/29 04:11

重塑金融体系：FDIC改革能否应对加密货币时代的挑战？

美国联邦存款保险公司（FDIC）代理主席特拉维斯·希尔提出了一系列改革优先事项，包括审查现行法规、拥抱创新和重新评估银行合并审批流程。然而，改革面临现实挑战，需要在确保金融体系安全的同时推动经济活力。FDIC 应采取谨慎、分阶段的方式推进改革，以避免监管漏洞和实施延迟。摘要由 Mars AI 生成本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

MarsBit•2025/03/28 16:00

特朗普儿子参与Dominari的比特币ETF投资

公开上市公司Dominari Holdings宣布采用比特币储备策略，投资200万美元购买黑石iShares比特币信托基金（IBIT）股份。该公司与特朗普家族关系密切，唐纳德·特朗普·朱尼尔和埃里克·特朗普近期加入其顾问委员会。通过受监管的ETF获取比特币敞口，简化合规和会计处理，凸显特朗普家族对加密货币的兴趣和参与。摘要由 Mars AI 生成本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

MarsBit•2025/03/28 16:00

Bitget 现货杠杆新增 TUT/USDT！

Bitget Announcement•2025/03/28 14:39

人类基准测试了其最新的Claude 3.7十四行诗AI模型，使用PokémonRed

Claude 3.7十四行诗只要用户想要

Claude 3.7十四行诗比DeepSeek R1和O3米尼贵

你也可能喜欢

热门新闻

加密货币价格