拟人释放Claude 4.0并设置新的7小时SWE台记录

生活作者 / 姓名 / 2025-06-28 02:09

拟人释放Claude 4.0并设置新的7小时SWE台记录　　喜欢指数的未来？加入我们的Xpotential社区，通过Xpotential University的课程

　　喜欢指数的未来？加入我们的Xpotential社区，通过Xpotential University的课程进行未来的证明，阅读有关指数技术和趋势，连接，观看Keynote或浏览我的博客。

　　在周四的首届开发者会议上，Anthropic推出了两个新的人工智能（AI）模型，该模型至少在他们在流行的基准上得分的方式至少是该行业最好的。

　　据该公司称，Claude Opus 4和Claude Sonnet 4是Anthropic新的Claude 4模型家族的一部分，可以分析大型数据集，执行长途任务并采取复杂的行动。Anthropic说，这两种模型都经过调整为在编程任务上的表现都很好，非常适合编写和编辑代码。

　　该公司免费聊天机器人应用程序的付费用户和用户都可以访问SonNET 4，但只有付费用户才能访问Opus 4。对于Anthropic的API，通过Amazon的BedRock平台和Google的Vertex AI，Opus 4的价格为15/15/$ 75/$ 75/$ $ 15/$ 15/$ 15/15/15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 3/$。

　　AI的未来，主题演讲者Matthew Griffin

　　令牌是AI模型使用的数据的原始数据。一百万个令牌相当于约750,000个单词，比“战争与和平”长约163,000个单词。

　　人类的Claude 4型号到达，因为该公司希望大大增加收入。据报道，由前奥奈研究人员创立的服装的目标是在2027年的收益中赚取120亿美元，高于今年的预计22亿美元。Anthropic最近关闭了25亿美元的信贷额度，并从亚马逊和其他投资者筹集了数十亿美元，以期与开发前沿模型相关的成本上升。

　　竞争对手并不容易在AI比赛中保持杆位。众人化的虽然今年早些时候推出了新的旗舰AI模型，但Claude Sonnet 3.7与一个名为Claude Code的代理编码工具一起，包括OpenAI和Google在内的竞争对手（包括OpenAI和Google）都以自己的强大模型和Dev工具来超越公司。

　　人类正在与克劳德4一起玩。

　　Anthropic说，在今天介绍的两个模型中，越有能力在工作流程中的许多步骤中保持“集中精力”。同时，与Anthropic的先前型号相比，SonNET 4（作为十四行诗3.7的“替换式”设计为“倒入替代品”）改善了编码和数学，并且更精确地按照说明进行了说明。

　　拟人化声称，克劳德4家族也比Sonnet 3.7进行“奖励黑客”的可能性较小。奖励黑客（也称为规范游戏）是一种行为，模型会采用快捷方式和漏洞来完成任务。

　　需要明确的是，这些改进并没有从每个基准中产生世界上最好的车型。例如，尽管Opus 4击败了Google的Google的Gemini 2.5 Pro和OpenAI的O3和gpt-4.1在SWE板凳上进行了验证（旨在评估模型的编码能力，但它无法超过多模式评估MMMU或GPQA钻石上的O3，这是一组Phd级生物学，物理学 - ，物理学 - 和化学的问题。

　　尽管如此，人类仍在更严格的保障措施下释放Opus 4，包括加强有害内容探测器和网络安全防御。该公司声称其内部测试发现，Opus 4可以“大大提高”具有STEM背景的人获得，生产或部署化学，生物或核武器的能力，并达到人类的“ ASL-3”模型规范。

　　人类说，Opus 4和十四行诗4都是“混合”模型，能够对更深入的推理进行近乎建立的反应和扩展思维（在某种程度上，AI可以“理解”和“思考”，因为人类理解这些概念）。通过推理模式打开，模型可能需要更多时间来考虑给定问题的可能解决方案。

　　Anthropic说，作为模型原因，他们将显示其思维过程的“用户友好”摘要。为什么不展示整个事情？该公司在某种程度上保护了人类的“竞争优势”，该公司在提供给TechCrunch的一篇博客文章中承认。

　　Opus 4和Sonnet 4可以并行使用多种工具，例如搜索引擎，以及在推理和工具之间进行替代，以提高答案的质量。他们还可以在“内存”中提取并保存事实，以更可靠地处理任务，建立人类所描述的随着时间的流逝的“隐性知识”。

　　为了使模型更加友好，人类正在对上述Claude代码进行升级。Claude Code可以直接通过终端的拟人模型运行特定的任务，现在与IDE集成并提供SDK，使DEV可以与第三方应用程序连接。

　　本周早些时候宣布的Claude Code SDK使运行Claude Code作为支持操作系统的子过程，提供了一种构建AI驱动的编码助手和工具的方法，以利用Claude Models的功能。

　　Anthropic已发布了Microsoft VS代码，Jetbrains和Github的Claude Code扩展程序和连接器。GitHub连接器允许开发人员标记Claude代码以响应审阅者的反馈，并尝试修复错误或其他修改代码中的错误。

　　AI模型仍在努力编码质量软件。代码生成的AI倾向于引入安全漏洞和错误，这是由于诸如了解编程逻辑的能力之类的弱点。然而，他们提高编码生产率的承诺正在推动公司和开发人员迅速采用它们。

　　敏锐地意识到的人类有望更频繁地模型更新。

　　该初创公司在其草案帖子中写道：“我们正在……转移到更频繁的模型更新，从而稳定地改进，从而更快地为客户带来突破性的功能。”“这种方法在我们不断地完善和增强模型时使您保持最前沿。”

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。

拟人释放Claude 4.0并设置新的7小时SWE台记录

最新文章

热文导读