拟人释放Claude 4.0并设置新的7小时SWE台记录

生活作者 / 姓名 / 2025-06-28 02:09
"
拟人释放Claude 4.0并设置新的7小时SWE台记录  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程

拟人释放Claude 4.0并设置新的7小时SWE台记录

  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行未来的证明,阅读有关指数技术和趋势,连接,观看Keynote或浏览我的博客。

  在周四的首届开发者会议上,Anthropic推出了两个新的人工智能(AI)模型,该模型至少在他们在流行的基准上得分的方式至少是该行业最好的。

  据该公司称,Claude Opus 4和Claude Sonnet 4是Anthropic新的Claude 4模型家族的一部分,可以分析大型数据集,执行长途任务并采取复杂的行动。Anthropic说,这两种模型都经过调整为在编程任务上的表现都很好,非常适合编写和编辑代码。

  该公司免费聊天机器人应用程序的付费用户和用户都可以访问SonNET 4,但只有付费用户才能访问Opus 4。对于Anthropic的API,通过Amazon的BedRock平台和Google的Vertex AI,Opus 4的价格为15/15/$ 75/$ 75/$ $ 15/$ 15/$ 15/15/15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 15/$ 3/$。

  AI的未来,主题演讲者Matthew Griffin

  令牌是AI模型使用的数据的原始数据。一百万个令牌相当于约750,000个单词,比“战争与和平”长约163,000个单词。

  人类的Claude 4型号到达,因为该公司希望大大增加收入。据报道,由前奥奈研究人员创立的服装的目标是在2027年的收益中赚取120亿美元,高于今年的预计22亿美元。Anthropic最近关闭了25亿美元的信贷额度,并从亚马逊和其他投资者筹集了数十亿美元,以期与开发前沿模型相关的成本上升。

  竞争对手并不容易在AI比赛中保持杆位。众人化的虽然今年早些时候推出了新的旗舰AI模型,但Claude Sonnet 3.7与一个名为Claude Code的代理编码工具一起,包括OpenAI和Google在内的竞争对手(包括OpenAI和Google)都以自己的强大模型和Dev工具来超越公司。

  人类正在与克劳德4一起玩。

  Anthropic说,在今天介绍的两个模型中,越有能力在工作流程中的许多步骤中保持“集中精力”。同时,与Anthropic的先前型号相比,SonNET 4(作为十四行诗3.7的“替换式”设计为“倒入替代品”)改善了编码和数学,并且更精确地按照说明进行了说明。

  拟人化声称,克劳德4家族也比Sonnet 3.7进行“奖励黑客”的可能性较小。奖励黑客(也称为规范游戏)是一种行为,模型会采用快捷方式和漏洞来完成任务。

  需要明确的是,这些改进并没有从每个基准中产生世界上最好的车型。例如,尽管Opus 4击败了Google的Google的Gemini 2.5 Pro和OpenAI的O3和gpt-4.1在SWE板凳上进行了验证(旨在评估模型的编码能力,但它无法超过多模式评估MMMU或GPQA钻石上的O3,这是一组Phd级生物学,物理学 - ,物理学 - 和化学的问题。

  尽管如此,人类仍在更严格的保障措施下释放Opus 4,包括加强有害内容探测器和网络安全防御。该公司声称其内部测试发现,Opus 4可以“大大提高”具有STEM背景的人获得,生产或部署化学,生物或核武器的能力,并达到人类的“ ASL-3”模型规范。

  人类说,Opus 4和十四行诗4都是“混合”模型,能够对更深入的推理进行近乎建立的反应和扩展思维(在某种程度上,AI可以“理解”和“思考”,因为人类理解这些概念)。通过推理模式打开,模型可能需要更多时间来考虑给定问题的可能解决方案。

  Anthropic说,作为模型原因,他们将显示其思维过程的“用户友好”摘要。为什么不展示整个事情?该公司在某种程度上保护了人类的“竞争优势”,该公司在提供给TechCrunch的一篇博客文章中承认。

  Opus 4和Sonnet 4可以并行使用多种工具,例如搜索引擎,以及在推理和工具之间进行替代,以提高答案的质量。他们还可以在“内存”中提取并保存事实,以更可靠地处理任务,建立人类所描述的随着时间的流逝的“隐性知识”。

  为了使模型更加友好,人类正在对上述Claude代码进行升级。Claude Code可以直接通过终端的拟人模型运行特定的任务,现在与IDE集成并提供SDK,使DEV可以与第三方应用程序连接。

  本周早些时候宣布的Claude Code SDK使运行Claude Code作为支持操作系统的子过程,提供了一种构建AI驱动的编码助手和工具的方法,以利用Claude Models的功能。

  Anthropic已发布了Microsoft VS代码,Jetbrains和Github的Claude Code扩展程序和连接器。GitHub连接器允许开发人员标记Claude代码以响应审阅者的反馈,并尝试修复错误或其他修改代码中的错误。

  AI模型仍在努力编码质量软件。代码生成的AI倾向于引入安全漏洞和错误,这是由于诸如了解编程逻辑的能力之类的弱点。然而,他们提高编码生产率的承诺正在推动公司和开发人员迅速采用它们。

  敏锐地意识到的人类有望更频繁地模型更新。

  该初创公司在其草案帖子中写道:“我们正在……转移到更频繁的模型更新,从而稳定地改进,从而更快地为客户带来突破性的功能。”“这种方法在我们不断地完善和增强模型时使您保持最前沿。”

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读