百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Claude 4系列模型正式发布,号称“世界上最好的”AI编程模型

liuian 2025-06-24 15:20 61 浏览

当地时间5 月 22 日,Anthropic 在其首次开发者大会上,正式发布了其下一代 Claude 模型系列:Claude Opus 4 和 Claude Sonnet 4。该公司在公告中高调宣称,新的旗舰模型 Claude Opus 4 是“世界上最好的编程模型”,在编程、高级推理和AI 智能体(AI agents)方面树立了全新标准,旨在处理复杂、长时间运行的任务和智能体工作流程。与此同时,Claude Sonnet 4 作为对 Claude Sonnet 3.7 的重大升级,也提供了在编程和推理能力等方面,也取得了相当大的进步。


Anthropic 表示,Claude Opus 4 是其迄今为止最强大的模型,尤其在编码领域表现突出。根据 Anthropic 提供的数据,Opus 4 在 SWE-bench(一个评估真实软件工程任务性能的基准)上达到了 72.5% 的准确率(使用并行测试时计算可达 79.4%),在 Terminal-bench(一个测试 AI 模型在终端环境中执行编码任务能力的基准)上达到了 43.2%(并行测试时计算可达 50.0%)。各项数据均超过了 Gemini 2.5 Pro 等其他竞品模型。Claude Sonnet 4 同样表现出色,在 SWE-bench 上实现了 72.7% 的准确率(并行测试时计算可达 80.2%),在某些特定配置下甚至略高于 Opus 4。



一些早期测试用户在社交媒体上分享了他们的体验,从侧面印证了Claude 4 的强大。


例如,知名AI 博主 Ethan Mollick 仅用一句简单的提示:“the book Piranesi as a p5js 3d space. do it for me”(将《皮拉内西》这本书创作成一个p5.js 的 3D 空间,帮我实现它),没有提供任何其他提示,Claude 4 便生成了一个令人印象深刻的 3D 空间演示,其中包含了鸟、水和光照效果,效果看起来相当不错。


还有用户仅用单次提示就生成了复杂的双摆模拟系统,表现非常出色。


另一位知名博主Peter Yang 也获得了早期访问权限,他总结道:“1. 它在写作和编辑方面仍然是同类最佳。2. 它的编码能力和 Gemini 2.5 一样好。”还展示了Claude 4 一次性构建了一个功能齐全的俄罗斯方块游戏。



除了强大的编码能力,新一代Claude 模型在推理和 AI 智能体功能方面也迈出了重要一步。Anthropic 推出了“工具使用下的扩展思考”(extended thinking with tool use)测试版功能。这意味着两个模型都能在进行扩展思考时使用工具(如网络搜索),允许 Claude 在推理和工具使用之间交替进行,以改进响应质量。


此外,新模型具备并行使用工具的能力,能更精确地遵循指令,并且在开发者授予本地文件访问权限时,展现出显著改进的记忆能力,能够提取和保存关键事实,以保持连续性并逐步建立隐性知识。


Anthropic 特别提到,新模型显著减少了模型使用“捷径”或“漏洞”来完成任务的行为。与Sonnet 3.7 相比,Opus 4 和 Sonnet 4 在这类易受影响的智能体任务中,发生此类行为的可能性降低了 65%。



记忆能力的提升也是Claude 4 系列的一大看点。Anthropic 的首席产品官 Mike Krieger 在接受 WIRED 采访时提到,Claude Opus 4 能够“在《宝可梦》游戏中以智能体方式工作长达24 小时”,而此前模型最长只能玩45 分钟。Anthropic 甚至进行了一个名为“Claude Plays Pokémon”的Twitch 直播,展示了 Claude 3.7 Sonnet 在《宝可梦》游戏中的表现。



Claude 4 Opus 则在此基础上更进一步,当它在游戏中导航一个复杂的任务时,研究人员注意到其长期记忆和规划能力的改进。例如,当 AI 意识到需要特定能力才能前进时,它会花两天时间提升技能,然后再继续游戏。这种多步骤推理且无需立即反馈的能力,所反映的正是模型在保持任务连贯性和追踪目标方面的进步。


Anthropic 的研究员 David Hershey 解释说,这项研究的目的是探索 Claude 如何作为智能体独立完成复杂任务。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“记忆文件”来存储关键信息。这解锁了更好的长期任务感知、连贯性和智能体任务性能,就像Opus 4 在玩《宝可梦》时创建了一个“导航指南”一样。这种能力对于需要长时间保持上下文的AI 智能体至关重要,无论是自动化数小时的工作流,还是进行大规模代码重构。Krieger 提到,一位早期客户(日本乐天)就曾让模型连续工作 7 小时完成了一项大型代码重构任务。


定价方面,Claude 4 模型与其前代产品保持一致:Opus 4 的输入价格为每百万 token 15 美元,输出价格为每百万 token 75 美元;Sonnet 4 的输入价格为每百万 token 3 美元,输出价格为每百万 token 15 美元。两种模型都提供扩展思考模式的开关。Sonnet 4 将继续向免费用户提供,而 Opus 4 则需要付费订阅。


伴随新模型的发布,Anthropic 还宣布 Claude Code(最初于今年 2 月推出)在经过数月预览测试后正式普遍可用。Claude Code 旨在将 Claude 的强大能力更广泛地融入开发者的工作流程中,无论是在终端、偏好的 IDE 中,还是通过 Claude Code SDK 在后台运行。新的针对 VS Code 和 JetBrains 的 beta 版扩展程序能将 Claude Code 直接集成到 IDE 中,Claude 提出的编辑建议会以内联方式显示在文件中,简化了在熟悉编辑器界面内的审查和跟踪流程。


此外,Anthropic 还发布了一个可扩展的 Claude Code SDK,允许开发者使用与 Claude Code 相同的核心智能体构建自己的智能体和应用程序。


Anthropic API 也迎来了四项新功能,旨在帮助开发者构建更强大的 AI 智能体,包括:代码执行工具、MCP 连接器、Files API 以及将提示缓存长达一小时的能力。


Anthropic 声称,“这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文,持续专注于更长的项目,并推动变革性影响。”回顾近期谷歌、OpenAI 以及 Anthropic 等 AI 巨头们发布的各项成果,无一不在为这一方向努力。


参考资料:

1.https://www.anthropic.com/news/claude-4

2.https://igent.ai/sonnet4eval.pdf

3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/


排版:溪树

相关推荐

笔记本xp系统忘记开机密码(笔记本xp开机密码忘了怎么办最简单的方法)

xp系统忘记开机密码解锁方法如下1、在需要破解开机密码的xp电脑上插入pe启动盘,启动电脑后不停按F12、F11、Esc等快捷键,在弹出的启动菜单选择框中选择识别到的usb启动项,比如General...

新风系统安装示意图(新风系统安装效果图)
  • 新风系统安装示意图(新风系统安装效果图)
  • 新风系统安装示意图(新风系统安装效果图)
  • 新风系统安装示意图(新风系统安装效果图)
  • 新风系统安装示意图(新风系统安装效果图)
isofix接口(isofix接口怎么拆卸)

isofix接口上有isofix的字样,它的图标是一个类似人坐在座椅上。在汽车座椅靠垫与坐垫之间的连接处有2个接口,那就是isofix接口,是一种硬连接方式,为了防止撞击时发生座椅翻转,一些座椅在IS...

无线路由器怎么设置不让别人连接

要设置无线路由器不让别人连接,可以采取以下措施:1.配置路由器密码:在路由器设置中,可以设置密码,限制只有授權的人才能连接到网络。2.配置防火墙:可以安装防火墙软件,如OpenDNS,限制...

fast迅捷路由器(fast迅捷路由器配置上网教程)

http://www.fastcom.com.cn/上面这个就迅捷官网的网址老版本的迅捷路由器默认登录地址为“192.168.1.1”,新版本的迅捷路由器默认登录地址为“falogin.cn”。02...

手机天梯图2025最新版(手机天梯图cpu2020快科技)

一般情况下而言,手机处理器的性能越强,功耗也就越高。有网友制作了一张手机处理器功耗排名图,高通骁龙888位8.34W,是榜单中功耗第二的处理器。而海思麒麟9000则位列第三,功耗为8.3W。一般情况下...

pe系统下载官网手机版(pe系统之家)

打开手机应用商店,选择windowspe,下载安装PE系统是一种维护用的系统,本身是很简陋的,什么常用功能都没有,后经一些爱好都修改、完善,现在成为可当临时系统用的精简系统。但PE系统当前种类很多,...

云骑士装机大师怎么激活win7

回答如下:要激活Windows7操作系统,您可以按照以下步骤进行操作:1.确保您的计算机已连接到互联网。2.打开“开始”菜单,点击“计算机”右键,选择“属性”。3.在系统属性窗口中,向下滚动到...

vmware workstation使用教程

VMwareWorkstation15是一款虚拟机软件,可以在主机上模拟多个虚拟计算机环境。以下是使用VMwareWorkstation15的基本步骤:1.下载和安装软件:从VMware官方...

windows7旗舰版64位多少钱(windows7旗舰版64位多少钱合适)

这两个都是64位的,唯一区别是后者集成SP1。win7旗舰版64位玉米系统比较稳定,不但稳定,运行速度也很快!WIN764位系统需要的电脑配置。最低配置CPU:1GHz32位或2G...

电脑黑屏了怎么重装系统(电脑黑屏怎么重装系统win10)

我觉着吧,题主的判断可能是不正确的黑屏开不了机指的是开机后显示屏无任何信号接入首先从电源出发,电源的cpu供电,主板供电,显卡供电,硬盘供电,每一项都要确保接触完整再到主板,主板上呢,cpu散热必须接...

三星官网正品查询(三星全新正品查询网站)

三星服务中心地址:http://support-cn.samsung.com/support/ServiceLocations.asp国家工信部电信设备进网管理网站查询移动设备真伪方式:方法一:网站查...

显示windows许可证即将过期

电脑提示Windows许可证即将到期,可以采取以下措施:检查许可证状态:首先需要确认许可证是否真的即将过期。可以在Windows设置中查看许可证状态,或者运行命令“slmgr/xpr”来检查许可证到...

u盘看不到第二个分区(u盘不显示第二个分区)

u盘分区后不显示出来原因一般为以下三种:第一种情况:对于windows系统是只能识别U盘分区的。第二种情况:关于U盘的diskgenius分区是只能看到一个分区的第三种情况:这个U盘分区已经被隐藏了,...

小马激活重启电脑开不了机(小马激活重启后蓝屏怎么办)

1.无法激活2.小马激活工具可能无法激活的原因有很多,可能是因为软件本身存在bug或者与操作系统不兼容,也可能是因为网络连接问题或者输入的激活码有误。此外,小马激活工具可能需要特定的硬件或软件环境...