报道编辑辛志根:桃子很困【辛志根简介】整个硅谷又疯狂了!人类在半夜投下了一颗炸弹。 Claude 4.6 用他近乎可怕的编程能力和智能代理大军给 OpenAI 和 Google 上了一课,叫做“降维攻击”。人择深夜降临,终于揭晓编程之王! Claude Opus 4.6 刚刚诞生,一夜之间成为世界上最强大的编程 AI,无与伦比的“无模型”。基于上一代 Opus 4.5,编码技能有了显着改进。 Claude Opus 4.6 具有更严格的调度,允许 AI 代理任务更持久地运行,并且在非常大的代码库上运行时更可靠。最重要的是,它还具有更强大的自动更正功能,包括代码的审查和调试。这也是 Anthropic 测试阶段的第一个 Opus 层模型,支持 100 万个代币,具体取决于关于情况。在多项基准测试中,Claude Opus 4.6几乎在编程的所有方面都领先,比Gemini 3 Pro和GPT-5.2有明显优势。在 ARC-AGI-2 中,Opus 4.6 得分高达 68.8%,击败了 GPT-5.2-xhigh(向左或向右滑动查看)。不仅如此,Opus 4.6一上线,就开始彻底改变办公方式。除了Claude Code和API之外,这个新模型现在在Excel和PPT中的Claude中同时发布。例如,奥运会长跑鞋的供应链数据与您的预期不同。多个季度的数据无法一目了然。您可以致电 Opus 4.6 寻求紧急帮助。扫描文件夹中的所有 Excel 工作表,直接检测错误并同时绘制折线图。 PPT 还实时使用 Opus 4.6。您可以在您的系统上调用它。克劳德可以确保您的内容符合您的品牌规格,从布局、字体到主板。从今天开始,Claude Opus 4.6 将直接在 Claude 中可用Web 客户端、开发平台和所有主要平台。今晚硅谷的火药味可能会渗透你的屏幕……Opus 4.6 发布几分钟后,OpenAI 紧急删除了 GPT-5.3-Codex。人类看到奥特曼发出警告,立刻拔出了剑。早起看完《新编程之王》深夜剧集后,革命性的全球工作者 Claude Opus 4.6 的官宣,对于 Anthropic 来说只能说是重大转折。众议员亚历克斯·阿尔伯特 (Alex Albert) 表示:“克劳德将在 2025 年扰乱分叉,并将在 2026 年彻底重塑知识工作。” Opus 4.6 不仅仅是模型更新;与几个月前业界领先的 Sonnet 4.5 相比,4.6 改进了 23% 以上。今天,“几个月前”听起来就像上个世纪。这些测试一点也不抽象——它们都是非常艰苦的工作:创建财务模型、制作路演 PowerPoint 演示文稿、执行并购分析。在日常工作中,Opus 4.6 为从进行财务分析、进行详细研究以及使用和创建 Word、Excel 和 PPT 等各个方面提供了强大的支持。据不完全统计,全球约有15亿人使用Office全家桶工作。值得一提的是,Opus 4.6正在带来办公效率的巨大改变。不仅如此,在Claude Cowork中,Opus 4.6直接取代了“牛和马”,可以完成上述所有复杂任务。 Opus 4.6在制作质量方面也代表着质的飞跃。过去,模型有时需要多次修改或根本无法求解。但现在你经常可以直接使用第一个版本。 Cowork 允许您通过发送整个文件夹来同时启动多个扫描。 Excel 中的 Claude 可以轻松处理多表财务模型,并且永远不会失败。 PowerPoint 克隆允许您直接在软件中生成和修改它们。正如人工智能已经移除了发展障碍的同时,也将重塑所有知识工作者的能力。生产力的范式转变迫在眉睫,而且才刚刚开始。 Gemini 3 和 GPT-5.2 SOTA 的全面销毁可以加速这种生产力范式的转变。前提是有一个可以在各个战线竞争的模式。 Opus 4.6 已准备就绪!其性能在多项评测中均达到了SOTA,在Terminal-Bench 2.0代理编程评测中获得了65.4的高分。在 HLE 测试中,它领先于所有其他尖端模型。最重要的是,在 GDPval-AA 知识和工作绩效评级中,Opus 4.6 比 GPT-5.2 高出约 144 个 Elo 点,比其前身 Opus 4.5 高出 190 点。此外,Opus 4.6 的性能优于 BrowseComp 代理搜索基准测试中的任何模型。从最全面的参考PK来看,Opus 4.6在坐席调度、计算机使用、工具使用、搜索和金融等方面都是行业领先的模型,带来的好处甚至更加明显。在使用代理工具的 t2 银行上,Opus 4.6 零售成本为 91.91,通信成本为 99.3%,接近满分。 Opus 4.6 在从大量文档中检索相关信息方面提供了出色的性能。此功能还扩展到长上下文任务。信息可以在数十万个令牌中以低漂移进行存储和跟踪,捕获即使 Opus 4.5 也错过的深埋细节。人工智能模型的一个常见问题是“上下文腐烂”。也就是说,当对话超过一定数量的令牌时,性能会下降。 Opus 4.6 比其前身提供了显着的性能改进。 MRCR v2 的 8 针(一种“大海捞针”基准)的 1M 变体得分为 76%,而 Sonnet 4.5 得分仅为 18.5%。这意味着模型实际可用的上下文数量显着增加,同时保持了最佳性能。总体而言,Opus 4.6 更擅长在长篇大论中查找信息文本并在吸收这些信息后更好地进行推理,从而整体上显着提高了专家级的推理技能。下图显示了 Claude Opus 4.6 在各种基准上的性能。该测试评估了软件工程技能、多语言编程能力、长期一致性、网络安全能力和生命科学知识。向左或向右滑动即可显示克劳德·科德的“情报组”,它允许一个人指挥一支人工智能军团。更值得注意的是,Opus 4.6 深度集成到 Claude Code 中。 Claude Code 现在允许开发人员组建代理团队来协作完成任务。这就是最近成为热门话题的“经纪人团”。 Claude Code 的父亲 Boris Cherny 警告说,它仍处于实验阶段,可能会消耗大量代币。从此,不再是一个单独的克劳德,一步步处理任务。主代理现在可以将任务分配给多个 m克劳德团队的余烬。你就能驱散他。其他 IA 还致力于实现调查、采购和并行开发以及实时沟通和协作的工作。这意味着一名开发者可以领导克劳德军队的开发。只要你把你的想法用语言表达出来,你就可以编写软件。在官方文档中,Anthropic 将其称为“Session Team Orchestration”。“多负载代码 n”(Orchestration Team)。每个任务都有一名领导者克劳德,他肩负着AI大军的重任,负责统筹全局、分配任务并总结最终结果。他可以使用 Shift+Up/Down 或 tmux 直接负责子代理。其他人工智能可以在自己独立的环境中执行其功能并直接相互通信。这与“子代理”不同。子代理在单个会话中运行,只能向代理报告。但是,在“AI代理团队”的情况下,开发用户可以直接与会员互动,无需通过代表。在下面的演示中,您可以看到多个Agen使用同一接口,任务同步执行,这极大地提高了开发效率。 Claude 花费了 20,000 美元,组建了一个 16 人的团队,编写了一个 100,000 行的 C 编译器。 Anthropic 站出来委托 Opus 4.6 的代理小组编写一个 C 编译器。人类只是“观看”,并没有采取任何干预措施。 2周后,在Linux内核上成功运行。在实验中,团队使用了 16 台 Claude Opus 4.6 机器并行工作来开发代码,无需人工干预。为了测试这个系统的极限,该小组的 AI 接受了一项艰巨的任务,即用 Rust 语言从头开始编写 C 编译器。目标是能够编译 Linux 内核。 16 位克劳德“加班”,消耗了近 20 亿个输入代币,总计约 20,000 美元API 成本。实验的过程非常有趣。尼古拉斯·卡利尼建立了一个自动循环系统,可以防止克劳德“下班”,除非他完成任务。我想提请您注意达里奥·阿莫代的这句话。在接下来的 6 到 12 个月内,软件工程将不再需要人类。为了避免AI战斗,他设计了基于Git的任务锁定机制。所以现在不同的克劳德负责不同的模块。有些修复错误,有些编写文档,有些优化代码质量,甚至“抱怨”架构并重建它。最后的结果令人震惊。这个 AI 团队创建了一个包含 100,000 行代码的编译器。它可以成功编译Linux 6.9内核(支持x86、ARM和RISC-V架构),以及运行Doom、PostgreSQL和Redis等复杂项目。克劳德创造了克劳德并学会了深入思考 在人类中,团队利用克劳德来创造克劳德。工程师使用 Claude Code 编写代码 ev每一天,所有新型号都会首先进行内部测试。借助 Opus 4.6,团队发现他们可以更加专注于任务中较困难的部分,更快地完成较简单的部分,更明智地处理歧义,并在长时间会话中保持高效而无需提示。 Opus 4.6 通常会让您在决定答案之前更深入地思考并更仔细地重新考虑您的推理。这在解决更困难的问题时可以提供更好的结果,但会增加成本并导致解决更简单的问题的延迟。如果您发现您的模型在特定任务上“思考太多”,我们建议将工作量从默认(高)设置减少到中。向左或向右滑动即可查看并加入数以百万计的象征语境革命。在 API 中,Claude 可以使用“上下文压缩”来概括上下文,使他能够执行长时间运行的任务而不会达到限制。我来了。该团队还引入了适应性思维(adaptivethinking)。 nking):Th该模型可以根据上下文线索检测何时需要更广泛的思考。新的工作量控制(思考强度)使开发人员能够更好地控制智能、速度和成本。在 API 价格方面,Claude Opus 4.6 的入场价格为 5 美元/100 万代币,退出价格为 25 美元/100 万代币。此外,Opus 4.6 是第一个支持 100 万个代币上下文的 Opus 层模型。超过 200,000 个代币的 Quickwords 将收取更高的费用(每百万个输入/输出代币分别为 10 美元/37.5 美元)。此外,Opus 4.6 支持高达 128,000 个令牌的吞吐量,允许 Claude 完成具有更高吞吐量的任务,而无需将任务拆分为多个请求。对于必须在美国运行的工作负载,该信息可以在美国独家使用,价格为代币价格的1.1倍。更安全、更合规 更强大的智能并不以牺牲安全为代价。自动行为审计表明 Opus 4.6 的不良率较低正确的行为,例如欺骗、奉承、鼓励用户欺骗以及配合滥用行为。总体而言,它的调校与 Opus 4.5 类似,后者是迄今为止调校最完善、最前沿的型号。 Opus 4.6 还显示了所有现代 Claude 模型中最低的过度拒绝率(模型拒绝回答良性查询的情况)。最后,Anthropic 总监 Alex Albert 用一句话总结了 Claude Opus 4.6 的发布。 2025年将是人工智能编程成为主流的元年,2026年人工智能将在除编程之外的各个领域爆发。参考文献: https://www.anthropic.com/news/claude-opus-4-6 https://x.com/claudeai/status/2019467372609040752
特别说明:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)已上传d 由社交媒体平台网易号用户发布,仅供参考。永旺存储服务。