今天是2026年2月6日,周五。今天的科技圈有一种“暴风雨前的宁静”被打破的感觉,Anthropic 突然扔出了百万级上下文的王炸,而阿里和阶跃星辰在国产模型这边也动作频频。Agent(智能体)依然是连接 AI 和加密市场的核心叙事,我明显感觉到“应用落地”的焦虑感正在转化为技术上的硬碰硬。
今日三件事
- Anthropic 再次以此博彼:Claude Opus 4.6 发布,支持 100 万 token 上下文,直接挑战谷歌 Gemini 的长文本统治地位。
- 国产模型“思考”升级:阿里发布 Qwen3-Max-Thinking,阶跃星辰推出 Step 3.5 Flash,一个冲推理上限,一个冲端侧速度。
- Agent 自救方案:MIT 提出新框架,让 AI 智能体通过“搜索”来自我修正错误,试图解决企业级应用中的幻觉痛点。
逐条速记
Anthropic 开启“百万长文”时代
日期:2026年02月05日 发生了什么: Anthropic 正式推出了 Claude Opus 4.6 版本,最大的亮点是支持 100 万 token 的上下文窗口。这意味你可以把几百本技术手册或者一整年的代码库一次性扔进去。与此同时,OpenAI 也在几乎同一时间段发布了针对企业级的 Agent 管理工具,双方火药味十足。 我在意的点: 100 万 token 以前是 Google Gemini 的护城河,现在 Anthropic 杀进来了。对于开发者来说,RAG(检索增强生成)的架构可能会被重写——如果我能把整个知识库塞进 Prompt,为什么还要费劲做向量检索?这会大幅降低构建复杂 Agent 的门槛。 可能的影响: 企业级 AI 知识库将迎来一波“重构潮”,同时,这也给 OpenAI 的 GPT-5(或后续版本)带来了巨大的舆论压力,市场在等 Sam Altman 的回击。 原文: SiliconAngle: Anthropic rolls out Claude Opus 4.6
阿里与阶跃星辰的“双鬼拍门”
日期:2026年02月05日 发生了什么: 国产模型昨天很热闹。阿里通义千问发布了 Qwen3-Max-Thinking,引入了类似 o1 的“测试时扩展机制”(Test-time Scaling),在推理能力上大幅增强;而阶跃星辰则发布了 Step 3.5 Flash,定位是“为 Agent 而生的开源轻骑兵”,主打极速和低成本。 我在意的点: 这代表了 2026 年模型发展的两个极端方向:一个是“更慢更深”的思维链(阿里),一个是“更快更省”的端侧执行(阶跃)。DeepSeek 之前的开源已经把价格打下来了,现在大家开始卷“场景特化”。Qwen3 这个 Thinking 版本,明显是冲着解决复杂数学和编程逻辑去的。 可能的影响: 国内的 Agent 开发者有了更好的选择:用 Qwen 做大脑(规划),用 Step Flash 做手脚(执行),这种“大小模型协同”的模式会是今年的主流。 原文: 新华网: 基础大模型新技术、新产品密集推出 AIBase: 阶跃星辰 Step 3.5 Flash 发布
MIT 给 AI 装上了“纠错雷达”
日期:2026年02月05日 发生了什么: 麻省理工学院(MIT)的研究人员开发了一种新框架,专门解决 AI Agent 在执行任务时“一本正经胡说八道”的问题。该系统允许 Agent 在生成代码或计划时,自动通过搜索引擎验证关键步骤,如果发现错误会利用搜索结果进行自我修正。 我在意的点: 这是 Agent 从“玩具”走向“工具”的关键一步。现在的 Agent 经常卡在死循环里,或者自信地给出一个错误的 API 调用。MIT 这个方案实际上是把“搜索”变成了 Agent 的一种“元认知”能力——它知道自己可能错了,并且知道去哪查。 可能的影响: 这将显著提升自动化编程和企业工作流 Agent 的成功率,可能会成为 2026 年 Agent 开发框架(如 LangChain, AutoGen 的后续版本)的标配功能。 原文: MIT News: Helping AI agents search to get the best results
加密市场:Agent 叙事下的资金轮动
发生了什么: 虽然过去 24 小时没有单一的重磅加密新闻,但随着 Anthropic 和 OpenAI 在“Agent(智能体)”领域的动作升级,加密市场的 AI 板块(如 FET, TAO 等概念代币)正在承接溢出情绪。链上数据(需结合实时盘面)通常会显示,当 Web2 AI 巨头发布强力 Agent 工具时,Web3 的“去中心化算力”和“Agent 互操作性协议”往往会成为资金避险或博弈的出口。 我在意的点: Web2 的 AI 越强,Web3 的“去中心化”叙事就越有价值。OpenAI 和 Anthropic 越是构建封闭的围墙花园,市场就越需要一个无需许可的 Agent 交易网络。我在观察是否有新的协议能打通 Claude Opus 4.6 和链上执行层。 可能的影响: 短期内 AI 概念币可能会跟随科技股波动,但长期看,资金会流向那些能真正承载“AI 跑在链上”的基础设施项目,而不是单纯蹭热度的 Meme。
我自己的判断
今天的动态让我更加确信:2026 是“长上下文”和“深度推理”的融合之年。 之前我们还在争论 RAG 和 Long Context 谁更好,现在 Anthropic 告诉我们“小孩子才做选择,我全都要”。
我比较担心的是,随着模型能力越来越强(比如 Qwen3 的 Thinking 能力),“黑盒”问题会越来越严重。MIT 的研究虽然试图用搜索来纠错,但当模型开始进行复杂的内部推理时,人类越来越难理解它是如何得出结论的。在加密领域,这意味着我们需要更迫切地引入 ZK(零知识证明)来验证 AI 的推理过程,否则“去信任化”就无从谈起。
明天我会继续盯
- DeepSeek 的动向:友商都发新版了,作为开源“卷王”,他们最近有没有针对 Reasoning 模型的更新?
- OpenAI 的反击:Sam Altman 很少让竞争对手在头条待太久,关注是否有 GPT-4.5/5 的突发消息。
- 链上 AI 代理项目:关注像 Virtuals、Autonolas 这类协议,看是否有开发者第一时间接入 Claude Opus 4.6 的 API 做链上应用。