核心总览: Claude Opus 4.8 重构 Agent 能力边界、DeepSeek V4-Pro 降价启动 Harness 计划、ForgeTrain 由 AI 编写预训练框架、华为韬定律挑战摩尔定律;LLVM 龙架构 tail 调用约定、Triton AMD 向量优化回退、TileLang Blackwell FP4 GEMM;RuyiSDK 双周进展、开源 55nm 芯片点亮成功。
一、PyTorch 生态核心动态
内容摘要: AOTInductor 针对 AMD GFX950 优化,筛选 TritonConfigs 时剔除 kpack != 1 的配置,解决 AMD GPU 内核编译兼容性问题,提升推理稳定性。
内容摘要: 修复 Dynamo 在重建图中创建的 Events 时的状态恢复问题,解决动态图编译后事件对象丢失的 bug,确保图捕获完整性。
内容摘要: Inductor 为 SymInt 输入添加代码生成支持的后端运行时断言,增强符号整数的边界检查,提升动态形状编译的安全性和稳定性。
内容摘要: 为 fused_adagrad 算子添加 XPU 后端分发,支持 Intel GPU 上的融合 Adagrad 优化器,扩展 PyTorch 在异构 GPU 平台的训练能力。
二、LLVM/MLIR 最新进展
内容摘要: X86 后端在 CET-IBT 安全特性下为 WinEH funclet 入口添加 ENDBR 指令,增强 Windows 异常处理的安全防护,防止间接分支攻击。
内容摘要: 龙架构(LoongArch)新增 tail 调用约定支持,优化函数尾调用性能,减少栈帧开销,提升龙芯架构的代码执行效率。
内容摘要: SYCL 驱动在 -fsycl 编译选项下将 C 文件视为 C++ 处理,解决 SYCL 编译流程中的文件类型兼容性问题,提升 Intel oneAPI 工具链易用性。
内容摘要: 修复 WebAssembly 后端 LateEHPrepare 在处理空 cleanup pads 时崩溃的 bug,增强异常处理的健壮性,确保 Web 平台代码生成稳定性。
内容摘要: LLVM 社区讨论 clang-tidy 检查项移除/重命名时的向后兼容别名机制,为废弃的检查项提供别名映射,避免用户代码检查中断。
三、Triton & TileLang 技术动态
内容摘要: Triton AMD 后端在较老的架构上启用 buffer atomics 支持,扩展原子操作的硬件兼容范围,提升 AMD GPU 在旧设备上的计算能力。
内容摘要: 回退 AMD 后端禁用 LLVM vector combine pass 的修改,恢复向量合并优化,解决性能退化问题,确保 AMD GPU 内核编译效率。
内容摘要: HIP libdevice 补充 9 个缺失的 bitcast 操作,完善 HIP 数学库的类型转换能力,提升 Triton 在 AMD 平台的数学函数支持完整性。
内容摘要: TileLang 优化 ragged SIMT copy 的填充策略,减少不规则维度拷贝时的冗余计算,提升 GPU 内存访问效率。
内容摘要: TileLang 为 TMA(Tensor Memory Accelerator)存储操作添加等待选项,支持异步存储完成后的同步控制,增强 Blackwell GPU 的内存管理能力。
内容摘要: TileLang 为 Blackwell SM120 添加 FP4 GEMM(矩阵乘法)支持,使用 T.float4_e2m1fn 格式,扩展 Blackwell GPU 在低精度计算场景的应用范围。
四、业界重磅新闻
内容摘要: Anthropic 发布 Claude Opus 4.8 模型,强化长期任务诚实性,新增 Dynamic Workflows 支持并行调度数百子 Agent,显著提升大规模代码迁移等复杂场景的自主执行能力,重构 Agent 能力边界。
内容摘要: Claude Code 新增 /usage 命令,首次实现 Skills/Agents/MCPs/Plugins 四类智能体能力的 Token 级细粒度消耗追踪,AI 工程进入"成本可计量"时代,支撑企业级 Agent 的 ROI 测算与预算管控。
内容摘要: DeepSeek V4-Pro API 永久降价至原价 25%,启动 Harness 工程计划构建中国版 Claude Code 工具链,以低价倒逼工程层重构,编程智能体竞争从模型参数转向系统可用性。
内容摘要: 面壁智能发布 ForgeTrain,全球首个由 AI 编写的生产级预训练框架,自动编写分布式训练逻辑、梯度同步策略与故障恢复机制,训练出 MiniCPM5-1B 模型,验证"AI 基建自举"可行性。
内容摘要: 华为提出芯片演进新范式"韬定律",以时间常数 τ 替代晶体管密度为标尺,通过逻辑折叠与立体堆叠优化性能/功耗/面积/延迟四维平衡,挑战摩尔定律底层逻辑,为国产算力自主提供非尺寸依赖的破局路径。