近日,谷歌及旗下 DeepMind 公布的多项 AI 自我进化研究成果,再次为 “微调已死” 的行业论断注入强支撑。不同于依赖人工标注数据的传统微调模式,谷歌通过让 AI 自主吸收成功经验与失败教训的双向学习机制,构建起全新进化范式,在数学突破、工程优化等多个领域实现重大突破。

谷歌在《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》论文中提出的创新框架,为 AI 装上了 “可复用经验库”。这个结构化记忆系统会从任务轨迹中提炼两类核心内容:从成功案例中萃取 “优化搜索查询需添加类别过滤” 等可操作策略,从失败案例中总结 “避免重复点击无效按钮” 等预防教训,形成包含标题、描述、内容的标准化记忆项,既方便人类理解,又能被 AI 高效调用。
在实际测试中,配备 ReasoningBank 的 AI 在 WebArena 购物任务中减少了 16% 的交互步骤,而与记忆感知测试时扩展(MaTTS)结合后,在 SWE-Bench-Verified 软件工程任务中性能飙升 34.2%。谷歌研究科学家 Jun Yan 解释:“传统 AI 每次任务都是‘白纸一张’,而 ReasoningBank 实现了从被动记录到主动学习的质变。”


DeepMind 推出的 AlphaEvolve 系统,将自我进化推向跨领域创新层面。这个融合进化算法与自动评估的系统,在数学领域取得历史性突破:在困扰学界 300 年的 11 维空间 “接吻数” 问题中,发现 593 个非重叠球体的新配置,刷新问题下界;更将 4×4 复数矩阵乘法的标量运算次数从 49 次降至 48 次,超越经典的 Strassen 算法。
在工程应用中,AlphaEvolve 优化的谷歌 Borg 集群调度算法,使全球计算资源利用率提升 0.7%,相当于节省数十万台机器的算力;其改写的 TPU 芯片 Verilog 代码,成功缩短 Gemini 模型训练时间 1%。更关键的是,这些自主生成的高效算法能反哺 AI 训练,形成 “算法优化→模型升级→更强算法” 的闭环。
针对高难度编程任务设计的 SOAR 框架,创造性地通过 “后见之明重标签” 技术将失败转化为学习资源。例如,当 AI 生成的程序未能完成 “宫保鸡丁食谱生成” 任务时,系统会自动识别其实际能解决的 “柠檬酸甜鸡食谱生成” 需求,将这个失败案例重新标注为有效训练样本。
实验显示,采用该框架的开源模型在 ARC-AGI 测试集上实现 52% 的解决率,且小模型通过持续迭代,性能可超越参数更大但固定不变的模型,印证了 “聪明学习” 优于 “算力堆砌” 的核心逻辑。
ReasoningBank 的记忆项设计成为经验复用的核心。每个记忆项通过 “标题 - 描述 - 内容” 的三层结构,剥离具体场景细节,保留通用推理模式。在电商平台搜索任务中,AI 可直接调用过往提炼的 “多维度筛选策略”,无需重复试错,这一机制使跨场景适配效率提升显著。
AlphaEvolve 打造的 “定制评分体系” 解决了反馈难题。针对不同领域设计专属评估标准 —— 数学问题看证明严谨性,代码优化看运行效率,芯片设计看资源占用率,通过全自动化评估替代人工标注,既保证客观性又提升迭代速度。
MaTTS 技术通过并行与顺序两种扩展模式为记忆库 “扩容”:并行扩展为同一任务生成多个解决方案,通过对比筛选可靠策略;顺序扩展则迭代精炼单一推理轨迹,捕捉中间修正过程中的隐藏经验。这种扩展与记忆库的协同,形成 “优质记忆引导高效探索,丰富探索生成优质记忆” 的正循环。
尽管成果显著,谷歌的研究仍暴露出自进化范式的固有挑战。在评估维度上,现有系统难以应对需实验验证的领域,如材料科学中无法通过代码评估新材料性能;安全风险层面,ReasoningBank 若未完全过滤错误模式,可能导致 AI 重复犯错,而 AlphaEvolve 生成的调度算法若存在漏洞,或引发数据中心资源抢占危机。
泛化能力不足同样突出:SOAR 框架在单一编程任务中表现优异,但进入多模态场景时,因缺乏视觉 - 语言关联知识,性能明显下降。谷歌承认,跨领域知识整合仍是自我进化系统的核心瓶颈。
谷歌的技术突破正在重塑 AI 开发逻辑。ReasoningBank、AlphaEvolve 等系统均未对基础模型进行参数微调,仅通过经验复用与算法优化就实现性能跃升,印证了 “数据与算力依赖可通过自主学习缓解” 的趋势。业内预测,这一范式可能使人工标注行业规模缩减,同时降低中小团队的 AI 开发门槛。
在技术狂奔背后,伦理监管成为新课题。AlphaEvolve 的自主创新能力已触及 “责任归属” 难题 —— 其发现的数学定理若用于工程设计,错误风险该由谁承担?谷歌虽已通过 SynthID 等工具为 AI 生成内容加水印,但自我进化过程的透明度监管仍缺乏成熟方案。
“从 ReasoningBank 的经验记忆到 AlphaEvolve 的算法创新,我们正在见证 AI 从‘被动工具’向‘主动创新伙伴’的转变。” 谷歌 DeepMind 负责人表示。随着双向学习机制的完善,AI 自我进化或将成为解决复杂科学问题与推动产业升级的核心引擎,但如何在创新与安全间找到平衡,仍需全球科技界共同探索。