研究员观点,OpenAI已将基座模型的能力推向新高度,难以直接超越。研究重心应从训练更优的基座模型,转向如何高效、深度地应用现有模型,通过AI Agents在特定领域构筑专业价值。Agents作为应用层的通用能力,其核心在于 推理(Reasoning) 并泛化至更广泛的任务。
Agents能力提升的关键路径。
- 推理与行动 (ReAct)。Agents的核心价值在于其基于推理(如ReAct框架)产生有效行动(Action)的能力。
- 多模态、长上下文与推理。要提升Agents的推理能力,三大技术挑战:
- 多模态数据处理:融合并理解文本、图像、语音等多种信息。
- 长上下文(Long Context):通过高效的记忆(Memory)机制和在线学习(Online-Learning)能力,处理并记忆长序列信息。
- 逻辑推理(Reasoning):这是实现复杂任务规划与执行的根本。
- 核心工具 - Code as Affordance:代码是AI赋予机器的手,是其与数字世界交互最直接、最强大的工具。具备强大代码生成与逻辑推理能力的Coding Agents在处理多轮复杂任务时,潜力巨大,有望超越人类。
又聊到了他的一篇文章,"The Second Half" 。主要讲的是,AI发展的下半场,焦点从“如何训练模型”转向“如何定义好的环境与Agents”。成功的关键在于找到通用的方法论并将其泛化。他给出两个点,一是明确的回报机制 (Clear Rewards):为Agents定义清晰、可量化的Reward至关重要。这需要基于最终结果而非过程,通过白盒或基于规则的方式进行定义,并使其与产品目标(Align with Product)紧密对齐,让模型通过反馈持续优化。软件工程等不确定性较低的领域,是当前实践的优良试验场。第二点是按照任务去分类。需根据任务性质(如追求可靠性/鲁棒性的客服任务,或追求创造性的创作任务)设计不同的Agents架构与挑战。
讨论了构建高级Agents的基石。
- 记忆 (Memory):是解决上下文缺失问题的关键。缺少深层、隐性的世界知识与任务上下文,是当前模型难以创造巨大经济价值的核心原因。未来需要分层级的、支持长上下文的记忆系统。
- 多智能体系统 (Multi-agents):通过组织化、协同探索的模式,解决更复杂的系统性问题。
- 清晰的回报 (Clear Rewards):如前述,是驱动Agents有效学习和进化的指挥棒。
最后未来展望。
- 新的交互范式:未来的交互方式将超越聊天。例如,基于任务动态生成个性化前端(Canvas),为不同场景提供全新的、非拟人化的交互体验。这有助于避免“超级应用”带来的路径依赖。
- 价值实现:技术的最终目的是解决问题、创造社会价值。从业者需具备产品思维(Product Sense),找到PMF(Product-Market Fit),警惕“拿着锤子找钉子”的技术本位思想。同时,应重新思考开源模式的潜力。
- 社会经济影响:AI Agents和Crypto等技术,可能同时加剧中心化(超级平台)与去中心化(个体赋能)的趋势,信息差的博弈将持续存在,并可能对社会阶层产生深远影响。