Base Sequence Research

碱基序列:Agent 行为的 DNA

从生物学启发到工程实践 — 探索如何用碱基序列科学度量 Agent 的行为质量

1. 为什么需要碱基序列?

当我们运行一个 AI Agent 执行任务时,它会产生一系列工具调用 — 读文件、写代码、执行命令、搜索信息等。 这些调用序列的质量直接决定了任务的成败。但传统的评估方式往往只关注最终结果,忽略了过程中的行为模式。

我们需要一种方法,能像生物学家分析 DNA 一样,解读 Agent 的行为序列,发现隐藏的模式、识别潜在的问题。

碱基序列正是为此而生。受生物 DNA 的启发,我们将 Agent 的每一次工具调用编码为四种碱基类型, 构建出行为序列的「基因组」。通过对这些序列的分析,我们可以科学地度量 Agent 的行为质量。

2. 四种碱基类型

每一次工具调用都会被编码为以下四种碱基之一:

E P V X
E - Execute 执行
P - Plan 规划
V - Verify 验证
X - eXplore 探索

E (Execute) - 执行

直接改变系统状态的操作:写文件、执行命令、修改配置等。这是 Agent「动手干活」的步骤。一个健康的任务执行序列中,E 碱基应该占据主导地位。

P (Plan) - 规划

思考和计划阶段的操作:分解任务、确定优先级、选择策略。好的 Agent 应该在执行前有适当的规划,但过多的规划则可能意味着犹豫不决。

V (Verify) - 验证

检查和确认操作的结果:运行测试、检查输出、验证状态。验证碱基的存在表明 Agent 具有质量意识,能主动确认工作成果。

X (eXplore) - 探索

收集信息和理解环境:搜索文档、浏览代码、查阅资料。探索是任务开始时的必要步骤,但持续的探索而不进入执行阶段可能暗示 Agent 陷入了困境。

3. 碱基序列分析方法

获得碱基序列后,我们使用多种统计分析方法来评估 Agent 的行为质量:

马尔可夫转移矩阵

通过分析碱基之间的转移概率,我们可以发现 Agent 的行为模式。例如:健康模式中 P → E 的转移概率应该较高(规划后执行),而 E → V 表示执行后验证的良好习惯。

卡方检验

将 Agent 的碱基分布与理想分布进行卡方检验,评估行为质量偏离度。偏离越大,说明 Agent 的行为模式越需要优化。

碱基序列架构可视化
碱基序列可视化 — 受生物 DNA 双螺旋结构启发的行为编码系统

一段典型的高质量执行序列可能看起来像这样:

PE VE EP EV XE PE VE

可以看到「规划 → 执行 → 验证」的清晰节奏,中间穿插适当的探索步骤。

4. 测试结果

以下是碱基序列系统在 347 条真实执行追踪数据中的分析结果:

347
分析任务数
92.5%
整体成功率
8.7
平均序列长度

碱基分布统计

在所有分析的任务中,四种碱基的实际分布如下:

  • X (eXplore): 46.6% — 探索操作占据主导,信息获取是系统核心需求
  • E (Execute): 37.5% — 执行操作紧随其后,与探索合计占 84.1%
  • P (Plan): 12.6% — 规划占比适中,过高则与失败强相关
  • V (Verify): 3.3% — 验证占比极低,是当前系统最大的结构性弱点

关键发现

碱基序列分析揭示:E-V(执行后验证)模式的任务成功率 100%,E-E-E(连续执行)模式成功率 95.9%, 而 P-X-P(规划震荡)模式成功率仅 83.3%。P_ratio 是唯一强显著的负面因子 (r=-0.256, p<0.0001), 说明过度规划而非不够规划才是任务失败的核心原因。

5. 实现架构

碱基序列系统与 DunCrew 的核心执行引擎深度集成,其架构包含以下关键组件:

碱基编码器

在 ReAct 循环的每一轮中,碱基编码器根据工具调用的类型和上下文,将操作映射为对应的碱基类型。编码规则基于工具的语义分类,而非简单的名称匹配。

序列分析器

任务完成后,序列分析器对整条碱基链进行统计分析,计算转移矩阵、分布偏差、模式频率等指标。分析结果会反馈到 Gene Pool 系统,驱动 SOP 的自迭代优化。

与 Gene Pool 的协同

碱基序列分析的结果直接影响 Dun 的基因池:

  • 高质量序列的执行模式被提取为「优良基因」,增强后续任务的决策
  • 低质量序列中的失败模式被标记为「缺陷基因」,在未来执行中自动规避
  • 序列中的创新模式被识别并保存,扩展 Agent 的能力边界

这种生物学启发的架构设计,让 DunCrew 的 Agent 能够真正实现「越用越强」的自进化目标。

想亲自体验碱基序列?

下载 DunCrew,在你的本地环境中观察 Agent 的行为 DNA

免费下载 DunCrew