1. 为什么需要碱基序列?
当我们运行一个 AI Agent 执行任务时,它会产生一系列工具调用 — 读文件、写代码、执行命令、搜索信息等。 这些调用序列的质量直接决定了任务的成败。但传统的评估方式往往只关注最终结果,忽略了过程中的行为模式。
我们需要一种方法,能像生物学家分析 DNA 一样,解读 Agent 的行为序列,发现隐藏的模式、识别潜在的问题。
碱基序列正是为此而生。受生物 DNA 的启发,我们将 Agent 的每一次工具调用编码为四种碱基类型, 构建出行为序列的「基因组」。通过对这些序列的分析,我们可以科学地度量 Agent 的行为质量。
2. 四种碱基类型
每一次工具调用都会被编码为以下四种碱基之一:
E (Execute) - 执行
直接改变系统状态的操作:写文件、执行命令、修改配置等。这是 Agent「动手干活」的步骤。一个健康的任务执行序列中,E 碱基应该占据主导地位。
P (Plan) - 规划
思考和计划阶段的操作:分解任务、确定优先级、选择策略。好的 Agent 应该在执行前有适当的规划,但过多的规划则可能意味着犹豫不决。
V (Verify) - 验证
检查和确认操作的结果:运行测试、检查输出、验证状态。验证碱基的存在表明 Agent 具有质量意识,能主动确认工作成果。
X (eXplore) - 探索
收集信息和理解环境:搜索文档、浏览代码、查阅资料。探索是任务开始时的必要步骤,但持续的探索而不进入执行阶段可能暗示 Agent 陷入了困境。
3. 碱基序列分析方法
获得碱基序列后,我们使用多种统计分析方法来评估 Agent 的行为质量:
马尔可夫转移矩阵
通过分析碱基之间的转移概率,我们可以发现 Agent 的行为模式。例如:健康模式中 P → E 的转移概率应该较高(规划后执行),而 E → V 表示执行后验证的良好习惯。
卡方检验
将 Agent 的碱基分布与理想分布进行卡方检验,评估行为质量偏离度。偏离越大,说明 Agent 的行为模式越需要优化。
一段典型的高质量执行序列可能看起来像这样:
可以看到「规划 → 执行 → 验证」的清晰节奏,中间穿插适当的探索步骤。
4. 测试结果
以下是碱基序列系统在 347 条真实执行追踪数据中的分析结果:
碱基分布统计
在所有分析的任务中,四种碱基的实际分布如下:
- X (eXplore): 46.6% — 探索操作占据主导,信息获取是系统核心需求
- E (Execute): 37.5% — 执行操作紧随其后,与探索合计占 84.1%
- P (Plan): 12.6% — 规划占比适中,过高则与失败强相关
- V (Verify): 3.3% — 验证占比极低,是当前系统最大的结构性弱点
关键发现
碱基序列分析揭示:E-V(执行后验证)模式的任务成功率 100%,E-E-E(连续执行)模式成功率 95.9%, 而 P-X-P(规划震荡)模式成功率仅 83.3%。P_ratio 是唯一强显著的负面因子 (r=-0.256, p<0.0001), 说明过度规划而非不够规划才是任务失败的核心原因。
5. 实现架构
碱基序列系统与 DunCrew 的核心执行引擎深度集成,其架构包含以下关键组件:
碱基编码器
在 ReAct 循环的每一轮中,碱基编码器根据工具调用的类型和上下文,将操作映射为对应的碱基类型。编码规则基于工具的语义分类,而非简单的名称匹配。
序列分析器
任务完成后,序列分析器对整条碱基链进行统计分析,计算转移矩阵、分布偏差、模式频率等指标。分析结果会反馈到 Gene Pool 系统,驱动 SOP 的自迭代优化。
与 Gene Pool 的协同
碱基序列分析的结果直接影响 Dun 的基因池:
- 高质量序列的执行模式被提取为「优良基因」,增强后续任务的决策
- 低质量序列中的失败模式被标记为「缺陷基因」,在未来执行中自动规避
- 序列中的创新模式被识别并保存,扩展 Agent 的能力边界
这种生物学启发的架构设计,让 DunCrew 的 Agent 能够真正实现「越用越强」的自进化目标。
0. 数据概况(修正版)
基于 2026年3月 92 条有效执行追踪数据,覆盖 10 个分析维度
修正了 v1 报告中的碱基定义错误和数据遗漏
| 指标 | 数值 |
|---|---|
| 有效 Trace | 92 条 |
| 成功任务 | 80 条 (87.0%) |
| 失败任务 | 12 条 (13.0%) |
| 总碱基数 | 1059 |
| 总工具调用 | 917 次 |
| 平均碱基/任务 | 11.5 |
| 平均工具/任务 | 10.0 |
碱基定义(源码 baseClassifier.ts 权威定义)
| 碱基 | 全称 | 准确含义 | 分类方式 |
|---|---|---|---|
| X (Explore) | 探索 | Agent 在探索未知领域(首次读取文件、网页搜索等) | 分类器自动推断 |
| E (Execute) | 执行 | Agent 知道做什么且有所需信息(写文件、已知路径操作等) | 分类器默认兜底 |
| P (Plan) | 规划 | Agent 知道上下文但需要想清楚怎么做 | 仅由 LLM 元数据标记 |
| V (Verify) | 验证 | Agent 在检查前一步操作的结果(写后读、失败后重试、编译测试) | 分类器自动推断 |
v1 报告勘误: v1 将 E 标注为“主导碱基”,实际 X 才是最高频碱基。
碱基分布
| 碱基 | 次数 | 占比 | 工具成功 | 工具失败 | 工具错误率 |
|---|---|---|---|---|---|
| X | 521 | 49.2% | 417 | 104 | 20.0% |
| E | 362 | 34.2% | 339 | 23 | 6.4% |
| P | 142 | 13.4% | - | - | - (非工具调用) |
| V | 34 | 3.2% | 19 | 15 | 44.1% |
关键发现: X 碱基的工具错误率 (20.0%) 是 E 碱基 (6.4%) 的 3 倍。探索本质上比执行风险更高。V 碱基工具错误率最高 (44.1%),因为验证行为本身就是在检查“可能出错的结果”。
任务结局分布
| 结局路径 | 数量 | 成功率 |
|---|---|---|
| natural(正常完成) | 80 | 100% |
| unrecoverable_error | 7 | 0% |
| aborted(用户中止) | 4 | 0% |
| max_turns(轮次耗尽) | 1 | 0% |
所有成功任务都是 natural 完成,失败任务分为不可恢复错误(7)、用户中止(4)和轮次耗尽(1)。
1. 碱基转移概率矩阵(Markov Chain)
此矩阵揭示了执行序列的“语法规则”——从一种碱基状态转移到另一种的概率。
1.1 转移概率
| From \ To | X | E | P | V |
|---|---|---|---|---|
| X | 60.9% | 17.8% | 21.3% | 0.0% |
| E | 20.1% | 72.0% | 7.3% | 0.6% |
| P | 55.4% | 20.0% | 0.0% | 24.6% |
| V | 41.2% | 14.7% | 44.1% | 0.0% |
解读:
- E 有极强的自循环倾向 (72.0%):一旦进入执行模式,Agent 倾向于持续执行。
- X 也有较强自循环 (60.9%):探索阶段容易陷入“持续探索”。
- P 后最可能是 X (55.4%) 或 V (24.6%):规划后要么探索,要么验证。P 后不会再接 P(0%)。
- V 后最可能接 P (44.1%) 或 X (41.2%):验证后要么重新规划,要么继续探索。
- E→V 极少发生 (0.6%):执行后很少立即验证,这可能是一个优化点。
1.2 转移成功率
| 转移 | 成功率 | 样本数 | 评估 |
|---|---|---|---|
| V→X | 100% | 14 | 验证后探索 = 安全 |
| V→E | 100% | 5 | 验证后执行 = 安全 |
| E→V | 100% | 2 | 执行后验证 = 安全(但太少发生) |
| E→E | 97.3% | 226 | 连续执行 = 高效模式 |
| P→V | 96.9% | 32 | 规划后验证 = 最佳实践 |
| E→P | 95.7% | 23 | 执行中规划 = 健康 |
| X→E | 95.4% | 87 | 探索后执行 = 正常流程 |
| E→X | 90.5% | 63 | 执行中探索 = 可接受 |
| X→X | 88.9% | 298 | 持续探索 = 中等风险 |
| P→X | 86.1% | 72 | 规划后探索 = 准备不足 |
| V→P | 93.3% | 15 | 验证后规划 = 健康反馈循环 |
| X→P | 81.7% | 104 | 探索后规划 = 较低 |
| P→E | 80.8% | 26 | 规划后直接执行 = 风险较高 |
核心洞察: 包含 V 的转移成功率普遍最高。P→V (96.9%) 远优于 P→E (80.8%),说明规划后应先验证再执行。
2. 碱基位置效应分析
2.1 按序列位置(前段/中段/后段)
| 碱基 | 前段成功率 | 中段成功率 | 后段成功率 | 趋势 |
|---|---|---|---|---|
| X | 88.3% (180) | 91.2% (160) | 86.8% (174) | 平稳 |
| E | 94.4% (71) | 94.5% (109) | 96.6% (177) | 后段聚集 = 好信号 |
| P | 96.0% (50) | 82.9% (41) | 76.0% (50) | 后段规划 = 危险 |
| V | 100% (17) | 100% (8) | 88.9% (9) | 前段验证更有效 |
关键发现:
- P 在后段出现是危险信号: P 从前段 96.0% 下降到后段 76.0%,说明执行后期还在规划意味着任务已经偏轨。
- E 在后段聚集是好信号: 后段 E 占比最多且成功率最高 (96.6%),说明到执行后期已进入稳定的执行流。
2.2 首碱基与末碱基
| 首碱基 | 成功率 | 末碱基 | 成功率 |
|---|---|---|---|
| E | 94.4% (17/18) | E | 93.8% (45/48) |
| X | 85.1% (63/74) | X | 87.5% (28/32) |
| - | - | P | 58.3% (7/12) |
关键发现: 以 P 结尾的任务成功率仅 58.3%,远低于 E (93.8%) 和 X (87.5%)。任务以规划步骤结束说明 Agent 到最后还没搞清楚怎么做。
2.3 P 碱基的出现位置
| P 的位置 | 成功率 | 样本数 |
|---|---|---|
| 仅前半段 | 100% | 15 |
| 仅后半段 | 76.9% | 13 |
| 前后都有 | 77.4% | 31 |
规则: P 仅出现在前半段时成功率 100%,出现在后半段时降至 ~77%。规划应前置。
3. 错误恢复路径分析
3.1 工具失败后的下一个碱基
| 失败后 → | 成功率 | 样本数 | 评估 |
|---|---|---|---|
| → E(直接执行) | 100% | 17 | 最佳恢复 |
| → V(验证重试) | 87.5% | 8 | 稳健 |
| → X(重新探索) | 83.0% | 47 | 中等 |
| → P(重新规划) | 82.9% | 70 | 中等 |
关键发现: 工具失败后直接进入 E(执行替代方案)成功率最高。过度“规划”或“重新探索”反而拖慢恢复。
3.2 失败后的 2-gram 恢复路径
| 恢复路径 | 成功率 | 样本数 |
|---|---|---|
| → E-P (执行+规划) | 100% | 8 |
| → X-E (探索+执行) | 100% | 5 |
| → E-X (执行+探索) | 100% | 5 |
| → E-E (连续执行) | 100% | 4 |
| → P-V (规划+验证) | 95.2% | 21 |
| → X-X (连续探索) | 92.9% | 14 |
| → V-P (验证+规划) | 87.5% | 8 |
| → P-X (规划+探索) | 79.5% | 39 |
| → X-P (探索+规划) | 75.0% | 28 |
| → P-E (规划+执行) | 71.4% | 7 |
核心模式: 失败后包含 E 的恢复路径成功率最高,而 P→E(规划后直接执行)成功率最低 (71.4%)。最佳恢复路径是 P→V(规划后先验证,95.2%)。
3.3 连续工具错误级联效应
| 最大连续错误数 | 成功率 | 样本数 |
|---|---|---|
| 0 | 93.9% | 33 |
| 1 | 84.2% | 38 |
| 2 | 81.2% | 16 |
| 3 | 75.0% | 4 |
每增加一次连续错误,成功率下降约 6-9 个百分点。
4. 碱基密度与聚集模式
4.1 连续 E(执行)run 长度
| 最大连续 E | 成功率 | 样本数 |
|---|---|---|
| 0 (无 E) | 77.8% | 27 |
| 1 | 84.6% | 26 |
| 2 | 88.9% | 9 |
| 3 | 100% | 10 |
| 4 | 100% | 5 |
| 6+ | 92.9% | 14 |
关键发现: 完全没有 E 碱基的任务成功率仅 77.8%。连续 E run 越长成功率越高,E-E-E (连续执行 3 步) 以上任务成功率接近 100%。E 的连续出现是执行效率的标志。
4.2 X/(X+E) 比值
| X 占比 | 成功率 | 样本数 | 含义 |
|---|---|---|---|
| <0.3 (E-heavy) | 94.1% | 17 | 执行为主 |
| 0.3-0.5 | 100% | 13 | 均衡 |
| 0.5-0.7 | 80.0% | 15 | X 偏多 |
| >0.7 (X-heavy) | 83.0% | 47 | 探索为主 |
关键发现: X/(X+E) < 0.5 的任务成功率最高 (94-100%)。E-heavy 或均衡模式优于 X-heavy 模式。
4.3 碱基切换频率
| 切换频率 | 成功率 | 样本数 |
|---|---|---|
| <0.3 (低切换) | 83.3% | 18 |
| 0.3-0.6 (中切换) | 95.2% | 42 |
| >0.6 (高切换) | 72.0% | 25 |
关键发现: 中等切换频率 (0.3-0.6) 成功率最高 (95.2%)。过低说明单一模式(可能卡住),过高说明频繁在状态间跳跃(可能迷失方向)。
5. Dun 维度碱基特征
| Dun | 任务数 | 成功率 | 平均长度 | X% | E% | P% | V% | 特征 |
|---|---|---|---|---|---|---|---|---|
| AI深度研究员 | 36 | 80.6% | 11.1 | 52.9 | 26.8 | 17.3 | 3.0 | X-heavy, P 偏多 |
| (无 Dun) | 19 | 94.7% | 14.6 | 66.4 | 20.6 | 11.6 | 1.4 | X 极高但成功率也高 |
| 碱基序列预测器 | 18 | 94.4% | 15.7 | 26.1 | 56.5 | 11.3 | 6.0 | E-heavy + V 最多 |
| skill-scout | 9 | 88.9% | 7.1 | 42.2 | 48.4 | 7.8 | 1.6 | E 偏多,短任务 |
| 漫画剧情工坊 | 5 | 100% | 3.8 | 84.2 | 5.3 | 10.5 | 0.0 | X 极高但任务极短 |
| 代码知识管家 | 4 | 75.0% | 3.0 | 58.3 | 41.7 | 0.0 | 0.0 | 无 P 无 V |
关键发现:
- 碱基序列预测器自身的碱基模式最“健康”:E 最多 (56.5%)、V 最多 (6.0%),符合“多执行+勤验证”的最佳实践。
- AI深度研究员成功率最低 (80.6%),其 X 和 P 占比偏高,说明该 Dun 执行的任务涉及大量探索和反复规划。
- 无 Dun 任务成功率反而很高 (94.7%),可能因为这些是用户直接下达的简单任务。
6. 时间演变趋势
| 周 | 任务数 | 成功率 | X% | E% | P% | V% |
|---|---|---|---|---|---|---|
| W13 (3月下旬初) | 17 | 94.1% | 67.0 | 19.7 | 11.7 | 1.5 |
| W14 (3月下旬末) | 75 | 85.3% | 43.3 | 39.0 | 14.0 | 3.8 |
趋势:
- W13→W14:成功率从 94.1% 降至 85.3%。
- X 占比从 67.0% 降至 43.3%,E 占比从 19.7% 升至 39.0%:任务复杂度在上升。
- V 占比从 1.5% 升至 3.8%:验证行为在增加(好信号)。
解读: 随着使用深入,任务从简单的探索型(X-heavy)转向更复杂的执行型(E 增加),导致成功率有所下降但验证行为也在增加。
7. P 碱基深度分析
7.1 P 数量与成功率
| P 碱基数 | 成功率 | 样本数 |
|---|---|---|
| 0 | 93.9% | 33 |
| 1-2 | 80.6% | 36 |
| 3-4 | 83.3% | 18 |
| 5+ | 100% | 5 |
P=0 和 P=5+ 成功率最高,但含义不同:P=0 是简单任务不需要规划,P=5+ 是复杂任务充分规划。
7.2 P 后续碱基
| P → | 成功率 | 样本数 | 含义 |
|---|---|---|---|
| P → V | 96.9% | 32 | 规划后验证 = 最佳 |
| P → X | 86.1% | 72 | 规划后探索 |
| P → E | 80.8% | 26 | 规划后直接执行 = 风险较高 |
规则: P 后应优先接 V(验证当前状态),而非直接跳到 E(执行)。
7.3 P→V 模式影响
| 模式 | 成功率 | 样本数 |
|---|---|---|
| 含 P→V | 95.2% | 21 |
| 不含 P→V | 84.5% | 71 |
含 P→V 模式的任务比不含的高 10.7 个百分点。
8. 反思 (Reflexion) 分析
总计 888 轮中有 123 轮触发了反思 (13.9%)。
| 反思频率 | 成功率 | 样本数 |
|---|---|---|
| 无反思 (0%) | 89.2% | 37 |
| 低反思 (<20%) | 93.1% | 29 |
| 中反思 (20-50%) | 78.9% | 19 |
| 高反思 (>50%) | 71.4% | 7 |
结论: 少量反思 (<20%) 成功率最高 (93.1%),高频反思是任务困难的信号,而非成功的保障。
9. Governor 干预评估
当前状态: 92 条 Trace 中未发现任何 Governor 干预记录。
Trace 中 interventions 字段为空,说明 baseSequenceGovernor 的三层干预系统尚未在生产数据中产生干预事件。可能原因:
- Governor 的触发阈值设置过高,未达到触发条件
- Governor 在数据采集时间段内尚未部署
- 干预记录未被保存到 Trace 中
建议: 确认 Governor 干预事件是否被正确写入 ExecTrace,这是评估干预效果的前提。
10. 综合发现与可操作规则
10.1 影响成功率的因子排名
| 排名 | 因子 | 效果量 | 证据维度 |
|---|---|---|---|
| 1 | 结局路径 | natural=100%, 其他=0% | 元数据 |
| 2 | P→V 模式 | +10.7% (95.2% vs 84.5%) | 转移矩阵 + 碱基分析 |
| 3 | V 碱基存在 | +11.2% (95.5% vs 84.3%) | 碱基分布 |
| 4 | X/(X+E) 比值 | <0.5=97% vs >0.7=83% | 密度分析 |
| 5 | 连续错误数 | 0=93.9%, 3=75.0% | 级联分析 |
| 6 | 末碱基类型 | E=93.8%, P=58.3% | 位置效应 |
| 7 | P 碱基位置 | 仅前段=100%, 后段=77% | 位置效应 |
| 8 | 切换频率 | 中=95.2%, 高=72.0% | 密度分析 |
| 9 | E 连续长度 | 0=77.8%, 3+=100% | 密度分析 |
| 10 | Dun 类型 | 差异 15%+ | Dun 维度 |
10.2 实时预警规则
RED - 立即干预
| 规则 | 条件 | 预测成功率 |
|---|---|---|
| R1 | 连续工具错误 ≥ 3 次 | ~75% |
| R2 | 末碱基即将是 P(后段仍在规划) | ~58% |
| R3 | 当前 X/(X+E) > 0.7 且序列长度 > 10 | ~80% |
| R4 | P 碱基出现在序列后半段 | ~77% |
| R5 | 碱基切换频率 > 0.6 | ~72% |
YELLOW - 关注
| 规则 | 条件 | 建议动作 |
|---|---|---|
| Y1 | P 后直接接 E(未经 V 验证) | 插入验证步骤 |
| Y2 | 工具失败后进入 P→E(仓促规划执行) | 引导先验证 |
| Y3 | 无 V 碱基出现且序列 > 8 步 | 提醒验证 |
| Y4 | 反思比例 > 20% | 关注任务复杂度 |
GREEN - 健康信号
| 信号 | 条件 | 成功率 |
|---|---|---|
| G1 | 包含 P→V 模式 | 95.2% |
| G2 | E 连续 run ≥ 3 | ~100% |
| G3 | X/(X+E) 在 0.3-0.5 之间 | ~100% |
| G4 | 碱基切换频率 0.3-0.6 | 95.2% |
| G5 | P 仅出现在序列前半段 | 100% |
10.3 碱基转移的“语法规则”
基于 Markov 矩阵,理想的执行序列语法为:
起始: X (探索)
探索阶段: X → X → X (持续探索,获取足够信息)
规划转换: X → P (信息足够后规划)
验证门控: P → V (规划后先验证) <<< 关键!
执行阶段: V → E → E → E (验证通过后持续执行)
收尾: E → E (执行流结尾)
反模式:
P → E (跳过验证直接执行 = 风险高)
后段出现 P (执行后期还在规划 = 任务偏轨)
X → X → X → X → X → X (过度探索 = 可能迷失)
10.4 与 v1 报告的对比
| 发现 | v1 结论 | v2 结论 | 变化 |
|---|---|---|---|
| 主导碱基 | E 是主导 | X 是主导 (49.2%) | 修正 |
| V 的作用 | +10.9% | +11.2% | 一致 |
| 计划与成功率 | 负相关 | P 的位置比数量更重要 | 深化 |
| 碱基统计特征 | 无预测力 | 特定模式有价值 | 深化 |
| 反思 | 困难信号 | 同,<20% 最优 | 一致 |
| 工具错误率 | 未分析 | X=20%, E=6.4%, V=44.1% | 新增 |
| 转移矩阵 | 未分析 | E 自循环 72%, P→V 最佳 | 新增 |
| 位置效应 | 未分析 | 后段 P=危险, 末碱基P=58% | 新增 |
| 错误恢复路径 | 未分析 | P→V 最佳恢复 | 新增 |
| Governor 干预 | 未分析 | 0 条干预记录 | 新增 |
| Dun 差异 | 未分析 | 碱基预测器自身模式最优 | 新增 |
11. 局限性与下一步
当前局限
- 样本量仍不足 (92 条) — 部分模式的样本量 < 10,结论需审慎
- Governor 干预数据缺失 — 无法评估干预效果
- skillIds 全为空 — 无法做工具-碱基交叉分析
- 时间跨度仅 2 周 — 时间演变趋势不够稳定
- 因果关系不明 — 碱基模式与成功的关联可能是混杂因素
下一步方向
- 验证 Governor 干预数据流 — 确保干预记录写入 Trace
- 将 P→V 规则编码到 Governor — 在 Layer 1 规则引擎中添加验证提示
- 添加位置感知规则 — 在序列后半段检测 P 碱基出现时预警
- 积累到 300+ 条后重做 ML 分析 — 使用 n-gram 特征替代统计特征
- 标注任务难度 — 区分任务难度与执行策略的影响
报告生成时间: 2026-03-30 | 数据来源: DunCrew-Data/memory/exec_traces/2026-03.jsonl (92 条) | 分析维度: 转移矩阵 / 位置效应 / 错误恢复 / 密度聚集 / Dun差异 / 时间趋势 / P碱基 / 反思 / Governor / 综合规则
一、数据集总览
基于 347 条执行追踪 JSONL 原始数据的完整分析 | 生成日期: 2026-04-03
数据源:exec_traces/2026-03.jsonl+2026-04.jsonl
1.1 核心指标
| 指标 | 数值 |
|---|---|
| 总样本量 | 347 条 (3月 199 条 + 4月 148 条) |
| 整体成功率 | 92.5% (成功 321, 失败 26) |
| 平均序列长度 | 8.7 步 |
| 最长序列 | 44+ 步 |
1.2 碱基总体分布
| 碱基 | 含义 | 占比 | 绝对数量 |
|---|---|---|---|
| X (Explore) | 探索 | 46.6% | 1,406 |
| E (Execute) | 执行 | 37.5% | 1,131 |
| P (Plan) | 规划 | 12.6% | 379 |
| V (Verify) | 验证 | 3.3% | 99 |
核心发现: 系统以“探索 + 执行”为主导行为模式, X 和 E 合计占 84.1%。验证 (V) 占比极低, 仅 3.3%, 说明当前系统缺乏系统性的验证闭环。
二、序列长度与成功率关系
2.1 分段统计
| 序列长度 | 任务数 | 成功率 | 平均耗时 |
|---|---|---|---|
| 1-3 步 | 84 | 94.0% | 41.5K ms |
| 4-6 步 | 74 | 87.8% | 73.6K ms |
| 7-10 步 | 71 | 91.5% | 88.9K ms |
| 11-15 步 | 74 | 94.6% | 146.2K ms |
| 16+ 步 | 44 | 95.5% | 237.4K ms |
2.2 关键发现
- 各长度段成功率均较高 (87.8% - 95.5%), 不存在明显的倒U形曲线
- 短序列和长序列成功率最高: 1-3 步 94.0%, 16+ 步 95.5%
- 4-6 步是相对低谷 (87.8%), 可能因为此区间任务复杂度刚好超出简单执行但不够充分探索
- 耗时与长度正相关: 二次拟合趋势清晰
结论: 序列长度本身不是成功率的关键因素。失败更多与特定碱基模式和工具执行异常有关, 而非简单的“步骤过多”。
三、碱基模式分析
3.1 高风险模式
| 模式 | 出现任务数 | 成功率 | 不含该模式 | 差异 |
|---|---|---|---|---|
| P-X-P | 42 | 83.3% | 93.8% | -10.4% |
| X-E-X | 42 | 90.5% | 92.8% | -2.3% |
| P-X-P-X | 23 | 91.3% | 92.6% | -1.3% |
| X-X-X | 143 | 94.4% | 91.2% | +3.2% |
| X-X-X-X | 73 | 94.5% | 92.0% | +2.5% |
核心发现:
- P-X-P 是唯一真正的高风险模式: 成功率 83.3%, 比全局低 9.2 个百分点。这是“规划-探索-规划”震荡循环
- X-X-X 并非高风险: 成功率 94.4%, 连续探索本身不会降低成功率
- X-E-X 有轻微风险: 成功率 90.5%, 执行后再次探索说明执行结果未达预期
3.2 高效模式
| 模式 | 出现任务数 | 成功率 | 特征 |
|---|---|---|---|
| E-V | 20 | 100% | 执行后立即验证 |
| E-E-V | 10 | 100% | 连续执行后验证 |
| P-E-V | 1 | 100% | 样本量不足 |
| E-E-E | 97 | 95.9% | 连续执行, 出现广泛 |
| E-P-E | 14 | 85.7% | 执行中穿插规划 |
核心发现:
- 含 V 的模式成功率极高: E-V 和 E-E-V 均为 100%, 但出现频次很低
- E-E-E 是最可靠的高频模式: 97 个任务中出现, 成功率 95.9%
- E-P-E 成功率偏低 (85.7%): 执行中穿插规划可能打断执行节奏
3.3 3-gram 频次与成功率
频次最高的 5 个 3-gram:
- X-X-X (143 次) - 成功率 94.4%, 最常见模式
- X-X-E (117 次) - 成功率 100%, 探索后收敛到执行
- X-E-E (113 次) - 成功率 98.2%, 探索后连续执行
- E-E-E (97 次) - 成功率 95.9%, 纯执行链
- X-P-X (90 次) - 成功率 90.0%, 探索-规划-探索
四、转移概率矩阵
4.1 全局转移概率
| 源 → 目标 | → E | → P | → V | → X |
|---|---|---|---|---|
| E → | 68.0% | 9.8% | 2.1% | 20.1% |
| P → | 20.7% | 0.0% | 22.5% | 56.8% |
| V → | 19.5% | 40.2% | 1.1% | 39.1% |
| X → | 23.0% | 19.6% | 0.2% | 57.2% |
4.2 关键路径解读
高惯性路径 (自循环):
- E→E: 68.0% - 执行后最大概率继续执行, 形成执行链
- X→X: 57.2% - 探索后最大概率继续探索, 容易形成探索漩涡
- P→X: 56.8% - 规划后大概率进入探索, 而非直接执行
低频但关键:
- E→V: 仅 2.1% - 执行后几乎不验证, 这是系统最大的结构性弱点
- X→V: 仅 0.2% - 探索后更不会验证
- P→V: 22.5% - 规划后有一定概率触发验证
- V→P: 40.2% - 验证后倾向重新规划
4.3 3月 vs 4月 转移矩阵变化
| 路径 | 3月 | 4月 | 变化 |
|---|---|---|---|
| E→E | 67.2% | 69.3% | +2.1% |
| X→X | 55.8% | 60.0% | +4.2% |
| P→X | 57.3% | 55.7% | -1.6% |
| X→E | 21.6% | 25.9% | +4.3% |
4月相比3月, X→E 略有提升 (+4.3%), 说明探索后转向执行的能力有小幅改善。但整体模式未发生显著变化。
五、3月 vs 4月 碱基行为变化
5.1 碱基分布变化
| 碱基 | 3月 | 4月 | 变化幅度 |
|---|---|---|---|
| E | 35.6% | 41.1% | +5.6% |
| P | 14.0% | 9.8% | -4.2% |
| V | 3.6% | 2.8% | -0.8% |
| X | 46.8% | 46.3% | -0.5% |
5.2 趋势解读
- E 占比上升 5.6%, 部分由 P 的下降转化而来, 说明系统对重复任务的熟悉度提升
- P 占比下降 4.2%, 是最明显的变化, 与 4 月技能系统的引入直接相关
- X 占比稳定 (-0.5%), 说明新任务仍然需要大量探索
- V 占比略降 (-0.8%), 验证依然是最薄弱环节
- 成功率从 92.0% 微升至 93.2%, 系统整体表现稳定
六、特征相关性分析
6.1 相关性结果
| 特征 | Point-biserial r | p 值 | 显著性 | 解读 |
|---|---|---|---|---|
| P_ratio | -0.256 | <0.0001 | *** | 规划占比越高, 成功率越低 |
| switch_rate | -0.134 | 0.013 | * | 频繁切换碱基类型降低成功率 |
| E_ratio | +0.132 | 0.014 | * | 执行占比越高, 成功率越高 |
| has_V | +0.092 | 0.088 | ns | 含验证步骤有正向趋势, 但不显著 |
| V_ratio | +0.087 | 0.106 | ns | 验证占比正向趋势, 不显著 |
| length | +0.067 | 0.213 | ns | 序列长度与成功率无显著相关 |
| X_ratio | -0.033 | 0.542 | ns | 探索占比与成功率无显著相关 |
6.2 关键发现
- P_ratio 是唯一强显著的负面因子 (r=-0.256, p<0.0001): 过度规划与失败高度相关
- switch_rate 是有价值的发现 (r=-0.134, p=0.013): “专注一种模式推进”比“频繁跳转”更有效
- E_ratio 正相关 (r=+0.132, p=0.014): 系统应尽量将时间花在执行上而非规划上
- V_ratio 方向正确但不显著: E-V 模式 100% 成功率暗示其潜力, 当前样本中验证次数太少是不显著的主因
- X_ratio 与成功率无关: 探索本身是中性的, 关键在于探索之后的行为走向
七、失败任务碱基特征分析
7.1 失败 vs 成功的碱基分布对比
| 指标 | 失败任务 | 成功任务 | 差异 |
|---|---|---|---|
| 数量 | 26 | 321 | — |
| 平均序列长度 | 7.1 步 | 8.8 步 | -1.7 步 |
| E 占比 | 23.4% | 38.4% | -15.0% |
| P 占比 | 23.4% | 11.9% | +11.5% |
| V 占比 | 1.6% | 3.4% | -1.8% |
| X 占比 | 51.6% | 46.3% | +5.3% |
7.2 错误类型分布
| 错误类型 | 次数 | 占比 |
|---|---|---|
| 技能执行错误 | 9 | 35% |
| 未记录具体错误 | 5 | 19% |
| futures 超时 | 5 | 19% |
| 文件/路径不存在 | 4 | 15% |
| 其他工具错误 | 3 | 12% |
7.3 碱基视角的失败特征
- 失败任务 P 占比翻倍 (23.4% vs 11.9%): 过度规划是失败的最强碱基信号
- 失败任务 E 占比大幅偏低 (23.4% vs 38.4%): 失败任务未能充分进入执行阶段
- 失败任务序列更短 (7.1 vs 8.8): 失败倾向于在早期就陷入困境
- 失败碱基画像: 高 P + 低 E + 短序列 = “规划震荡型失败”
- 技能执行错误是首要失败原因 (35%): 主要来自外部工具调用失败
八、优化策略建议
8.1 高优先级 - P-X-P 震荡治理
P-X-P 是数据中唯一显著拉低成功率的碱基模式 (-10.4%), 建议:
- 规则干预: 检测到 P→X→P 序列时, 强制下一步进入 E (执行), 打破震荡
- 规划质量提升: 增强单次规划的信息吸收能力
- 规划上限: 单任务 P 节点不超过总步骤的 15%
8.2 中优先级 - 验证闭环强化
E→V 转移概率仅 2.1%, 是系统最大的结构性缺陷:
- 强制验证: 对 CRITIC_TOOLS 执行后强制插入验证步骤
- 轻量验证: 设计快速校验机制(文件存在性检查、命令返回值校验)
- 目标: 将 E→V 从 2.1% 提升到 10-15%
8.3 低优先级 - 探索收敛优化
X→X 自循环 57.2% 虽然看起来高, 但 X-X-X 模式成功率 94.4%, 说明连续探索本身不是问题:
- 探索目标明确化: 每次探索前明确要获取的信息
- 探索结果去重: 检测相似探索结果, 提前触发收敛
- 非必要不干预: 数据不支持强制限制连续探索次数
8.4 工具稳定性
54% 的失败源于工具执行异常, 建议:
- 重试机制: 工具调用失败自动重试 1-2 次
- 超时优化: 对并发 futures 设置合理超时和降级策略
- 备选工具: 核心工具配置备选方案
九、干预效果的碱基分析
9.1 Reflexion 机制概况
Reflexion 是系统在工具调用失败时触发的结构化反思机制, 会在碱基序列中插入额外的 P 和 X 步骤。
| 分组 | 任务数 | 占比 | 成功率 | 平均耗时 | 平均序列长度 |
|---|---|---|---|---|---|
| 有 Reflexion | 163 | 47.0% | 90.2% | 139.6s | 12.3 步 |
| 无 Reflexion | 184 | 53.0% | 94.6% | 74.8s | 5.5 步 |
9.2 Reflexion 的恢复效果
在有错误的任务中 (N=178):
| 条件 | 任务数 | 成功率 | 差异 |
|---|---|---|---|
| 有错误 + 有 Reflexion | 163 | 90.2% | — |
| 有错误 + 无 Reflexion | 15 | 66.7% | -23.5% |
| 无错误 (对照) | 169 | 97.0% | — |
Reflexion 在有错误的情况下将成功率从 66.7% 提升到 90.2%, 恢复增益 +23.5%。
按错误次数细分:
| 错误次数 | 有 Reflexion | 无 Reflexion | 增益 |
|---|---|---|---|
| 1 次错误 | 94.8% (n=58) | 76.9% (n=13) | +17.9% |
| 2 次错误 | 88.0% (n=50) | 0.0% (n=2) | +88.0% |
2 次及以上错误的任务, 如果没有 Reflexion 几乎必定失败; 有 Reflexion 则仍有 88% 的恢复成功率。
9.3 Reflexion 对碱基序列的影响
| Reflexion 次数 | 任务数 | 成功率 | 平均耗时 | 碱基序列特征 |
|---|---|---|---|---|
| 0 次 | 184 | 94.6% | 75s | 短序列, E 占比高 |
| 1 次 | 72 | 87.5% | 108s | 序列中段插入 P-X 对 |
| 2-3 次 | 72 | 90.3% | 143s | 多处 P-X 插入 |
| 4+ 次 | 19 | 100% | 246s | 大量反思段, 但最终收敛 |
4+ 次 Reflexion 的任务成功率反而是 100% (n=19), 说明系统对复杂错误有足够的韧性。代价是 3.3 倍的耗时。
9.4 错误恢复的碱基特征
| 指标 | 数值 |
|---|---|
| 总有错误任务 | 178 条 (51.3%) |
| 错误后恢复成功 | 157 条 (88.2%) |
| 恢复成功碱基占比 | E=33.4% P=17.6% V=4.4% X=44.6% |
| 恢复失败碱基占比 | E=24.7% P=24.7% V=1.7% X=48.9% |
恢复失败的任务 P 占比高达 24.7%, 再次印证: 过度规划是失败的核心碱基特征。
9.5 任务完成路径
| 完成路径 | 任务数 | 成功率 | 含义 |
|---|---|---|---|
| natural | 319 | 100% | 正常完成 |
| aborted | 15 | 0% | 用户主动终止 |
| unrecoverable_error | 10 | 0% | 不可恢复错误 |
| max_turns | 2 | 50% | 达到最大轮次 |
| escalation | 1 | 100% | 升级处理 |
9.6 工具错误率排名
| 工具 | 调用次数 | 错误率 | 风险等级 |
|---|---|---|---|
| web_search_enhanced | 16 | 100% | 极高 |
| search_memory | 10 | 100% | 极高 |
| tavily_search | 28 | 100% | 极高 |
| generateImage | 11 | 100% | 极高 |
| run_skill | 15 | 80.0% | 高 |
| openInExplorer | 15 | 53.3% | 高 |
| search_codebase | 11 | 45.5% | 中 |
| search_files | 35 | 37.1% | 中 |
| parseFile | 32 | 31.2% | 中 |
| webSearch | 250 | 25.6% | 中 |
| readFile | 397 | 16.6% | 低 |
| browser_navigate | 102 | 11.8% | 低 |
| listDir | 400 | 11.5% | 低 |
| runCmd | 816 | 2.9% | 极低 |
关键发现:
- 4 个工具 100% 错误率: 每次调用都失败, 每次失败都会触发 Reflexion
- webSearch 25.6% 错误率 × 250 次调用: 是碱基序列被拉长的最大单一因素
- runCmd 仅 2.9% 错误率: 最可靠的工具, 816 次调用中仅 24 次失败
十、守护规则 (Governor) 效果分析
Governor 是基于碱基序列分析结论构建的实时守护规则引擎, 于 3月31日 上线。
10.1 Governor 规则体系
| 规则 | 触发条件 | 干预方式 | 对应碱基发现 |
|---|---|---|---|
| consecutive_x_brake | 连续 X ≥ 12 步 | 提示停止盲目探索 | X→X 自循环 57.2% |
| switch_rate_warning | 切换率 > 60% | 提示集中精力 | switch_rate r=-0.134 |
| missing_verification | P 后未接 V | 提示立即验证 | E→V 仅 2.1% |
| explore_dominance | X/(X+E) > 55% | 提示减少探索 | P_ratio r=-0.256 |
| diversity_collapse | 最近5步全同类 | 提示打破死循环 | 碱基多样性崩溃 |
| late_planning_warning | 后半段仍在 P | 提示停止规划 | 后段P 成功率77% |
10.2 启用前 vs 启用后: 整体效果
| 指标 | 启用前 (3/27-3/30) | 启用后 (3/31+) | 变化 |
|---|---|---|---|
| 任务数 | 101 | 246 | — |
| 成功率 | 88.1% | 94.3% | +6.2% |
| 平均 Token | 275K | 154K | -121K (-44%) |
| 平均序列长度 | 22.2 步 | 14.0 步 | -8.2 步 (-37%) |
| 平均耗时 | 134s | 93s | -41s (-31%) |
核心发现: 守护规则上线后, 成功率提升 6.2 个百分点, 同时平均 Token 消耗下降 44%, 序列长度缩短 37%, 耗时减少 31%。这是成功率提升与成本下降同时发生的罕见正向结果。
10.3 启用后: 有触发 vs 无触发
| 分组 | 任务数 | 成功率 | 平均 Token | 平均序列长度 |
|---|---|---|---|---|
| 规则触发 | 193 | 96.4% | 179K | 16.3 步 |
| 未触发 | 53 | 86.8% | 65K | 5.6 步 |
| 启用前 (对照) | 101 | 88.1% | 275K | 22.2 步 |
关键对比:
- 触发组成功率最高 (96.4%): 规则触发不仅没有打断任务, 反而显著提升了成功率
- 未触发组成功率最低 (86.8%): 这些任务序列很短, 属于简单任务中的早期失败
- 触发组 Token 大幅低于启用前 (179K vs 275K, -35%): 规则通过及时纠偏节省了大量 Token
10.4 碱基分布变化
| 碱基 | 启用前 | 启用后 (触发) | 启用后 (未触发) |
|---|---|---|---|
| E | 36.0% | 35.8% | 63.6% |
| P | 12.7% | 12.9% | 8.5% |
| V | 3.3% | 3.5% | 1.1% |
| X | 48.0% | 47.8% | 26.7% |
触发组 V 从 3.3% 微升到 3.5% — 这正是 missing_verification 规则的效果。
10.5 各规则触发频次与效果
| 规则 | 触发任务数 | 成功率 | 平均 Token | 效果评估 |
|---|---|---|---|---|
| X-Brake | 146 | 98.6% | 171K | 最高频, 效果显著 |
| Switch-Warn | 88 | 95.5% | 205K | 高频, 有效 |
| Miss-Verify | 54 | 96.3% | 241K | 中频, 有效 |
| Explore-Dom | 50 | 96.0% | 210K | 中频, 有效 |
| Step-Fuse | 43 | 100% | 305K | 已禁用, 全部成功 |
| Div-Collapse | 14 | 100% | 291K | 低频, 全部成功 |
规则效果分析: X-Brake 是最有价值的规则 (146 次触发, 98.6% 成功率)。所有规则的成功率均 ≥ 95.5%, 说明 Governor 的整体设计是安全的。
10.6 Token 效率对比
| 分组 | 每成功任务 Token | 相对基线 |
|---|---|---|
| 启用前 | 313K | 1.0x (基线) |
| 启用后 (触发) | 186K | 0.59x (-41%) |
| 启用后 (未触发) | 74K | 0.24x (简单任务) |
10.7 综合评估
| 维度 | 启用前 → 启用后 | 变化 |
|---|---|---|
| 成功率 | 88.1% → 94.3% | +6.2% |
| 平均 Token | 275K → 154K | -44% |
| 平均序列长度 | 22.2 → 14.0 | -37% |
| 平均耗时 | 134s → 93s | -31% |
| Token/成功任务 | 313K → 186K | -41% |
Governor 的设计理念是“在碱基层面做最小干预, 获得最大收益”。数据验证了这个理念: 它不替代 LLM 决策, 只在检测到高风险碱基模式时注入提示, 干预是轻量的, 结果是成功率和 Token 效率的双重提升。
十一、技能系统的碱基效应
11.1 技能系统概况
| 维度 | 3月 | 4月 | 变化 |
|---|---|---|---|
| 有技能绑定任务占比 | 0% | 59.5% | 从无到有 |
| 平均技能数/任务 | 0 | 8.9 | — |
| 技能种类数 | 0 | 140 | — |
11.2 技能对碱基分布的影响
| 指标 | 有技能 (N=88) | 无技能 (N=259) | 差异 |
|---|---|---|---|
| 成功率 | 96.6% | 91.1% | +5.5% |
| 平均耗时 | 85s | 112s | -24% |
| 平均序列长度 | 6.6 步 | 9.4 步 | -2.8 步 |
| E 占比 | 32.2% | 38.8% | -6.6% |
| X 占比 | 55.5% | 44.5% | +11.0% |
| P 占比 | 9.2% | 13.4% | -4.2% |
碱基角度的核心发现:
- 技能缩短碱基序列: 有技能的任务平均 6.6 步 vs 无技能 9.4 步
- 技能降低 P 占比: 9.2% vs 13.4%, 技能替代了规划需求
- 技能提高 X 占比: 55.5% vs 44.5%, 因为技能调用本身被编码为 X (探索), 但这些是“有目的的探索”
- 技能是 4 月 P 占比下降的主因: 4 月 P 从 14.0% 降至 9.8%, 与技能引入时间点完全吻合
11.3 技能成功率排名
Bottom 5 (成功率最低, 出现≥5次):
| 技能 | 使用次数 | 成功率 | 问题分析 |
|---|---|---|---|
| analyze-march-bases | 5 | 80.0% | 数据分析类, 依赖复杂工具链 |
| github | 6 | 83.3% | Git 操作类, 权限和网络问题 |
| skill-generator | 16 | 87.5% | 元技能, 任务复杂 |
| gene-pool-optimizer | 8 | 87.5% | 优化类, 多步骤迭代 |
| jike-publisher-qr | 29 | 89.7% | 社交发布类, 外部 API 不稳定 |
Top 5 (成功率最高, 出现≥5次):
| 技能 | 使用次数 | 成功率 | 特点 |
|---|---|---|---|
| feishu-doc | 10 | 100% | 文档操作, 接口稳定 |
| file-organizer | 6 | 100% | 文件操作, 纯本地 |
| proactive-agent | 5 | 100% | Agent 编排, 逻辑清晰 |
| gh-issues | 10 | 100% | GitHub Issues, 接口可靠 |
| review-pr | 7 | 100% | 代码审查, 读取型操作 |
规律: 成功率高的技能普遍是接口稳定、操作明确的(文档/文件/读取类); 成功率低的技能涉及外部 API 不稳定、多步骤迭代。
11.4 高频技能使用分布
| 技能 | 使用次数 | 成功率 | 类别 |
|---|---|---|---|
| websearch | 88 | 96.6% | 搜索 |
| web-search-enhanced | 67 | 95.5% | 搜索增强 |
| clawhub | 58 | 96.6% | 技能市场 |
| skill-scout | 49 | 95.9% | 技能发现 |
| openai-image-gen | 49 | 95.9% | 图像生成 |
| prose | 47 | 95.7% | 文本创作 |
| code-review | 42 | 97.6% | 代码审查 |
| trello | 42 | 95.2% | 项目管理 |
搜索类技能使用最频繁, 说明信息获取是系统最核心的需求, 这与碱基 X (探索) 占比最高 (46.6%) 一致。
十二、记忆系统的碱基效应
DunCrew 的记忆系统由多层组成: 短暂层 (日期 MD 文件)、持久层 (Gene Pool 基因池 + Capsules 经验胶囊 + Soul Amendments 灵魂修正)。
12.1 searchMemory 使用与碱基序列
| 指标 | 数值 |
|---|---|
| 使用 searchMemory 的任务 | 51 条 (14.7%) |
| searchMemory 总调用次数 | 74 次 |
| 命中 (返回有效结果) | 17 次 (23.0%) |
| 未命中 (无结果) | 57 次 (77.0%) |
searchMemory 调用在碱基序列中被编码为 X (探索)。命中率仅 23%, 意味着 77% 的检索是空跑。
| 分组 | 任务数 | 成功率 |
|---|---|---|
| 记忆命中 | 15 | 93.3% |
| 记忆全未命中 | 36 | 88.9% |
| 未使用记忆 | 296 | 92.9% |
12.2 3月 vs 4月 记忆使用变化
| 月份 | searchMemory 使用率 |
|---|---|
| 3月 | 19.6% (39/199) |
| 4月 | 8.1% (12/148) |
4月记忆使用率从 19.6% 骤降到 8.1%。技能系统替代了部分记忆检索的功能。
12.3 Gene Pool (基因池) 分析
| 类别 | 基因数 | 已使用 | 使用率 | 总使用次数 | 含义 |
|---|---|---|---|---|---|
| repair | 27 | 20 (74%) | 74% | 1,488 | 错误修复策略 |
| capability | 38 | 0 (0%) | 0% | 0 | 能力描述 |
| artifact | 17 | 0 (0%) | 0% | 0 | 产出物记录 |
碱基视角的发现: repair 基因是 Reflexion 碱基段的底层支撑, 使用 1,488 次。capability 和 artifact 基因完全闲置。
12.4 Capsules (经验胶囊)
| 指标 | 数值 |
|---|---|
| 总胶囊数 | 100 |
| 成功经验 | 83 (83%) |
| 失败经验 | 17 (17%) |
80% 的胶囊由 “failed” 触发, 与 repair 基因形成闭环。
12.5 Soul Amendments (灵魂修正)
| 指标 | 数值 |
|---|---|
| 总规则数 | 20 |
| 已批准 (approved) | 12 |
| 已归档 (archived) | 7 |
| 累计命中次数 | 909 次 |
高频规则反映了系统的真实行为偏好: 重搜索 (→高 X)、重执行 (→高 E)、轻规划 (→低 P), 与碱基分布完全一致。
12.6 Dun 级别碱基表现
| Dun | 任务数 | 成功率 | 规则数 |
|---|---|---|---|
| 全栈开发预备队员 | 56 | 94.6% | 5 |
| AI深度研究员 | 25 | 80.0% | 3 |
| 全能AI大师 | 24 | 95.8% | 3 |
| 品牌设计师 | 18 | 94.4% | 3 |
| 股票智能分析 | 11 | 72.7% | 0 |
| 蓝莓洞察部署 | 10 | 90.0% | 0 |
有规则的 Dun (规则数 ≥ 2) 平均成功率 96.3%, 无规则的 Dun 平均 82.0%。
12.7 Memory 系统综合评估
| 组件 | 健康度 | 碱基层面影响 |
|---|---|---|
| searchMemory | 较差 | 77% 空跑产生无效 X 步骤 |
| Gene Pool (repair) | 良好 | 支撑 Reflexion 恢复段, 1488 次使用 |
| Gene Pool (capability/artifact) | 差 | 完全闲置 |
| Capsules | 中等 | 为 repair 基因提供错误-修复映射 |
| Soul Amendments | 良好 | 强化 X>E>P 的碱基偏好, 909 次命中 |
附录: 数据与方法
数据来源
exec_traces/2026-03.jsonl(199 条) +2026-04.jsonl(148 条)- 每行一个 JSON 对象, 包含
baseSequence,baseDistribution,success,duration,tools等字段 - 总量: 347 条有效执行追踪记录
碱基编码规则
- E (Execute): 执行类操作 (runCmd, writeFile, appendFile 等)
- X (Explore): 探索类操作 (readFile, listDir, webSearch 等)
- P (Plan): 规划类操作 (任务分解、策略选择、Reflexion 反思)
- V (Verify): 验证类操作 (执行后的结果校验)
分析方法
- n-gram 提取: 对每条记录的 baseSequence 提取 2-gram 和 3-gram
- 转移矩阵: 统计所有相邻碱基对的转移频次, 归一化为概率
- 相关性分析: Point-biserial correlation (二分类变量与连续变量)
- 显著性: * p<0.05, ** p<0.01, *** p<0.001, ns 不显著
可复现性
所有数据均由以下脚本直接从 JSONL 源文件计算:
reanalysis.py- 核心碱基分析 (图1-7)reanalysis_supplement.py- 干预效果 + 技能分析 (图8-10)reanalysis_memory.py- 记忆系统分析 (图11)reanalysis_governor.py- 守护规则效果分析 (图12)
报告生成: 2026-04-03 | 数据: 347 条 JSONL 执行追踪