メインコンテンツへスキップ

9.8.1 Evaluation and Safety ロードマップ:Score、Guard、Trace

Agent は動くだけでは不十分です。成功したか、process は安全だったか、failure がどこで起きたかを知る必要があります。

まず guardrail stack を見る

Agent guardrails layer diagram

Agent evaluation and safety 章の学習フロー

Agent risk debugging closed loop diagram

Evaluation は system が有効かを示します。Safety は system が何をしてよいかを決めます。Observability はどこで壊れたかを示します。

Launch scorecard check を動かす

final output と execution process の両方を評価します。

run = {
"task_success": True,
"tool_error": False,
"permission_confirmed": True,
"trace_saved": True,
"cost_usd": 0.08,
}

launch_ok = (
run["task_success"]
and not run["tool_error"]
and run["permission_confirmed"]
and run["trace_saved"]
and run["cost_usd"] < 0.10
)

print("launch_ok:", launch_ok)
print("scorecard:", "task, tools, safety, trace, cost")

出力:

launch_ok: True
scorecard: task, tools, safety, trace, cost

滑らかな final answer だけでは十分な evidence ではありません。replayable tasks と process traces を残します。

この順番で学ぶ

手順読む内容実践アウトプット
1Evaluation methodsresult evaluation と process evaluation を分ける
2Benchmarkspublic benchmarks は reference として使い、product replacement にしない
3Safety and alignmentprompt injection、over-permission、leakage、hallucination を識別する
4Guardrailsinput filter、output validation、permissions、human confirmation を追加する
5Observabilitylogs、traces、errors、latency、cost、failure reason を保存する

合格ライン

すべての Agent run を、goal、plan、tool calls、observations、final answer、safety rule、cost、failure reason からレビューできれば、この章は合格です。

出口ミニプロジェクトは、10〜20 task の evaluation set と、少なくとも 3 つの safety rules です。