AI教程 2026/05/14 8 分钟

AI Agent 从 Demo 到 Production 的 5 道鸿沟：超时重试/幂等性/限流降级/审计日志/人工介入

拆解 5 个生产级 Agent 必备但教程中常被忽略的工程能力，给出完整中间件方案和 4 个真实故障复盘。

AinoCode 编辑部

AI Agent 从 Demo 到 Production 的 5 道鸿沟：超时重试/幂等性/限流降级/审计日志/人工介入

每个 AI Agent 教程都教你怎么做 Tool Calling、怎么做 RAG、怎么做 Multi-Agent 编排。

但没有一个教程教你：当 LLM API 超时了怎么办？当 Agent 重复调用同一个 API 导致重复扣款怎么办？当并发请求把 LLM 的 rate limit 打满了怎么办？

因为 Demo 跑在 Jupyter Notebook 里，这些场景永远不会出现。但在生产环境，这些才是让 Agent 真正可用的核心工程能力。

本文拆解 5 个从 Demo 到 Production 必跨的鸿沟，每个都给出完整的中间件方案和真实故障复盘。

鸿沟一：超时重试——LLM 不是本地函数

Demo 里的写法

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[...],
)

这一行代码在 99% 的教程里直接写完就往下走了。

生产环境的问题

故障类型	发生率（我们实测）	影响
LLM API 超时（> 60s）	0.3%	请求挂起，后续 pipeline 全部阻塞
LLM API 5xx 错误	0.1%	直接抛异常，pipeline 中断
429 Rate Limit	2-5%（高峰时段）	请求被拒，用户看到错误
网络连接中断	0.05%	TCP 连接 reset

每天 10000 次调用，意味着：

30 次超时
10 次 5xx 错误
200-500 次 rate limit

这不是”偶尔发生”，是”每小时必然发生”。

生产级方案：带退避的重试中间件

import asyncio
import time
from functools import wraps
from typing import Callable, Any

class RetryConfig:
    max_retries: int = 3
    base_delay: float = 1.0    # 秒
    max_delay: float = 60.0    # 秒
    exponential_base: float = 2.0
    retryable_status: set = {429, 500, 502, 503, 504}
    timeout: float = 60.0      # 单次请求超时

async def call_with_retry(
    fn: Callable,
    config: RetryConfig = RetryConfig(),
    on_retry: Callable = None  # 回调：重试时记录日志
) -> Any:
    """
    带指数退避的异步重试。
    处理：超时、5xx、429 rate limit。
    """
    last_exception = None
    
    for attempt in range(config.max_retries + 1):
        try:
            start = time.time()
            result = await asyncio.wait_for(
                fn(),
                timeout=config.timeout
            )
            if attempt > 0:
                print(f"✅ Succeeded on attempt {attempt + 1} "
                      f"(took {time.time() - start:.1f}s)")
            return result
            
        except asyncio.TimeoutError as e:
            last_exception = e
            print(f"⏱️ Timeout on attempt {attempt + 1}")
            
        except Exception as e:
            status = getattr(e, 'status_code', None)
            if status not in config.retryable_status:
                raise  # 非可重试错误，直接抛出
            last_exception = e
            print(f"❌ HTTP {status} on attempt {attempt + 1}")
        
        if attempt < config.max_retries:
            # 指数退避 + 抖动
            delay = min(
                config.base_delay * (config.exponential_base ** attempt),
                config.max_delay
            )
            # 抖动：避免 thundering herd
            import random
            delay = delay * (0.5 + random.random() * 0.5)
            
            if on_retry:
                on_retry(attempt + 1, delay, last_exception)
            
            await asyncio.sleep(delay)
    
    raise last_exception

关键设计决策

1. 为什么最大重试 3 次而不是更多？

因为 LLM 调用很慢。一次 GPT-4o 调用平均 1.2 秒，重试 3 次就是 3.6 秒。加上退避延迟（1s + 2s + 4s = 7s），总延迟 10.6 秒。再重试下去用户体验就崩了。

2. 为什么加抖动（jitter）？

如果 100 个 Agent 同时遇到 429，它们会在同一时刻重试，再次触发 429——这就是 thundering herd 问题。抖动把重试时间打散，避免二次雪崩。

3. 什么错误不该重试？

400 Bad Request：prompt 格式有问题，重试 100 次也一样
401 Unauthorized：API key 失效，需要人工介入
Content Filter 拦截：内容违规，重试无意义

故障复盘 #1：超时导致连锁阻塞

场景：客服 Agent 高峰期每分钟 200 次 LLM 调用。

故障：某天 OpenAI API 响应时间从平均 1.2s 飙升到 15s（但未超时）。每个请求等了 15 秒才返回，导致 Agent 的 worker 线程池全部耗尽。新用户排队 10 分钟。

根因：我们的超时设置是 60 秒，15 秒虽然没超时但已经远超正常值。超时不是唯一的失败标准——慢响应同样是故障。

修复：

# 加一个 circuit breaker：连续慢响应达到阈值，自动切换到备用模型
class CircuitBreaker:
    def __init__(self, slow_threshold: float = 5.0, 
                 consecutive_failures: int = 5):
        self.slow_threshold = slow_threshold
        self.consecutive_failures = consecutive_failures
        self.failure_count = 0
        self.state = "closed"  # closed → open → half-open
    
    def record(self, latency: float):
        if latency > self.slow_threshold:
            self.failure_count += 1
            if self.failure_count >= self.consecutive_failures:
                self.state = "open"  # 切换到备用模型
        else:
            self.failure_count = 0
            if self.state == "half-open":
                self.state = "closed"

鸿沟二：幂等性——Agent 不能重复扣款

Demo 里的幻觉

教程里的 Agent 每次运行都像第一次：调用工具、得到结果、返回。

但生产环境里：

用户: "帮我订一张明天北京到上海的机票"
Agent: [调用 booking API] → 超时 → 自动重试
Agent: [调用 booking API] → 成功

如果 booking API 不是幂等的，用户就被订了两张票。

什么是幂等性

幂等操作：无论执行多少次，结果和执行一次一样。

操作类型	天然幂等？	示例
读操作	✅ 是	GET /api/users/1
幂等写操作	✅ 是	PUT /api/orders/{id}（更新）
非幂等写操作	❌ 否	POST /api/orders（创建）

LLM 的 Tool Calling 默认是非幂等的——每次调用工具函数都是一次新的执行。

生产级方案：幂等性中间件

import hashlib
import json
from datetime import datetime, timedelta
from typing import Any

class IdempotencyManager:
    """
    基于请求指纹的幂等性管理。
    相同的请求在时间窗口内只执行一次，后续请求返回缓存结果。
    """
    def __init__(self, ttl_seconds: int = 3600, max_cache: int = 10000):
        self.ttl = timedelta(seconds=ttl_seconds)
        self.cache: dict[str, tuple[Any, datetime]] = {}
        self.max_cache = max_cache
    
    def _fingerprint(self, tool_name: str, arguments: dict) -> str:
        """生成请求指纹"""
        raw = json.dumps({
            "tool": tool_name,
            "args": arguments
        }, sort_keys=True)
        return hashlib.sha256(raw.encode()).hexdigest()[:16]
    
    async def execute(
        self, 
        tool_name: str, 
        arguments: dict, 
        fn: Callable
    ) -> Any:
        fp = self._fingerprint(tool_name, arguments)
        
        # 检查缓存
        if fp in self.cache:
            result, timestamp = self.cache[fp]
            if datetime.now() - timestamp < self.ttl:
                print(f"⏩ Idempotent hit: {tool_name} ({fp})")
                return result
            else:
                del self.cache[fp]  # 过期，删除
        
        # 执行
        result = await fn()
        
        # 缓存（LRU 淘汰）
        if len(self.cache) >= self.max_cache:
            oldest = min(self.cache, key=lambda k: self.cache[k][1])
            del self.cache[oldest]
        self.cache[fp] = (result, datetime.now())
        
        return result

配合使用

# Agent 调用工具时
idempotency = IdempotencyManager(ttl_seconds=3600)

async def agent_tool_call(tool_name: str, arguments: dict):
    tool_fn = get_tool_function(tool_name)
    
    return await idempotency.execute(
        tool_name=tool_name,
        arguments=arguments,
        fn=lambda: call_with_retry(lambda: tool_fn(**arguments))
    )

踩坑记录

LLM 的非确定性是幂等性的敌人。即使相同的 prompt，LLM 可能输出不同的 tool call 参数。解决方案：对 tool call 参数做归一化（如时间格式统一为 ISO 8601）。
TTL 设置需要权衡。太短（5 分钟）→ 重试间隔超过 TTL 时重复执行；太长（24 小时）→ 缓存占用大量内存，且可能返回过期数据。我们选 1 小时。
分布式环境需要外部存储。上面的内存缓存在多实例部署下不生效。生产环境用 Redis：SET key value EX 3600 NX（NX 保证只写入一次）。

故障复盘 #2：重复发送邮件

场景：通知 Agent 负责给用户发订单确认邮件。

故障：LLM 超时重试触发了 3 次邮件发送。用户收到 3 封一模一样的确认邮件，开始怀疑被诈骗。

根因：邮件发送 API（SendGrid）不是幂等的——每次 POST 都发一封新邮件。我们只在 LLM 调用层做了重试，没有在工具调用层做幂等。

修复：在 SendGrid 调用层加幂等中间件，以 order_id + email_address + template_id 作为指纹。相同订单在 1 小时内不会重复发送。

鸿沟三：限流降级——Rate Limit 不是错误，是常态

现实

Provider	Rate Limit	我们高峰 QPS	超限频率
OpenAI GPT-4o	500 RPM / 10,000 TPM	300-800 RPM	每天 10-30 次
Claude Sonnet	50,000 TPM	20,000-60,000 TPM	每天 5-15 次
Embedding API	3,000 RPM	500-2,000 RPM	极少

429 不是异常，是生产环境的日常状态。 如果你的 Agent 遇到 429 就报错，那它还没准备好上线。

生产级方案：Token Bucket + 降级策略

import asyncio
import time

class TokenBucket:
    """
    本地 token bucket 限流器。
    防止自己的请求打满 provider 的 rate limit。
    """
    def __init__(self, rate: float, capacity: int):
        self.rate = rate           # tokens per second
        self.capacity = capacity   # max burst
        self.tokens = capacity
        self.last_refill = time.time()
        self._lock = asyncio.Lock()
    
    async def acquire(self, tokens: int = 1) -> bool:
        async with self._lock:
            now = time.time()
            elapsed = now - self.last_refill
            self.tokens = min(
                self.capacity,
                self.tokens + elapsed * self.rate
            )
            self.last_refill = now
            
            if self.tokens >= tokens:
                self.tokens -= tokens
                return True
            return False
    
    async def wait_and_acquire(self, tokens: int = 1):
        while not await self.acquire(tokens):
            await asyncio.sleep(1.0 / self.rate)

class AgentRateLimiter:
    """
    Agent 级别的限流 + 降级管理器。
    """
    def __init__(self):
        self.buckets = {
            "gpt-4o": TokenBucket(rate=8.0, capacity=50),    # 500 RPM
            "gpt-4o-mini": TokenBucket(rate=25.0, capacity=100),
            "embedding": TokenBucket(rate=50.0, capacity=200),
        }
        self.fallback_map = {
            "gpt-4o": ["claude-sonnet-4", "gpt-4o-mini"],
            "claude-sonnet-4": ["gpt-4o"],
        }
    
    async def execute_with_fallback(self, model: str, fn: Callable):
        """尝试主模型，限流时自动降级"""
        bucket = self.buckets.get(model)
        
        if bucket and await bucket.acquire():
            try:
                return await fn()
            except RateLimitError:
                pass  # 继续走降级路径
        
        # 降级到备用模型
        for fallback in self.fallback_map.get(model, []):
            fb_bucket = self.buckets.get(fallback)
            if fb_bucket and await fb_bucket.acquire():
                print(f"⚠️ Fallback from {model} to {fallback}")
                try:
                    return await fn(model=fallback)
                except RateLimitError:
                    continue
        
        # 所有模型都被限流
        raise RuntimeError("All models rate limited")

降级策略的优先级

主模型 GPT-4o 被限流
    ↓
降级到 Claude Sonnet 4（同等质量，不同 provider）
    ↓
降级到 GPT-4o-mini（较低质量，但大概率不限流）
    ↓
降级到本地 Qwen3-32B（最低成本，质量可接受）
    ↓
返回缓存结果（如果有）
    ↓
返回友好错误："当前系统繁忙，请稍后重试"

故障复盘 #3：Rate Limit 雪崩

场景：Agent 系统有 50 个并发的 tool call，每个都可能触发 LLM 调用。

故障：某天高峰时段，OpenAI 返回 429。50 个并发请求全部重试（指数退避），2 秒后同时重试 → 再次 429 → 再次重试 → 4 秒后 → 再次 429。形成了 retries amplification loop，原本 50 RPM 的请求量被放大到 800 RPM。

根因：重试逻辑和限流逻辑是独立的。重试说”遇到 429 就等一会再试”，限流说”控制发送速率”，但两者没协同——重试的等待时间和限流器的 refill 速率不匹配。

修复：

# 重试和限流协同：重试前先问限流器能不能发
async def coordinated_call(fn, model):
    for attempt in range(3):
        if not await rate_limiter.buckets[model].wait_and_acquire():
            continue  # 限流器会阻塞直到有 token
        try:
            return await fn()
        except RateLimitError:
            # 收到 429：说明限流器估算不准，收紧速率
            rate_limiter.buckets[model].rate *= 0.8
            continue

鸿沟四：审计日志——出了事你得知道为什么

Demo 里不需要的东西

Demo 里 Agent 执行完就完了。生产环境里，用户来问：“你的 Agent 昨天为什么给我的客户报了错误的价格？”

你需要回答：

当时 LLM 输出了什么？
调用了哪些工具？参数是什么？
每一步的延迟和成本是多少？
有没有重试？重试了几次？
最终结果和预期差在哪里？

没有审计日志，你在生产环境就是瞎子。

生产级方案：结构化审计日志

import json
import uuid
import time
from dataclasses import dataclass, field, asdict
from typing import Any
from datetime import datetime

@dataclass
class ToolCallRecord:
    tool_name: str
    arguments: dict
    result: Any
    success: bool
    duration_ms: int
    attempt: int
    idempotent_hit: bool = False

@dataclass
class LLMCallRecord:
    model: str
    prompt_tokens: int
    completion_tokens: int
    duration_ms: int
    cost_usd: float
    temperature: float
    finish_reason: str
    attempt: int

@dataclass
class AgentExecutionLog:
    trace_id: str = field(default_factory=lambda: str(uuid.uuid4())[:12])
    user_id: str = ""
    start_time: str = field(default_factory=lambda: datetime.utcnow().isoformat())
    end_time: str = ""
    user_input: str = ""
    final_output: str = ""
    llm_calls: list = field(default_factory=list)
    tool_calls: list = field(default_factory=list)
    total_cost_usd: float = 0.0
    total_duration_ms: int = 0
    error: str = ""
    human_intervened: bool = False
    
    def add_llm_call(self, record: LLMCallRecord):
        self.llm_calls.append(asdict(record))
        self.total_cost_usd += record.cost_usd
    
    def add_tool_call(self, record: ToolCallRecord):
        self.tool_calls.append(asdict(record))
    
    def finalize(self, output: str):
        self.end_time = datetime.utcnow().isoformat()
        self.final_output = output
        self.total_duration_ms = int(
            (datetime.fromisoformat(self.end_time) - 
             datetime.fromisoformat(self.start_time)).total_seconds() * 1000
        )
    
    def to_json(self) -> str:
        return json.dumps(asdict(self), ensure_ascii=False)

日志存储方案

import logging
from pathlib import Path

class AuditLogger:
    def __init__(self, storage_dir: str = "logs/agent-audit"):
        self.storage = Path(storage_dir)
        self.storage.mkdir(parents=True, exist_ok=True)
    
    def save(self, log: AgentExecutionLog):
        # 按日期分目录
        date_dir = self.storage / datetime.utcnow().strftime("%Y-%m-%d")
        date_dir.mkdir(exist_ok=True)
        
        # 一个 trace 一个文件
        filepath = date_dir / f"{log.trace_id}.json"
        with open(filepath, 'w', encoding='utf-8') as f:
            f.write(log.to_json())
        
        # 同时写到集中式日志（用于监控告警）
        summary = {
            "trace_id": log.trace_id,
            "user_id": log.user_id,
            "duration_ms": log.total_duration_ms,
            "cost_usd": log.total_cost_usd,
            "llm_calls": len(log.llm_calls),
            "tool_calls": len(log.tool_calls),
            "error": log.error,
        }
        logging.info(f"AUDIT: {json.dumps(summary)}")

日志能回答的典型问题

# 查某个用户今天所有 Agent 执行记录
find logs/agent-audit/2026-05-14/ -name "*.json" -exec \
  grep -l '"user_id": "user_123"' {} \;

# 查今天所有失败的执行
find logs/agent-audit/2026-05-14/ -name "*.json" -exec \
  grep -l '"error":' {} \; | wc -l

# 查平均延迟超过 5 秒的执行
jq -r 'select(.total_duration_ms > 5000) | .trace_id' \
  logs/agent-audit/2026-05-14/*.json

故障复盘 #4：价格错误无法追溯

场景：电商 Agent 给用户报了一个错误的价格（$999 应该是 $99）。

问题：我们没有任何日志记录 Agent 当时的决策过程。无法回答：

LLM 是怎么理解的？
价格是从哪个 API 拿到的？
是 LLM 幻觉还是 API 返回了错误数据？

排查花了 3 天：检查了产品数据库、价格 API 日志、LLM 调用记录（幸好 OpenAI 控制台有 24 小时记录），最后发现是产品描述中有一个”$999”的参考竞品价格，LLM 把竞品价格当成了商品价格。

如果当时有审计日志，30 秒就能定位。

教训：审计日志不是”出了问题再补”的东西，是上线第一天就该有的基础设施。

鸿沟五：人工介入——Agent 不是全自动的

什么时候需要人

场景	自动处理	人工介入
用户咨询常规问题	✅	❌
用户投诉/愤怒情绪	❌	✅
金额 > $100 的退款	❌	✅
Agent 连续 3 次失败	❌	✅
LLM 置信度低于阈值	❌	✅（可选）
涉及法律/合规判断	❌	✅

生产级方案：Human-in-the-Loop 中间件

from enum import Enum
from dataclasses import dataclass
from typing import Callable, Optional

class ConfidenceLevel(Enum):
    HIGH = "high"       # 直接执行
    MEDIUM = "medium"   # 执行但通知人类
    LOW = "low"         # 需要人类审批
    BLOCKED = "blocked" # 禁止自动执行

@dataclass
class HumanIntervention:
    required: bool
    reason: str
    context: dict
    timeout_seconds: int = 300  # 人类响应超时

class HumanInTheLoop:
    """
    人工介入管理器。
    决定哪些 Agent 决策需要人类审批。
    """
    def __init__(
        self,
        confidence_threshold: float = 0.8,
        rules: list[dict] = None
    ):
        self.confidence_threshold = confidence_threshold
        self.rules = rules or self._default_rules()
        self.pending_approvals: dict[str, HumanIntervention] = {}
    
    def _default_rules(self) -> list[dict]:
        return [
            {"type": "amount_check", "field": "refund_amount", 
             "condition": lambda x: x > 100, 
             "reason": "退款金额超过 $100，需人工审批"},
            {"type": "sentiment_check", "field": "user_sentiment",
             "condition": lambda x: x == "angry",
             "reason": "用户情绪激动，转人工客服"},
            {"type": "failure_count", "field": "retry_count",
             "condition": lambda x: x >= 3,
             "reason": "Agent 连续失败 3 次，需人工介入"},
            {"type": "legal_check", "field": "involves_legal",
             "condition": lambda x: x is True,
             "reason": "涉及法律合规，需人工审批"},
        ]
    
    def evaluate(
        self, 
        action: str, 
        context: dict, 
        confidence: float
    ) -> HumanIntervention:
        """评估是否需要人工介入"""
        
        # 低置信度自动拦截
        if confidence < self.confidence_threshold:
            return HumanIntervention(
                required=True,
                reason=f"置信度 {confidence:.2f} 低于阈值 {self.confidence_threshold}",
                context=context
            )
        
        # 规则匹配
        for rule in self.rules:
            field = rule["field"]
            if field in context and rule["condition"](context[field]):
                return HumanIntervention(
                    required=True,
                    reason=rule["reason"],
                    context=context
                )
        
        return HumanIntervention(required=False, reason="", context={})

集成到 Agent 执行流程

async def agent_with_human_in_the_loop(
    user_input: str,
    agent_fn: Callable,
    hitl: HumanInTheLoop
) -> str:
    # 1. Agent 生成决策
    decision = await agent_fn(user_input)
    
    # 2. 评估是否需要人工介入
    intervention = hitl.evaluate(
        action=decision["action"],
        context=decision["context"],
        confidence=decision.get("confidence", 1.0)
    )
    
    if intervention.required:
        # 3. 挂起，等待人类审批
        approval_id = str(uuid.uuid4())[:8]
        hitl.pending_approvals[approval_id] = intervention
        
        # 通知人类（Slack/邮件/工单系统）
        await notify_human(
            f"🚨 Agent 决策需要审批 [{approval_id}]\n"
            f"原因: {intervention.reason}\n"
            f"决策: {decision['action']}"
        )
        
        # 等待审批（带超时）
        approved = await wait_for_approval(approval_id, timeout=300)
        
        if not approved:
            return "您的请求已转人工处理，我们将在 24 小时内回复。"
        
        # 4. 审批通过，继续执行
        return await execute_decision(decision)
    
    # 5. 无需人工介入，直接执行
    return await execute_decision(decision)

设计要点

人工介入不等于”全量审批”。大多数决策（80%+）应该是自动的。人工介入只覆盖高风险场景。
超时必须处理。人类可能 5 分钟不响应，也可能 2 小时不响应。超时后要有 fallback（通常是返回”已转人工”的友好消息）。
审批流程要简化。给人类的信息必须包含：上下文、Agent 的决策、建议操作、一键批准/拒绝按钮。不要让审批人去做 Agent 该做的工作。

总结：生产级 Agent 的完整架构

把上面 5 道鸿沟的中间件组合起来，就是一个生产级 Agent 的完整架构：

┌────────────────────────────────────────────────────┐
│                    User Request                     │
└──────────────────┬─────────────────────────────────┘
                   │
                   ▼
┌───────────────────────────────────────────────────┐
│  Layer 1: Rate Limiter (Token Bucket)              │
│  - 控制发送到 LLM 的速率                            │
│  - 触发降级策略（主模型→备用模型→本地模型）          │
└──────────────────┬────────────────────────────────┘
                   │
                   ▼
┌───────────────────────────────────────────────────┐
│  Layer 2: Retry + Circuit Breaker                   │
│  - 超时/5xx/429 自动重试（指数退避 + 抖动）          │
│  - 连续慢响应触发熔断，切换备用方案                  │
└──────────────────┬────────────────────────────────┘
                   │
                   ▼
┌───────────────────────────────────────────────────┐
│  Layer 3: LLM Call                                 │
│  - 结构化输出（JSON Schema / Guided Generation）    │
│  - 温度=0，确定性输出                               │
└──────────────────┬────────────────────────────────┘
                   │
                   ▼
┌───────────────────────────────────────────────────┐
│  Layer 4: Idempotency Manager                       │
│  - 工具调用去重                                     │
│  - 相同请求时间窗口内只执行一次                      │
└──────────────────┬────────────────────────────────┘
                   │
                   ▼
┌───────────────────────────────────────────────────┐
│  Layer 5: Human-in-the-Loop                        │
│  - 置信度评估                                       │
│  - 规则匹配（金额/情绪/合规/失败次数）               │
│  - 审批流程 + 超时处理                              │
└──────────────────┬────────────────────────────────┘
                   │
                   ▼
┌───────────────────────────────────────────────────┐
│  Layer 6: Audit Logger                             │
│  - 全链路 trace                                    │
│  - 结构化日志存储                                  │
│  - 监控告警                                        │
└───────────────────────────────────────────────────┘

关键认知：

Demo 和 Production 的差距不在 AI 能力，在工程能力。LLM 的输出质量只决定了 Agent 的上限，而这些中间件决定了 Agent 的下限。
每一层都是独立的可测试组件。Retry 可以单元测试，限流可以压力测试，幂等可以并发测试。不要把它们耦合在 Agent 业务逻辑里。
故障复盘是最有价值的学习来源。我们记录的 4 个真实故障，每一个都催生了一个新的中间件或改进了现有设计。
人工介入不是承认失败，是风险管理的必要手段。即使 Agent 的置信度达到 99%，剩下 1% 的场景也可能是灾难性的（大额转账、法律判断）。

本文的中间件代码模板和故障复盘文档已开源，详见 GitHub 仓库。

#AI Agent #生产环境 #可靠性工程 #超时重试 #幂等性 #限流降级 #审计日志 #人工介入