Agentic AI 基础设施蓝图(整体分层架构)

自下而上:1️⃣ 算力与硬件 → 2️⃣ AI 基础设施与推理 → 3️⃣ 应用开发 → 4️⃣ 上层应用;右侧 5️⃣ 为跨层能力(贯穿整栈)。

4️⃣ 上层应用与 Agentic AI(Application & Agentic AI Layer)
企业服务场景
  • 企业知识助手:文档问答、政策解读
  • 智能客服:多轮对话、工单处理
  • 运维SRE助手:故障诊断、自动化运维
  • 合规审查:文档审核、风险识别
创作与分析场景
  • 代码Copilot:代码生成、调试、重构
  • 办公助手:PPT生成、邮件撰写
  • 数据分析师:SQL生成、报表解读
  • 营销文案:广告创意、社媒内容
行业垂直场景
  • 金融:投研分析、风控建模、智能投顾
  • 医疗:病历分析、诊断辅助、药物研发
  • 法律:合同审查、案例检索、法规咨询
  • 教育:个性学习、作业批改、课程设计
3️⃣ AI 应用开发层(AI Application Development Layer)
Agent & 应用框架
  • LangChain
  • LlamaIndex
  • Semantic Kernel
  • AutoGen
  • Flowise/Dify
RAG & 数据基座
  • 向量库:Milvus/Weaviate/Qdrant/Vespa
  • 检索:Elastic/OpenSearch
  • 特征/文档治理、索引构建工作流
🔌 F5 MCP网关(Model Context Protocol)
MCP Servers远程代理 · MCP Servers负载均衡 · MCP协议深度识别与控制 · oAuth认证与权限
🌐 F5 AI Gateway(LLM大模型网关)
模型路由与负载均衡 · 模型路由策略 · 模型回退与重试 · Prompt安全 · 有害问题分类 · 企业数据安全 · JWT认证 · Prompt可视化与tokens统计
2️⃣ AI 基础设施层(AI Infrastructure & Training/Inference)
🚦 F5 LLM Inference Gateway(多推理集群/节点负载感知调度)
统一推理入口 · 推理负载感知 · 智能负载均衡 · GPU压力优化 · 多活推理服务智能调度 · 高压力节点自动隐藏
K8s 训推一体集群 A
🌐 Ingress/Gateway API(NGINX IngressController / NGINX Gateway Fabric)
L7 route / 熔断重试 / 金丝雀 / 可观测
⚡ F5 BNK(基于DPU卡)
基于DPU卸载的高性能K8s 入口
推理引擎
  • vLLM(PagedAttention/连续批处理)
  • TensorRT‑LLM / TGI / Ray Serve
训练框架
  • PyTorch / TensorFlow / JAX / DeepSpeed
  • FSDP/ZeRO/Megatron-LM/MoE 并行
分布式训练 & 推理调度
  • 训练:DDP/FSDP/DeepSpeed/Megatron‑LM
  • 推理:batching/KV/弹性/多模型路由
资源与工作流(控制面)
  • GPU Operator/Device Plugin(MIG/MPS)
  • Volcano/Kueue(gang/coscheduling)
  • Argo/KFP/MLflow/Model Registry
Kubernetes 编排
  • 节点特性/NFD/Topology Manager
  • CNI(Calico/Cilium)· CSI · HPA/VPA
K8s训推一体集群 B
🌐 Ingress/Gateway API(NGINX IngressController / NGINX Gateway Fabric)
L7 route / 熔断重试 / 金丝雀 / 可观测
⚡ F5 BNK(基于DPU卡)
基于DPU卸载的高性能K8s 入口
推理引擎
  • vLLM(PagedAttention/连续批处理)
  • TensorRT‑LLM / TGI / Ray Serve
训练框架
  • PyTorch / TensorFlow / JAX / DeepSpeed
  • FSDP/ZeRO/Megatron-LM/MoE 并行
分布式训练 & 推理调度
  • 训练:DDP/FSDP/DeepSpeed/Megatron‑LM
  • 推理:batching/KV/弹性/多模型路由
资源与工作流(控制面)
  • GPU Operator/Device Plugin(MIG/MPS)
  • Volcano/Kueue(gang/coscheduling)
  • Argo/KFP/MLflow/Model Registry
Kubernetes 编排
  • 节点特性/NFD/Topology Manager
  • CNI(Calico/Cilium)· CSI · HPA/VPA
1️⃣ 算力与硬件基础层(Compute & Hardware Layer)
加速与计算
  • GPU:NVIDIA H100/A100、AMD MI300、Intel Gaudi
  • TPU v5e/v5p、CPU(x86/ARM Neoverse)
  • HBM/DDR、NUMA/PCIe 拓扑
网络与存储
  • 互联:NVLink、InfiniBand/RoCE、100/200/400G
  • 存储:Ceph/BeeGFS/NVMe‑oF、对象存储(S3/MinIO)
  • 遥测:NVIDIA DCGM、IPMI/OpenBMC
路径示意
在线推理:ClientAI AppF5 LLM Gateway(跨集群路由)(某个)K8s 集群 → Mesh → 推理编排/引擎 → GPU
训练交付:Argo/KFP分布式训练(DDP/DeepSpeed)Model Registry/ArtifactF5 金丝雀发布(联动网格/网关策略)