多租户 AI 工作区平台 — 容器级隔离、动态编排、按需伸缩。
为每个用户提供独立、安全、即时可用的 AI 运行环境。
当共享进程无法保障隔离、冷启动拖垮体验、资源浪费成为常态——是时候重新设计工作区架构了。
共享进程无法阻止用户间数据泄露。一个用户的异常可能拖垮所有人的体验。
每次登录都等容器拉起?Warm Pool 让大多数请求在毫秒级就位。
50 个用户常态不会同时活跃。动态编排让有限资源服务最大并发。
三层分离,各司其职。共享控制平面处理路由和调度,每用户独立容器保障执行隔离,统一数据平面管理状态与审计。
当前阶段采用模式 A:每用户完整容器——隔离简单、排障直观、改造最小。
| 模式 | 隔离方式 | 适用规模 | 状态 |
|---|---|---|---|
| A 每用户容器 | 进程 + 文件系统 | 50 用户 | 当前采用 |
| B 共享 Runtime | 逻辑隔离 | 200+ 用户 | 中期演进 |
| C 微 VM | 硬件级隔离 | 企业级 | 远期目标 |
256 GB 内存,绰绰有余。按常态 20-30 在线、峰值 40+ 用户估算,系统始终保留充足缓冲区。
| 资源分区 | CPU | 内存 |
|---|---|---|
| 控制平面固定预留 | 8~12 vCPU | 24~32 GB |
| 执行平面总预算 | 70~80 vCPU | 160~190 GB |
| 系统缓冲区 | 10~15 vCPU | 30~40 GB |
主机平均 < 65%,确保调度余量
常态 < 75%,峰值 < 85%,Swap 上升即告警
需要时启动,空闲时回收。容器生命周期由状态机驱动,每个阶段都有明确的触发条件和资源策略。
隔离是底线,不是选项。每一层都执行最小权限原则,确保租户间零干扰。
read-only rootfs, cap_drop: ALL, no-new-privileges, seccomp/apparmor 默认策略。
执行容器不开放公网端口,MCP 出站走域名白名单,网关层限速限大小。
按租户动态挂载,每次会话签发短期 Token,MCP schema 校验 + 参数约束。
全链路审计日志,自动脱敏 token 与 key,关键操作保留 90~180 天。
| 风险 | 应对策略 |
|---|---|
| 内存抖动 / 爆内存 | 严格 mem limit + OOM 告警 + Warm Pool 限流 |
| 冷启动高延迟 | 预热池 + 热门租户常驻 + 镜像瘦身 |
| MCP 凭据泄露 | 短期 token + 脱敏日志 + 不落盘 |
| 容器逃逸 | seccomp/apparmor + 网络隔离 + 最小权限 |
| 升级事故 | 灰度发布 + 快速回滚 + 多版本并存 |
六周上线,三阶段演进。每一周都有明确交付物,之后持续演进到 K8s 和微 VM。
每用户容器 / Compose 编排
任务级执行单元 / 弹性扩缩
Firecracker / 策略引擎 / 计费