AbleFlow

01

WHY NOW

当共享进程无法保障隔离、冷启动拖垮体验、资源浪费成为常态——是时候重新设计工作区架构了。

01

隔离不够，风险翻倍

共享进程无法阻止用户间数据泄露。一个用户的异常可能拖垮所有人的体验。

02

冷启动吞噬体验

每次登录都等容器拉起？Warm Pool 让大多数请求在毫秒级就位。

03

资源不是无限的

50 个用户常态不会同时活跃。动态编排让有限资源服务最大并发。

02

ARCHITECTURE

三层分离，各司其职。共享控制平面处理路由和调度，每用户独立容器保障执行隔离，统一数据平面管理状态与审计。

CONTROL

控制平面

Gateway / API 统一入口与鉴权
Orchestrator 容器生命周期管理
Session Manager 会话映射
MCP Registry 工具权限策略
Billing / Metering 调用计量

RUNTIME

执行平面

每用户独立 Runtime 容器
隔离的运行时进程与工作目录
独立临时缓存空间
运行时注入的租户凭据
资源硬限制 (CPU / MEM / PIDs)

DATA

数据平面

PostgreSQL 元数据与策略存储
Redis 调度状态与限流
本地卷存储日志与产物
Prometheus + Loki + Grafana
租户数据目录严格隔离

部署模式选择

当前阶段采用模式 A：每用户完整容器——隔离简单、排障直观、改造最小。

模式	隔离方式	适用规模	状态
A 每用户容器	进程 + 文件系统	50 用户	当前采用
B 共享 Runtime	逻辑隔离	200+ 用户	中期演进
C 微 VM	硬件级隔离	企业级	远期目标

03

CAPACITY

256 GB 内存，绰绰有余。按常态 20-30 在线、峰值 40+ 用户估算，系统始终保留充足缓冲区。

0.75

CPU / Container

2G

MEM / Container

384

PID Limit

20m

Idle Reclaim

资源分区	CPU	内存
控制平面固定预留	`8~12 vCPU`	`24~32 GB`
执行平面总预算	`70~80 vCPU`	`160~190 GB`
系统缓冲区	`10~15 vCPU`	`30~40 GB`

安全阈值

CPU 利用率

主机平均 < 65%，确保调度余量

内存水位

常态 < 75%，峰值 < 85%，Swap 上升即告警

04

ORCHESTRATION

需要时启动，空闲时回收。容器生命周期由状态机驱动，每个阶段都有明确的触发条件和资源策略。

CREATED→ WARM→ ACTIVE→ IDLE→ STOPPED→ GC

DISPATCH

调度规则

请求到达，查找已有 ACTIVE 或 WARM 容器
命中则复用，未命中从 Warm Pool 分配
Pool 耗尽则新建容器 (受全局限额控制)
请求结束更新活跃时间戳
空闲超 15~30 分钟自动停止
夜间低峰批量回收

WARM POOL

预热策略

白天常驻 6 个预热实例
夜间降至 2 个
工作日 9:00 / 14:00 自动预热
按历史流量动态调整池大小
冷启动 P95 目标 < 5 秒

05

SECURITY

隔离是底线，不是选项。每一层都执行最小权限原则，确保租户间零干扰。

容器硬化

read-only rootfs, cap_drop: ALL, no-new-privileges, seccomp/apparmor 默认策略。

网络管控

执行容器不开放公网端口，MCP 出站走域名白名单，网关层限速限大小。

MCP 凭据管理

按租户动态挂载，每次会话签发短期 Token，MCP schema 校验 + 参数约束。

审计与脱敏

全链路审计日志，自动脱敏 token 与 key，关键操作保留 90~180 天。

风险应对

风险	应对策略
内存抖动 / 爆内存	严格 mem limit + OOM 告警 + Warm Pool 限流
冷启动高延迟	预热池 + 热门租户常驻 + 镜像瘦身
MCP 凭据泄露	短期 token + 脱敏日志 + 不落盘
容器逃逸	seccomp/apparmor + 网络隔离 + 最小权限
升级事故	灰度发布 + 快速回滚 + 多版本并存

06

ROADMAP

六周上线，三阶段演进。每一周都有明确交付物，之后持续演进到 K8s 和微 VM。

MVP / Week 1-2

基座与编排

搭建 Control Plane Compose
接入 PostgreSQL / Redis
Nginx 入口 + TLS
容器创建 / 复用 / 回收 API
Tenant → Container 映射
Idle Timeout 自动停止

V1 / Week 3-4

策略与监控

租户级 MCP 动态配置
工具白名单 + Schema 校验
审计日志落盘
Prometheus / Grafana / Loki
30~50 用户压力测试
Warm Pool 参数调优

V2 / Week 5-6

灰度与上线

5% → 20% → 50% → 100% 灰度
故障演练与回滚验证
Runbook 完善
备份策略落地
镜像版本化发布流水线
运维面板上线

长期演进

CURRENT

单机 + Docker

每用户容器 / Compose 编排

MID-TERM

K8s 调度层

任务级执行单元 / 弹性扩缩

LONG-TERM

微 VM / 多可用区

Firecracker / 策略引擎 / 计费