运维与调试设计

shield_ops 是 Shield 的官方可选运维与调试层，不属于 shield_core，也不是最小运行路径。

它的目标不是给游戏业务提供新 API，而是让运行时在不侵入核心语义的前提下，可被观察、诊断、采样和控制。

设计目标

能力	说明
Metrics	计数器、直方图、gauge，用于吞吐、延迟、错误率
Diagnostics	服务列表、actor 数量、pending call、timer、Lua VM 池、连接数
Console	交互式调试控制台，查询、调用、列服务、看状态
Profile	采样式热点分析、消息延迟剖面、慢调用追踪
Health	进程存活、关键模块就绪、资源状态

shield_ops 可以通过以下形态暴露：

text

HTTP debug endpoints
CLI console
local admin socket
internal metrics exporter
sampling profiler

建议端点按能力分开，而不是做成一个大而全的管理 API：

本地 service 不做 per-service heartbeat。其存活与清理由 runtime 的 service stop/exit、registry 注销和 handle 失效流程维护。

IPC / cluster 节点状态由链路 heartbeat 驱动：

text

online -> suspect -> offline -> removed

默认建议：

text

heartbeat_interval = 2s
suspect_after      = 3 missed heartbeats
offline_after      = 5 missed heartbeats
remove_after       = 60s after offline

shield_ops 应暴露：

text

shield_core / modules
  -> internal collectors
  -> shield_ops
  -> console / HTTP / exporter / profile

shield_core 不应该直接依赖 shield_ops。正确方向是：shield_ops 读取、聚合和导出运行时状态，但不反向污染核心语义。

docs/monitoring.md 只描述可观测性结果和指标概念。docs/ops.md 描述的是运维、诊断和 profile 的完整设计层。

换句话说：