186 lines
9.4 KiB
Markdown
186 lines
9.4 KiB
Markdown
# KCP 网络底层调整 TODO
|
||
|
||
## 当前阶段状态
|
||
|
||
- 阶段 1 已完成:`ITransport` 已统一为 `Send` / `SendTo` / `SendToAll` / `OnReceive` / `StartAsync` / `Stop` 这一套稳定接口。
|
||
- 阶段 2 已完成:`KcpTransport` 已落地,`NetworkManager` 默认使用 KCP 作为运行时可靠传输实现,相关编辑器测试已经覆盖默认会话、多远端隔离、广播与停止清理。
|
||
- 阶段 3 已完成:遗留的 `ReliableUdpTransport` 兼容入口已经移除,项目中不再保留第二个“可靠 UDP”实现名义。
|
||
- 阶段 4 已完成:网络线程与 Unity 主线程之间已经建立显式分发边界,传输回调不再直接执行业务 handler。
|
||
- 阶段 5 已完成:共享会话生命周期、心跳职责边界、超时/重连状态已经从业务消息处理里分层出来,并扩展到服务端多会话管理。
|
||
- 阶段 6 已完成:高频同步已经拆分为显式 delivery policy / sync lane / latest-wins sequencing / 独立 clock sync 状态,相关编辑器测试已经覆盖路由、过期包丢弃、预测缓冲修剪与多会话隔离。
|
||
- 阶段 7 已开始但未完成:传输 metrics 已补充可读摘要、摘要文本报告和调试开关,但会话级指标、聚合视图和更完整的故障诊断仍需继续完善。
|
||
|
||
## 当前真实现状
|
||
|
||
- 当前可靠传输链路已经是:`NetworkManager -> SharedNetworkRuntime -> MessageManager -> MainThreadNetworkDispatcher -> ITransport -> KcpTransport`。
|
||
- 当前客户端与服务端共用的网络基础设施已经具备:
|
||
- 共享的 `ITransport` / `KcpTransport`
|
||
- 共享的 `MessageManager`
|
||
- 共享的 `SharedNetworkRuntime`
|
||
- 共享的 `SessionManager` / `MultiSessionManager` / `ConnectionState`
|
||
- 由宿主注入的 dispatcher 策略,而不是在消息层内硬编码 Unity 主线程语义
|
||
- `KcpTransport` 负责:
|
||
- 客户端默认会话
|
||
- 服务端按远端地址隔离会话
|
||
- KCP `Input` / `Update` / `Recv`
|
||
- 只在拿到完整业务消息后触发 `OnReceive`
|
||
- `MessageManager` 负责:
|
||
- 解析 `Envelope`
|
||
- 根据 `MessageType` 查找 handler
|
||
- 通过 `IMessageDeliveryPolicyResolver` 将控制面消息路由到可靠有序 lane,并将 `PlayerInput` / `PlayerState` 路由到高频同步 lane
|
||
- 对 `PlayerInput` / `PlayerState` 执行基于 tick 的 latest-wins 过滤,丢弃过期同步包
|
||
- 通过宿主注入的 dispatcher 执行消息分发,而不是在收包线程直接执行 handler
|
||
- `SessionManager` 负责:
|
||
- 维护 `Disconnected` / `TransportConnected` / `LoginPending` / `LoggedIn` / `LoginFailed` / `TimedOut` / `ReconnectPending` / `Reconnecting` 状态
|
||
- 管理心跳发送窗口、心跳超时和重连调度
|
||
- 记录 RTT 与最近 liveness 时间,但不再拥有服务器时钟样本
|
||
- `ClockSyncState` 负责:
|
||
- 独立记录最近接受的服务器 tick 样本
|
||
- 接收心跳响应与权威 `PlayerState` 的时钟样本
|
||
- 以独立同步策略状态的形式供客户端预测/纠正与服务端多会话观察读取
|
||
- `MultiSessionManager` 负责:
|
||
- 按远端 `IPEndPoint` 维护多份 `SessionManager`
|
||
- 按远端维护独立 `ClockSyncState`
|
||
- 让服务端按每个远端独立观察登录、超时、断线、重连状态
|
||
- 提供按远端查询、枚举、移除会话的共享入口
|
||
- `MainThreadNetworkDispatcher` 负责:
|
||
- 维护线程安全 FIFO 队列
|
||
- 在 Unity 主线程 drain 队列并执行 handler
|
||
- `ServerNetworkHost` 当前可以作为非 Unity 宿主复用同一套网络核心,并通过 `MultiSessionManager` 暴露与客户端一致的生命周期状态词汇
|
||
- `NetworkManager` 负责:
|
||
- 在 `Update()` 中定期 drain 网络消息并驱动 `SessionManager` 超时评估
|
||
- 在主线程上触发游戏对象修改与 UI 相关逻辑
|
||
- 仅在会话已登录且心跳到期时发送心跳
|
||
- 当前业务链路仍然包括:
|
||
- 登录 / 登出
|
||
- 心跳 / 对时
|
||
- `PlayerInput` 上行
|
||
- `PlayerState` 下行
|
||
- 本地预测 / 服务器校正
|
||
- 当前已完成但仍需后续迭代优化的部分:
|
||
- 高频同步消息已经具备 policy/lane 拆分,但第一版 sync lane 仍通过共享抽象接入,后续仍可替换为更激进的底层实现
|
||
- 网络观测指标还不完整
|
||
|
||
## 已完成阶段回顾
|
||
|
||
### 阶段 3:移除旧可靠 UDP 结构
|
||
|
||
已完成结果:
|
||
|
||
- 项目中不存在可直接实例化的 `ReliableUdpTransport`。
|
||
- 默认运行时可靠传输路径仍然是 `KcpTransport`。
|
||
- 文档不再描述“项目里还保留一套旧 reliable UDP 实现”。
|
||
|
||
### 阶段 4:主线程分发改造
|
||
|
||
已完成结果:
|
||
|
||
1. 已新增线程安全接收队列:`Assets/Scripts/Network/NetworkApplication/MainThreadNetworkDispatcher.cs`
|
||
2. 网络线程当前只负责:
|
||
- 收包
|
||
- KCP 输入输出
|
||
- 基础错误处理
|
||
- 将有效业务消息入队
|
||
3. Unity 主线程当前负责:
|
||
- 消息分发
|
||
- 游戏对象修改
|
||
- UI 更新
|
||
|
||
交付结论:
|
||
|
||
- 网络消息不会直接在非主线程操作 Unity 对象。
|
||
|
||
### 阶段 5:连接与心跳改造
|
||
|
||
已完成结果:
|
||
|
||
1. 已区分 `TransportConnected` 和 `LoggedIn` 两种状态,登录成功不再隐含为“网络已连接”的别名。
|
||
2. 心跳当前只承担:
|
||
- 存活检测
|
||
- RTT 统计
|
||
- 时间同步
|
||
3. 会话超时、登录失败、重连调度当前由共享 `SessionManager` 管理,而不是散落在业务 handler 里。
|
||
4. 服务端当前通过 `MultiSessionManager` 按每个远端地址独立管理 `SessionManager`,不再把所有远端压成一个 runtime 级状态。
|
||
|
||
交付结论:
|
||
|
||
- 断线、超时、登录失败、重连等状态当前可以被明确区分和测试。
|
||
- 服务端当前也可以独立观察玩家 A / B / C 各自的生命周期状态,而不是只看到一个总状态。
|
||
|
||
## 后续阶段
|
||
|
||
### 阶段 6:同步策略优化
|
||
|
||
已完成结果:
|
||
|
||
1. 已新增共享 `DeliveryPolicy`、`IMessageDeliveryPolicyResolver`、`TransportMessageLane`,让宿主显式组合可靠控制面与高频同步 lane。
|
||
2. `PlayerInput` / `PlayerState` 当前默认走 `HighFrequencySync` policy,登录、登出、心跳等控制流继续走可靠 KCP。
|
||
3. 已新增 `SyncSequenceTracker`,对 `PlayerInput` / `PlayerState` 按 tick 执行 latest-wins 过滤,丢弃过期同步包。
|
||
4. 已新增 `ClockSyncState`,把服务器 tick 样本所有权从 `SessionManager` 挪出,并让心跳响应与权威状态都能更新该状态。
|
||
5. 客户端当前通过 `ClientPredictionBuffer` 在收到权威状态后修剪已确认输入,并只重放更新的待确认输入。
|
||
6. 编辑器测试当前已覆盖:
|
||
- delivery policy 路由
|
||
- stale packet rejection
|
||
- clock sync forwarding
|
||
- prediction buffer pruning
|
||
- server multi-session sync isolation
|
||
|
||
交付结论:
|
||
|
||
- 高频同步场景下已经不再依赖可靠有序交付来保证 `PlayerInput` / `PlayerState` 的处理顺序。
|
||
- 心跳生命周期与时钟同步当前已经分离,各自的职责边界可以独立演进。
|
||
|
||
### 阶段 7:监控与调试工具补齐
|
||
|
||
当前已完成:
|
||
|
||
1. `DefaultTransportMetricsModule` 除 JSON 外,额外输出更易读的 `.summary.txt` 摘要文件。
|
||
2. metrics JSON 现在包含 `ReadableSummary` 字段,直接给出 headline、session、traffic、error 和 top peer 提示。
|
||
3. 已新增 metrics 调试选项,可独立控制:
|
||
- 是否写 JSON 报告
|
||
- 是否写文本摘要
|
||
- 是否输出控制台摘要
|
||
4. 控制台摘要当前会打印更易读的会话、流量、错误和热点 peer 信息,而不是只保留一行紧凑指标。
|
||
5. KCP metrics 当前已经额外输出会话级诊断字段,包括:
|
||
- `rx_srtt` / `rx_rto` 派生的 RTT 与重传超时
|
||
- `ikcp_waitsnd`、发送/接收队列与缓冲深度
|
||
- 基于 KCP `snd_buf` 的在途重传段统计与累计重传观察值
|
||
- 每个 peer 的会话生命周期状态聚合
|
||
6. 共享会话层当前也会把单会话 / 多会话状态快照写入 metrics,包括:
|
||
- `SharedNetworkRuntime` 的登录、心跳、失败、重连调度状态
|
||
- `ServerNetworkHost` 按远端 peer 聚合的 `ConnectionState`
|
||
- 可发送心跳、最近 RTT、下一次重连时间、最近服务器 tick
|
||
7. metrics 当前会额外落一份 `.diagnosis.txt` 中文诊断文件,直接输出:
|
||
- 整体稳定性判断
|
||
- 高延迟 / 发送堆积 / 重传 / 重连风险提示
|
||
- 共享会话状态总览
|
||
- 热点 peer 的排障线索
|
||
|
||
仍待完成:
|
||
|
||
1. 提供更适合直接排障的聚合视图或查看工具,而不是只落文件。
|
||
2. 继续补更多跨运行阶段的历史视图,例如连续超时、重连抖动、会话恢复成功率。
|
||
3. 如果后续要做运维化使用,再补按时间窗口聚合的趋势指标,而不只看单次运行快照。
|
||
|
||
交付标准:
|
||
|
||
- 网络问题可以通过日志和指标快速定位,且常见问题不需要先手动阅读原始 JSON 结构。
|
||
|
||
## 推荐新增的结构
|
||
|
||
建议后续继续补齐以下模块:
|
||
|
||
- `Assets/Scripts/Network/NetworkTransport/KcpTransportConfig.cs`
|
||
- `Assets/Scripts/Network/NetworkApplication/SessionMetrics.cs`
|
||
- `Assets/Scripts/Network/NetworkApplication/MultiSessionManager.cs`
|
||
|
||
## 验收标准
|
||
|
||
- 上层只依赖统一的 `ITransport`。
|
||
- `KcpTransport` 是唯一可靠传输实现。
|
||
- 客户端与服务端都能正常建立 KCP 会话。
|
||
- 登录、心跳、输入、状态同步链路可正常跑通。
|
||
- 非主线程不再直接访问 Unity 对象。
|
||
- 会话超时、断线、重连有明确状态与日志。
|
||
- 高频移动同步在丢包 / 抖动场景下仍可用。
|