GNSS 欺骗检测的多模态 NN 结构，或 RL 奖励函数设计--怡心湖

乌克兰之所以能在俄军强大的“摩尔曼斯克-BN”和“Pole-21”压制下维持作战，很大程度上就是靠这两招：多模态神经网络（MNN）识破欺骗，以及强化学习（RL）优化抗干扰策略。

下面我将拆解这两种技术的内部工作机制。

一、GNSS 欺骗检测：多模态神经网络（MNN）结构

传统的单一天线检测容易被高级欺骗信号绕过。乌克兰采用的是“传感器融合”思路，用一个多模态神经网络同时处理来自不同物理源的异构数据，通过交叉验证来判断“我现在看到的卫星信号是不是真的”。

其核心架构可以概括为：“多流输入 + 特征级融合 + 注意力机制决策”。

1. 输入模态（Modalities）

网络通常接收以下 4 个并行的数据流：

模态 (Modality)	数据源	检测欺骗的原理
RF 射频流	软件定义无线电 (SDR) 直接采样的 IQ 样本	检测信号功率异常（欺骗信号通常更强）、相关峰畸变（存在真假两个峰值）、噪声基底变化。
基带/导航流	GNSS 接收机输出的 NMEA 语句、伪距、载波相位、CNR (载噪比)	检测几何分布异常（所有卫星方位角/仰角突变）、时钟偏差跳变、位置/速度解算的不连续性。
惯性/运动流	IMU (加速度计、陀螺仪)、轮速计、气压高度计	物理一致性校验。如果 GNSS 显示“静止”，但 IMU 检测到剧烈震动；或者 GNSS 显示“高速北移”，但 IMU 显示“静止”，则为欺骗。
视觉/环境流	摄像头、地形数据库 (DSM)	绝对定位校验。通过视觉里程计 (VO) 或地标识别，判断当前看到的地形是否与 GNSS 报告的坐标匹配。

2. 网络架构细节

[Input Layer]
     │
     ├───[RF Stream]─────> [1D-CNN + LSTM] ───┐
     │   (IQ Samples)     提取时频特征 & 时序相关性  │
     │                                            │
     ├───[Nav Stream]────> [MLP/Dense] ──────────┼──> [Feature Fusion Layer] ──> [Attention Mechanism] ──> [Classification Head]
     │   (CNR, Pseudorange) 提取统计异常特征       │      (拼接/加权融合各模态特征)     (加权各模态置信度)      (Real / Spoofed)
     │                                            │
     ├───[IMU Stream]────> [Bi-LSTM] ────────────┤
     │   (Accel, Gyro)    提取运动学轨迹特征        │
     │                                            │
     └───[Visual Stream]─> [ResNet / ViT] ───────┘
         (Camera Image)   提取视觉定位特征

RF 流 (1D-CNN + LSTM)：1D 卷积核在 IQ 数据上滑动，捕捉瞬时频率异常和相关峰形状；LSTM 捕捉信号随时间的变化模式（例如欺骗信号接入时的功率爬坡）。
IMU 流 (Bi-LSTM)：双向 LSTM 处理加速度和角速度序列，预测下一时刻的位置增量（Dead Reckoning），并与 GNSS 给出的增量对比。
特征融合层 (Feature Fusion)：将不同维度的特征向量拼接（Concatenation）或通过门控机制（Gating Mechanism）融合。例如，如果视觉流特征很强（晴天），则给视觉流更高的权重；如果视觉流不可靠（夜间/雾天），则降低其权重。
注意力机制 (Attention)：这是关键。当 RF 流和 Nav 流都显示“异常”（比如信号完美但位置跳变），而 IMU 流显示“正常”时，注意力机制会放大 IMU 流的差异信号，果断判定为欺骗。

3. 乌克兰的实战应用

在乌军无人机（如 FPV 或侦察机）上，一旦这个 MNN 判定为 GNSS 欺骗，系统会立即切断 GNSS 解算，切换至视觉惯性里程计 (VIO) 或地形匹配导航，依靠预存的卫星地图继续飞向目标，彻底无视俄军的诱骗坐标。

二、抗干扰策略：强化学习（RL）奖励函数设计

在通信抗干扰场景中，RL 智能体（Agent）需要学会如何动态调整跳频图案、功率和编码策略，以最大化通信成功率。

环境 (Environment)：俄军的干扰机网络（如 R-330Zh）。

智能体 (Agent)：乌军的战术电台或无人机数据链。

状态 (State)：当前频谱占用图、信噪比 (SNR)、误码率 (BER)、剩余电量、已知敌方干扰源位置。

动作 (Action)：切换到频段 A、提升功率 3dB、启用纠错编码、静默 1 秒。

奖励函数 (Reward Function) 设计

奖励函数是 RL 的灵魂。乌军的奖励函数不是单一的，而是一个多目标加权求和函数，旨在平衡“通得了”、“活得久”和“打得准”。

R(s,a)=w1⋅Rconn+w2⋅Rstealth+w3⋅Reff+w4⋅Rpunish

1. 连接奖励 (Rconn) —— 基础生存

定义：如果动作 a执行后，通信链路保持连通且 BER < 阈值，给予正奖励；如果断链，给予巨额惩罚。

公式示例：

Rconn={+10−100if BER<10−3if Link Lost

目的：逼着 AI 优先保证“不断联”。

2. 隐蔽/生存奖励 (Rstealth) —— 对抗反辐射

定义：惩罚过高的发射功率和不必要的辐射。如果动作 a导致被俄军无源探测系统（如 Moskva-2）发现并定位，给予巨大负奖励。
公式示例：
```
Rstealth=−α⋅Ptx−β⋅Ttx−γ⋅(Detected)
```
(其中 P是功率，T是发射时长，γ是发现惩罚系数)
目的：教会 AI 像“忍者”一样通信——用最低的功率、最短的时间、最隐蔽的方式把数据发出去。

3. 效率奖励 (Reff) —— 资源优化

定义：奖励高吞吐量，惩罚不必要的跳频开销。如果 AI 在不干扰的频段停留太久且传输了大量数据，给予奖励。
目的：防止 AI 为了躲避干扰而疯狂无意义地乱跳，导致传输效率极低。

4. 行为惩罚 (Rpunish) —— 防止抖动

定义：惩罚频繁切换频段（Flapping）。如果上一秒切到 A 频段，下一秒又切回 B 频段，扣除少量分数。
目的：保持通信的稳定性，避免系统震荡。

实战中的 RL 训练流程

继续阅读：GNSS 奖励函数设计连接奖励 Rconn 多模态

此文由怡心湖编辑，若您觉得有益，欢迎分享转发！：首页 > 常识论 » GNSS 欺骗检测的多模态 NN 结构，或 RL 奖励函数设计

一、GNSS 欺骗检测：多模态神经网络（MNN）结构

1. 输入模态（Modalities）

2. 网络架构细节

3. 乌克兰的实战应用

二、抗干扰策略：强化学习（RL）奖励函数设计

奖励函数 (Reward Function) 设计

1. 连接奖励 (Rconn​) —— 基础生存

2. 隐蔽/生存奖励 (Rstealth​) —— 对抗反辐射

3. 效率奖励 (Reff​) —— 资源优化

4. 行为惩罚 (Rpunish​) —— 防止抖动

实战中的 RL 训练流程

相关推荐

1. 连接奖励 (Rconn) —— 基础生存

2. 隐蔽/生存奖励 (Rstealth) —— 对抗反辐射

3. 效率奖励 (Reff) —— 资源优化

4. 行为惩罚 (Rpunish) —— 防止抖动