怡心湖

GNSS 欺骗检测的多模态 NN 结构,或 RL 奖励函数设计

乌克兰之所以能在俄军强大的“摩尔曼斯克-BN”和“Pole-21”压制下维持作战,很大程度上就是靠这两招:多模态神经网络(MNN)识破欺骗,以及强化学习(RL)优化抗干扰策略

下面我将拆解这两种技术的内部工作机制。


一、GNSS 欺骗检测:多模态神经网络(MNN)结构

传统的单一天线检测容易被高级欺骗信号绕过。乌克兰采用的是“传感器融合”思路,用一个多模态神经网络同时处理来自不同物理源的异构数据,通过交叉验证来判断“我现在看到的卫星信号是不是真的”。

其核心架构可以概括为:“多流输入 + 特征级融合 + 注意力机制决策”

1. 输入模态(Modalities)

网络通常接收以下 4 个并行的数据流:

模态 (Modality)

数据源

检测欺骗的原理

RF 射频流

软件定义无线电 (SDR) 直接采样的 IQ 样本

检测信号功率异常(欺骗信号通常更强)、相关峰畸变(存在真假两个峰值)、噪声基底变化。

基带/导航流

GNSS 接收机输出的 NMEA 语句、伪距、载波相位、CNR (载噪比)

检测几何分布异常(所有卫星方位角/仰角突变)、时钟偏差跳变、位置/速度解算的不连续性。

惯性/运动流

IMU (加速度计、陀螺仪)、轮速计、气压高度计

物理一致性校验。如果 GNSS 显示“静止”,但 IMU 检测到剧烈震动;或者 GNSS 显示“高速北移”,但 IMU 显示“静止”,则为欺骗。

视觉/环境流

摄像头、地形数据库 (DSM)

绝对定位校验。通过视觉里程计 (VO) 或地标识别,判断当前看到的地形是否与 GNSS 报告的坐标匹配。

2. 网络架构细节

[Input Layer]
     │
     ├───[RF Stream]─────> [1D-CNN + LSTM] ───┐
     │   (IQ Samples)     提取时频特征 & 时序相关性  │
     │                                            │
     ├───[Nav Stream]────> [MLP/Dense] ──────────┼──> [Feature Fusion Layer] ──> [Attention Mechanism] ──> [Classification Head]
     │   (CNR, Pseudorange) 提取统计异常特征       │      (拼接/加权融合各模态特征)     (加权各模态置信度)      (Real / Spoofed)
     │                                            │
     ├───[IMU Stream]────> [Bi-LSTM] ────────────┤
     │   (Accel, Gyro)    提取运动学轨迹特征        │
     │                                            │
     └───[Visual Stream]─> [ResNet / ViT] ───────┘
         (Camera Image)   提取视觉定位特征
  • RF 流 (1D-CNN + LSTM):1D 卷积核在 IQ 数据上滑动,捕捉瞬时频率异常和相关峰形状;LSTM 捕捉信号随时间的变化模式(例如欺骗信号接入时的功率爬坡)。

  • IMU 流 (Bi-LSTM):双向 LSTM 处理加速度和角速度序列,预测下一时刻的位置增量(Dead Reckoning),并与 GNSS 给出的增量对比。

  • 特征融合层 (Feature Fusion):将不同维度的特征向量拼接(Concatenation)或通过门控机制(Gating Mechanism)融合。例如,如果视觉流特征很强(晴天),则给视觉流更高的权重;如果视觉流不可靠(夜间/雾天),则降低其权重。

  • 注意力机制 (Attention):这是关键。当 RF 流和 Nav 流都显示“异常”(比如信号完美但位置跳变),而 IMU 流显示“正常”时,注意力机制会放大 IMU 流的差异信号,果断判定为欺骗

3. 乌克兰的实战应用

在乌军无人机(如 FPV 或侦察机)上,一旦这个 MNN 判定为 GNSS 欺骗,系统会立即切断 GNSS 解算,切换至视觉惯性里程计 (VIO)​ 或地形匹配导航,依靠预存的卫星地图继续飞向目标,彻底无视俄军的诱骗坐标。


二、抗干扰策略:强化学习(RL)奖励函数设计

在通信抗干扰场景中,RL 智能体(Agent)需要学会如何动态调整跳频图案、功率和编码策略,以最大化通信成功率。

环境 (Environment):俄军的干扰机网络(如 R-330Zh)。

智能体 (Agent):乌军的战术电台或无人机数据链。

状态 (State):当前频谱占用图、信噪比 (SNR)、误码率 (BER)、剩余电量、已知敌方干扰源位置。

动作 (Action):切换到频段 A、提升功率 3dB、启用纠错编码、静默 1 秒。

奖励函数 (Reward Function) 设计

奖励函数是 RL 的灵魂。乌军的奖励函数不是单一的,而是一个多目标加权求和函数,旨在平衡“通得了”、“活得久”和“打得准”。

R(s,a)=w1​⋅Rconn​+w2​⋅Rstealth​+w3​⋅Reff​+w4​⋅Rpunish​

1. 连接奖励 (Rconn​) —— 基础生存

  • 定义:如果动作 a执行后,通信链路保持连通且 BER < 阈值,给予正奖励;如果断链,给予巨额惩罚。

  • 公式示例

    Rconn​={+10−100​if BER<10−3if Link Lost​
  • 目的:逼着 AI 优先保证“不断联”。

2. 隐蔽/生存奖励 (Rstealth​) —— 对抗反辐射

  • 定义:惩罚过高的发射功率和不必要的辐射。如果动作 a导致被俄军无源探测系统(如 Moskva-2)发现并定位,给予巨大负奖励。

  • 公式示例

    Rstealth​=−α⋅Ptx​−β⋅Ttx​−γ⋅(Detected)

    (其中 P是功率,T是发射时长,γ是发现惩罚系数)

  • 目的:教会 AI 像“忍者”一样通信——用最低的功率、最短的时间、最隐蔽的方式把数据发出去。

3. 效率奖励 (Reff​) —— 资源优化

  • 定义:奖励高吞吐量,惩罚不必要的跳频开销。如果 AI 在不干扰的频段停留太久且传输了大量数据,给予奖励。

  • 目的:防止 AI 为了躲避干扰而疯狂无意义地乱跳,导致传输效率极低。

4. 行为惩罚 (Rpunish​) —— 防止抖动

  • 定义:惩罚频繁切换频段(Flapping)。如果上一秒切到 A 频段,下一秒又切回 B 频段,扣除少量分数。

  • 目的:保持通信的稳定性,避免系统震荡。

实战中的 RL 训练流程

此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » GNSS 欺骗检测的多模态 NN 结构,或 RL 奖励函数设计

()
分享到:

相关推荐