2023年至2025年的研究格局显示,通过将异构生理信号(EEG、fMRI、EMG、EOG、Gaze)与文本、视觉等高层语义模态进行深度融合,领域正在向大脑模型(Large Brain Models, LBMs)和多模态大模型(Large Multimodal Models, LMMs)迁移。
这种范式转移的核心挑战在于对齐问题(Alignment Problem):如何在数学和语义层面统一具有不同时空分辨率、不同拓扑结构以及不同噪声特性的多模态信号。例如,EEG具有毫秒级的时间分辨率但空间分辨率极低,而功能性磁共振成像(fMRI)则相反;视觉和文本数据则处于高度抽象的语义空间。要实现真正的多模态智能,必须解决子空间学习中的流形差异、连续信号的离散化(Tokenization)以及在大模型架构下的深度融合机制。
多模态生理计算的根本难点在于不同信号模态所处的底层拓扑结构存在巨大差异。为了在这些异构数据之间建立对应关系,我们可以构建共享的潜在子空间(Latent Subspace),在此空间内,语义相关性得以保留,而模态特定的噪声被抑制。
在EEG和脑磁图(MEG)分析中,信号具有高度的非平稳性和受试者间变异性。传统的欧几里得空间方法(如直接对原始信号计算均方误差)往往忽略了信号内在的几何结构。近年来的研究稳固了黎曼几何(Riemannian Geometry)在生理信号处理中的核心地位,特别是针对对称正定(Symmetric Positive Definite, SPD)协方差矩阵的处理 。
核心理论前提是,生理信号试次(Trial)的协方差矩阵并非位于平坦的欧几里得向量空间,而是位于黎曼流形上。2024年的主流方法集中于将这些协方差矩阵投影到切空间(Tangent Space)——这是在参考点(通常是协方差矩阵的几何均值)处的局部欧几里得近似 。
在这种几何框架下,距离的度量不再是欧氏距离,而是沿着流形表面的测地线距离(Geodesic Distance)。例如,利用仿射不变黎曼度量(Affine-Invariant Riemannian Metric, AIRM)或对数欧几里得度量(Log-Euclidean Metric)来量化信号分布之间的差异。这种方法的优势在于其对噪声的鲁棒性:协方差估计本身充当了统计滤波器,而流形上的几何操作能够自然地通过平行移动(Parallel Transport)来校准不同受试者或不同时段的数据分布 。
在跨域场景下(例如跨受试者情绪识别),黎曼几何提供了强有力的对齐工具。研究者提出了基于黎曼流形的迁移学习方法,通过几何变换(如旋转、缩放)将源域(Source Domain)数据的协方差矩阵分布对齐到目标域(Target Domain)。这种对齐不是在原始信号层面,而是在二阶统计量的流形结构上进行的,从而在保留任务相关信息(如情绪状态引起的脑网络连接模式变化)的同时,消除了受试者特定的解剖学差异 。此外,结合切空间特征与传统的分类器(如支持向量机或深度神经网络),使得模型既能利用流形的几何不变性,又能利用欧氏空间中成熟的优化算法 。
虽然黎曼几何解决了单模态内部的协方差对齐问题,但当涉及到将脑信号与外部刺激(如图像、文本)进行对齐时,我们面临的是两个完全不同分布之间的映射问题。在此背景下,最优传输(Optimal Transport, OT)理论在2024-2025年间超越了传统的典型相关分析(CCA),成为多模态对齐的主导框架。
传统的对齐损失函数(如均方误差 MSE)关注的是局部的、点对点的对齐。然而,脑信号往往表现出时间上的抖动和延迟,且其神经编码并非与外部刺激一一对应。OT方法,特别是利用瓦瑟斯坦距离(Wasserstein Distance,通常是Wasserstein-2),旨在最小化将脑信号嵌入分布(Brain Embeddings)转换为刺激嵌入分布(Stimulus Embeddings,如CLIP提取的图像特征)所需的“传输代价” 。
对齐过程涉及构建一个传输方案(Transport Plan)$\pi$,该方案最小化总代价:
在具体实现中,研究者利用预训练的fMRI编码器和CLIP图像编码器,分别将脑活动和视觉刺激映射到同一嵌入空间。通过计算这两个嵌入之间的Wasserstein-2距离作为代价矩阵,模型能够捕捉全局的几何关系和分布层面的匹配,而不仅仅是强制性的硬对应 。
基于OT的对齐方法在“脑字幕生成”(Brain Captioning)任务中取得了突破性进展。该任务旨在直接从脑活动解码出受试者所感知的视觉内容的文本描述。相比于MSE,OT能够更好地处理神经编码中的冗余性(Redundancy)和协同性(Synergy)。最新的研究通过区域掩码(Region Masking)和数据降维可视化实验揭示,OT对齐策略能够自动识别并利用大脑不同区域在处理视觉信息时的互补模式,从而在单受试者和跨受试者训练中均大幅超越了基准方法 。这种对齐不仅提高了解码精度,还为神经科学研究提供了关于大脑信息处理机制的可解释性见解。
当模态之间的对应关系稀疏或不存在时(例如,不同受试者执行不同任务的数据),流形对齐(Manifold Alignment, MA)提供了一种半监督的解决方案。其目标是学习投影函数,将来自不同源域(如多样化的生理数据集)的数据映射到一个共享的潜在空间 。
2024-2025年的MA方法不再局限于成对样本。通过利用标签信息(例如“快乐”、“压力”等情绪标签),算法致力于在潜在空间中拉近具有相同标签的样本距离,同时推远不同标签的样本,无论这些样本来自哪个模态或域。这种方法通过对齐输入域的流形结构,实现了“异构域适应”(Heterogeneous Domain Adaptation) 。这在生理计算中尤为重要,因为它允许利用来自ECG领域的大规模标记数据来辅助训练样本稀缺的EEG模型,前提是两者共享相同的潜在语义结构(如自主神经系统的激活模式)。
为了利用Transformer架构和大型语言模型(LLMs)的强大能力,连续的生理信号必须被离散化。这一过程被称为“Tokenization”,它将原始的时间序列数据转换为来自学习码本(Codebook)的离散Token序列,实际上是创建了一套脑活动的“词汇表”。这是构建LaBraM、NeuroLM等基础模型的关键步骤。
“大脑模型”(Large Brain Model, LaBraM)提出了一种统一的EEG基础模型架构,其Tokenizer的设计代表了从原始信号处理向语义特征提取的转变。
神经谱预测机制: LaBraM采用了矢量量化神经谱预测(Vector-Quantized Neural Spectrum Prediction, VQ-NSP)策略。与直接重构充满噪声的原始时间序列不同,该Tokenizer被训练用于预测信号补丁(Patch)的傅里叶频谱。这种设计迫使模型学习频域特征,而频域特征(如Alpha波、Gamma波的功率变化)往往比时域波形更能反映大脑的语义状态 。
补丁化与掩码建模: EEG信号首先被分割成固定长度的“通道补丁”(Channel Patches)。这些补丁通过VQ-VAE(Vector Quantized Variational Autoencoder)架构被编码为神经编码(Neural Codes)。离散的码本使得随后的Transformer能够执行“掩码建模”(Masked Modeling,类似BERT),即根据上下文预测被掩盖的神经Token 。
大规模预训练: LaBraM在超过2500小时的异构EEG数据上进行了预训练,这些数据涵盖了20多个不同的数据集。其Tokenizer有效地充当了一个通用的特征提取器,将不同设备、不同通道配置的信号压缩为统一的语义表示 。
尽管LaBraM取得了成功,但有批评指出,单一码本往往无法捕捉脑活动的多尺度特性(即同时存在的慢波振荡和快速脉冲)。针对这一局限,NeuroRVQ(2025)提出了分层残差矢量量化方案。
多尺度分层编码: NeuroRVQ采用了分层残差矢量量化(Hierarchical Residual Vector Quantization, HRVQ)技术。它使用多个在不同频率尺度上运行的码本。残差机制意味着后续的码本负责编码前一个码本留下的误差或“残差”信息。这种分层结构使得模型能够用前几个码本捕捉主要的慢波趋势,而用后续码本捕捉高频细节 。
相位-幅度感知损失: 与LaBraM仅关注频谱幅度不同,NeuroRVQ的训练损失函数通过正弦-余弦(Sine-Cosine)表示联合重构信号的相位和幅度。保留相位信息对于事件相关电位(ERPs)的分析至关重要,因为ERP的特征主要体现在锁时的相位对齐上。这种设计使得生成的Token包含了高保真的信号重构信息,为生成式建模建立了强大的先验 。
除了VQ-VAE路径,还有关于Token本质的探讨。中提到的TFM-Tokenizer(Time-Frequency Motif Tokenizer)对LaBraM使用的原始信号/频谱预测方法提出了挑战。
时频模体: TFM-Tokenizer通过编码“时频模体”来生成Token,而不是简单地处理原始信号片段。该研究认为,基于原始信号的Tokenizer(如LaBraM所用的)难以捕捉复杂的时频变化动态。通过显式地将时频图中的模式(Motifs)作为基本单元,TFM-Tokenizer旨在保留更丰富的神经生理学语义,例如特定频率的爆发性活动(Burst)或跨频耦合现象 。
2025年最具颠覆性的进展是将EEG视为一种可以由LLM直接翻译的“外语”。这一概念在NeuroLM架构中得到了极致体现。
文本对齐神经Tokenizer: NeuroLM引入了“文本对齐”(Text-Aligned)的训练目标。在训练VQ-VAE的过程中,不仅要求重构EEG信号,还通过对抗训练(Adversarial Training)或对比学习,强制EEG Token的嵌入空间与预训练LLM(如LLaMA或GPT)的文本嵌入空间对齐 。
解耦的异构Tokenizer: 为了处理复杂性,部分变体(如CodeBrain中的TFDual-Tokenizer)采用了时域和频域解耦的策略,分别编码EEG的时间和频率分量,导致离散表示空间的二次方扩展,从而在融合前捕捉正交的特征维度 。这种对齐使得生理信号可以直接“注入”到LLM的输入序列中,仿佛它们是另一种语言的单词。
一旦生理信号被对齐和离散化,下一步便是将其与文本、视觉、音频等模态进行深度融合,以实现复杂的推理和交互。2024-2025年的主流架构依赖于改进的Transformer模块和指令微调(Instruction Tuning)。
交叉注意力是将生理语境注入文本或视觉模型的主要机制。与自注意力(Self-Attention)不同,交叉注意力使用一种模态作为查询(Query,Q),另一种模态作为键(Key,K)和值(Value,V)。
在多模态情绪识别框架(例如融合EEG和视频)中,视频模态可能作为K和V提供稳定的环境语境,而生理信号作为Q来提取与生物反应相关的视觉线索。其标准计算公式为:
然而,生理信号往往包含大量噪声。为了解决这一问题,最新的研究引入了“动态融合”(Dynamic Fusion)机制。通过一个可学习的门控标量g_i 动态调整原始特征与交叉注意力增强特征之间的比例:
其中A_i 是交叉注意力模块的输出,$X_i$ 是原始输入。这种机制允许模型在生理信号质量较差或与视觉证据冲突时,自动抑制生理分支的贡献,从而提高系统的鲁棒性。
NeuroLM代表了融合策略的另一种极端——完全的序列级融合。它不再使用独立的编码器和融合层,而是将离散的EEG Token直接嵌入到LLM的输入序列中。
多通道自回归建模: LLM被微调以在包含文本和EEG Token的混合序列上执行因果建模(Causal Modeling)。由于EEG Token在训练阶段已经与文本空间对齐(见3.4节),LLM可以利用其预训练的权重来处理这些信号,极大地减少了灾难性遗忘 。
指令微调(Instruction Tuning): NeuroLM利用了指令微调范式。模型被训练遵循特定的指令,例如:“分析这段EEG序列的情绪状态:<EEG_TOKENS>”。这使得单一的基础模型能够执行多样化的任务——如癫痫检测、睡眠分期、情绪识别——只需改变文本提示(Prompt),而无需修改模型架构 。这种方法不仅统一了任务接口,还赋予了模型在未见过的任务上进行零样本(Zero-Shot)推理的潜力。
对于涉及外周生理信号(如皮肤电GSR、呼吸)与中枢神经信号(EEG)的多模态任务,双分支(Dual-Branch)架构更为常见。
架构设计: 一条分支专门处理EEG信号,捕捉中枢神经系统的动态;另一条分支处理外周信号。特征在深层进行融合,通常采用“掩码门控融合网络”(Mask-gated Fusion Network, MGF)。MGF结合了掩码技术和门控结构,能够精确控制每种模态的信息流,过滤掉冗余或噪声信息,从而在特征层面实现互补 。这种分层融合策略有效地模拟了人类情绪感知的综合过程。
受试者间变异性(Inter-subject Variability)是生理计算,尤其是脑机接口(BCI)大规模应用的主要障碍。不同人的大脑解剖结构、导电性以及心理策略导致同一任务的生理信号分布存在显著差异。传统的迁移学习通常需要目标域的校准数据,而域泛化(Domain Generalization, DG)则要求模型能够在完全未见过的受试者上即刻生效。
模型无关元学习(MAML)及其变体在2024年被成功应用于EEG领域。其核心思想是“学会学习”(Learning to Learn)。
内外循环优化: MAML不直接优化模型参数以最小化特定受试者的损失,而是优化参数的初始化。在内循环(Inner Loop)中,模型利用训练数据的支持集模拟“新受试者”的适应过程;在外循环(Outer Loop)中,更新全局初始化参数,使得模型只需极少的梯度步数(甚至在零样本变体中只需前向传播)即可适应新受试者 。
零校准策略: 变体如META-EEG结合了基于梯度的元学习与间歇性冻结(Intermittent Freezing)策略。这种方法能够学习到对受试者特定噪声不敏感的特征表示,从而实现无需任何目标用户校准数据的“即插即用”性能 。实验表明,这种方法在运动想象(MI)和情绪识别任务中均取得了优于传统迁移学习的效果。
另一种主流策略是在数学上将“受试者特定”特征与“任务特定”特征解纠缠(Disentangle)。
时空分解模块: 最新的架构(如所述)提出将EEG信号分解为独立的时域和空域分量。通过应用通道依赖的掩码(Channel-dependent Masking)和自监督一致性损失,模型被迫学习跨人群通用的空间拓扑特征(例如,运动皮层的激活位置),而忽略受试者特定的通道幅度差异。
域对抗训练: 类似于GAN,引入一个“域判别器”(Domain Discriminator),其目标是根据提取的特征猜测受试者ID。特征提取器则被训练来欺骗该判别器,确保学习到的表征不包含受试者身份信息,只包含纯粹的任务相关信号 。