评估睡眠阶段分类：年龄和早晚睡眠对分类性能的影响

摘要

睡眠阶段分类是专家用来监测人类睡眠数量和质量的常用方法，但这是一项耗时且费力的任务，观察者之间和观察者内部的变异性较高。本研究旨在利用小波进行特征提取，采用随机森林进行分类，寻找并评估一种自动睡眠阶段分类的方法。研究结果发现，分类器的性能与被试的年龄以及睡眠时段(上半夜和下半夜)有关。

图形摘要

前言

多导睡眠图(PSG)通过采集夜间生理参数来分析患者的睡眠情况。该方法使用脑电图(EEG)、眼电图(EOG)、肌电图(EMG)、心电图、脉搏血氧饱和度、口鼻气流和呼吸动度等多个参数进行监测，并使用EEG、EOG和EMG电极的信息来进行睡眠分期。大脑额叶、中央区和枕叶脑区的电活动以及眼球运动和颏肌电图用于确定睡眠阶段。

PSG通常包括将整晚的睡眠划分成30s的时间段，每个时间段又被分类为一组预定义的睡眠阶段。最近的研究使用机器学习进行自动睡眠评分。Silveira等人(2017)的研究使用随机森林(RF)进行睡眠评分，并将离散小波作为特征提取器。Hassan等人(2017)的方法基于单个EEG通道对睡眠阶段进行分类，而Rahman等人(2018)的研究则基于单个EOG通道进行分类。此外，RF也被用于一系列脑电相关问题，如癫痫早期检测、人类精神状态分类等。但根据Krakovská等人(2011)的研究结果表明，当使用不同类型的通道时，分类性能会有所提高。

考虑到人类自然衰老过程中的睡眠变化，本文旨在分析这些变化如何影响我们的分类模式。Zhou等人(2020)的研究使用随机森林(RF)和LightGBM机器学习算法来分类睡眠阶段。值得注意的是，他们将年龄作为分类任务的一个特征。另一方面，像Gais等人(2000)和Rasch等人(2013)的研究分析了早期睡眠和晚期睡眠时段之间的差异，结果显示出两者之间存在显著差异。本研究还试图分析这些变化如何影响训练模型的性能。

在这里，本文分析了一个睡眠评分模型，以评估年龄以及早晚睡眠对经典分类器性能产生的影响。为此，本研究使用小波作为特征提取器，随机森林作为分类器，试图了解不同模型如何最好地适应每个问题的需求。

图1.a)实验的三个阶段。b)EEG、EOG和EMG通道的单个epoch数据样本。c)级联模型(CM)所使用的分类器。

方法

信号

脑电图(EEG)是一种流行的非侵入性技术，通过在头皮上放置电极来记录脑细胞活动产生的电信号，遵循国际10-20系统。这种方法以高时间分辨率捕获大脑皮层的电活动。眼电图(EOG)是一种通过将电极置于眼外眦来记录被试眼动的方法。肌电图(EMG)测量肌肉对神经刺激的反应或电活动。在睡眠评分中，通常采用颏下EMG。图1显示了每个通道和不同睡眠阶段的30s样本。Sleep-EDF数据集已经分割成30s的时段，这是EEG数据分析的标准做法。

Sleep-EDF扩展数据集

本研究使用了Sleep-EDF扩展(Sleep-EDFx)公共数据集，该数据集包含了从1987年至1991年期间的153个文件，旨在研究健康高加索人群(年龄范围为25-101岁)睡眠中年龄效应的影响。在本文中，所有被试均未服用任何与睡眠相关的药物。随后在被试家中进行两次PSG监测，每次监测时间约为20h。每个样本包含EEG(来自Fpz-Cz和Pz-Oz电极位置)、EOG(水平方向)、颏下EMG和事件标记。所有记录由专家按照R&K标准进行预分类。

所有实验均在清醒(W)、快速眼动(REM)、阶段1(S1)、阶段2(S2)和慢波睡眠(SWS)状态下进行。SWS是根据R&K标准合并阶段3和阶段4的结果。使用EEG Fpz-Cz、EOG和EMG通道，EOG和EEG信号采样率为100Hz；EMG采样率为1Hz，频率响应范围(3dB点)为0.5至100Hz。为了确保记录性能良好，本研究建立了一个标准：如果EEG通道的全带宽(0.5-100Hz)噪声水平超过7 IL V rms，则自动删除记录。专家标记为运动时间且未进行评分的时段被排除在外。对所有被试进行全天PSG监测。剔除白天的W样本以避免噪声信息，保留睡眠前20min和睡眠后20min的W阶段样本。被试按年龄分为四组(表1)：第一组(26-35岁)、第二组(50-60岁)、第三组(66-75岁)和第四组(85-101岁)。

表1.被试分组信息。

小波变换用于特征提取

小波变换(WT)是一种从非平稳1D信号(如EEG、EOG和EMG)中提取特征的强大工具。与傅里叶变换不同，小波变换可以在表征频率信息的同时表征时间信息，实现了时间和频率分辨率之间的良好平衡。小波有两种类型：连续小波和离散小波。由于离散小波计算效率高，并且已被证明在睡眠EEG分析方面非常有效，因而本研究使用了离散小波。

随机森林非线性分类

随机森林(RF)是一种由多个树预测器组合而成的分类算法，其中节点由随机选择的特征进行分割。标准化的特征-样本矩阵作为输入。对样本数据进行训练、验证和测试分割。70%的被试数据用于训练和验证，剩下的30%用于测试。在模型训练过程中，本研究使用了留一交叉验证方法，其中一个被试样本用于验证其余被试训练的模型。重复这个步骤，直到所有被试都通过验证阶段。最后，根据所有验证结果的均值和标准差来选择超参数。利用随机种子“1234”确保在后续算法运行中生成相同的随机数序列。

级联模型

图1显示了不同信号的分布情况。可以看到，在EEG中，W、S1和REM的信号是相似的；S2和SWS阶段的波幅更大。级联模型(CM)示意图如图1c所示。本研究将训练分为两个层次。第一层将输入分成两组。第一组包含W期、S1期和REM期。第二组包含S2期和SWS期。然后，训练一个SM模型，用于对这两组之间的样本进行分类。在第二层，使用两个RF模型来对上一层生成的子组进行最终分类。一个模型对第一组样本进行子分类，另一个模型对第二组(S2和SWS)样本进行子分类。

模型设置

通过一系列实验来选择最佳的模型设置和训练配置。首先，以小波系数作为特征训练了一个多类模型，称为小波模型(WM)。本研究训练了三个WMs：一个仅使用了EEG通道，第二个使用了EEG和EOG通道，第三个使用了EEG、EOG和EMG通道进行训练。此外，本研究还考虑了统计值模型(SM)，该模型使用小波系数的统计量(均值、中位数、标准差、峰度和偏度)作为特征。最后，将小波变换后的小波系数和统计量作为扩展模型(EM)的特征。

年龄对睡眠阶段分类的影响

睡眠效率、SWS、慢波和快速纺锤波的功率谱密度会随着年龄的增长而降低，而老年人非快速眼动睡眠阶段中的θ-α和β功率增加。基于此，本研究假设对于随年龄变化的睡眠阶段，使用年轻被试训练的模型在对老年被试获得的信号进行分类时可能表现较差，反之亦然。为了验证该假设，本研究训练了四个模型，考虑了每个被试年龄组的数据。最终得到的模型在未经训练的被试数据上进行测试。

早晚睡眠对分类的影响

SWS在睡眠早期阶段占主导地位，并且在整个睡眠期间，其强度和持续时间都在下降。相反，快速眼动(REM)睡眠在睡眠后期变得更加强烈和广泛。假设使用早期睡眠数据样本训练的模型在REM阶段分类方面表现不佳，而在SWS阶段分类中的性能较好。另一方面，使用晚期睡眠样本训练的模型在SWS分类中表现较差，但在REM分类中的表现较好。为了验证这些假设，本研究将一晚上的睡眠时间分成两半。前半夜，称之为早期睡眠，后半夜，称之为晚期睡眠。然后，分别使用早期睡眠和晚期睡眠的样本训练两个模型。最后，测试两个模型的早晚睡眠阶段分类。

特征的统计评估

为了评估所选特征表征不同类别的能力，本研究使用了统计检验。首先，使用Shapiro-Wilk对数据进行正态性检验(p＜0.05)。然后，在Hassan等人(2017)研究的基础上，采用单因素方差分析(ANOVA)对所选择的特征进行统计检验，以验证其是否能够区分五个类别。置信区间为95%。因此，p值小于0.05则表明这些特征的方差在类别之间有显著差异。使用Scipy库(V 1.4.1)进行评估。

结果

模型选择

表2显示了仅使用EEG；EEG和EOG；以及EEG、EOG和EMG通道进行训练时，WM模型得出的F分数。最高的F值用粗体突出显示。除S1外，所有类别在使用三个通道训练的模型中都获得了最佳F分数。对于S1，使用两个通道训练的模型表现最佳。对于两个和三个通道训练的模型，其中差异最大的是SWS阶段，相差2.87。

表2.使用不同通道进行训练时，WM模型的F分数。

WM、SM和EM模型的F分数如图2所示。三个模型在W阶段(粉色标记)的F分数是相似的，其中SM模型的F分数相对较低。三个模型在S1阶段(蓝色标记)中的总体表现不佳。在S2阶段(黄色标记)，所有模型的结果类似，其中SM和EM模型的F分数略高一些。几乎所有被试的F分数都在60%至80%之间。在三个模型中，有一个被试获得了比其他被试更高的F分数。图2b显示了被试14在各模型上的混淆矩阵。在这三个模型中，S2的分类正确率为96%。WM模型中有相当数量的时段被正确分类为W阶段，但该模型在S2上的错误率为25%。SM模型对W阶段的分类正确率为64%，对S1阶段的分类正确率为25%。EM模型在W阶段的分类正确率为69%，但在S2上的错误率为24%。

图2.WM、SM和EM的结果。

表3显示了SM模型和CM模型中各睡眠阶段的F分数。总的来说，CM模型取得了较好的结果。在W阶段中，SM模型显示出比CM模型更高的F分数。在SWS分类中，两个模型的得分相同。对于其他类别，CM模型的分类效果优于SM模型。单因素方差分析结果显示，五个睡眠阶段之间存在显著差异。

表3.SM模型和CM模型中各睡眠阶段的F分数。

每种算法在各睡眠阶段获得的F分数见表4。随机森林(RF)在所有类别中始终优于其他两种方法。支持向量机(SVM)次之，但其值与RF较为接近，而K最近邻算法(KNN)的效果最差。这种明显的性能差异强调了RF在睡眠阶段分类中的优势。

表4.每种算法在各睡眠阶段获得的F分数。

年龄对分类的影响

图3a显示了使用不同年龄组的被试训练的四个CM的结果，并对来自不同年龄组的测试被试进行分类。根据用于训练的被试年龄将模型命名为G1-model、G2-model、G3-model和G4-model。总体上，使用G1-model对G1被试进行分类取得了较好的效果。G1-model提高了G1被试的分类性能。此外，在G3被试分类中，该模型的F分数更高。在W阶段，G1-model的分类结果低于其他模型。但用该模型对老年被试进行分类时，获得了更高的F分数。每个模型和每个测试被试的S1结果都比较低。当使用G3被试进行分类时，G1-model对S1的分类效果较好。G1-model对所有测试被试的结果均优于其他模型。对于REM阶段，几乎在所有模型中，G2和G3被试的分类效果最佳。

图3.a)在对不同组别进行分类时，四个CM模型(分别使用G1、G2、G3和G4被试组进行训练)的F分数。b)每个睡眠阶段的总F分数。

早晚睡眠的影响

图3b显示了使用早期或晚期睡眠数据训练的模型在对测试被试的早晚睡眠进行分类时的总体结果。总体而言，早期睡眠模型的分类性能优于晚期睡眠模型的性能。使用早期睡眠数据训练的模型在分类早期睡眠时获得了最佳结果。然而，该模型在测试晚睡时的性能下降。在W阶段，几乎所有的结果都是相似的。只有使用早期睡眠数据训练的模型对晚睡进行分类时，性能出现了明显的下降。在S1阶段中，使用早期睡眠数据训练的模型获得了较好的结果。对于S2阶段，与早期睡眠分类相比，这些模型在晚期睡眠中的分类性能较好。在分类早期睡眠时，使用早期睡眠训练的模型比使用晚期睡眠训练的模型获得了更好的结果。在REM阶段，两种模型对早期睡眠的分类性能都更好。在晚期睡眠的REM分类中，使用晚期睡眠数据训练的模型表现优于使用早期睡眠数据训练的模型。

表5显示了根据输入选择的最佳模型。可以观察到，晚期模型对W和REM阶段的分类效果最好，而早期模型对S1和SWS阶段的分类效果最好。

表5.根据输入(早期睡眠或晚期睡眠)对每个阶段进行最佳分类的模型。

结论

本研究使用小波作为特征提取器和随机森林分类器进行了睡眠阶段的分类。研究结果发现，使用不同类型的通道能够提高分类。此外，还可以通过使用CM和统计变量作为特征来改善模型。当使用年轻被试数据进行模型训练时可以改善模型，即使是用于老年被试的分类，其分类效果也较好。但对于特定的睡眠阶段，比如S1阶段，使用老年被试数据训练的模型会表现得更好。最后，对于早期和晚期睡眠分类，针对每个阶段使用特定的模型将有助于提高模型性能。

参考文献：Moris, E., Larrabide, I. Evaluating sleep-stage classification: how age and early-late sleep affects classification performance. Med Biol Eng Comput 62, 343–355 (2024). https://doi-org.fgul.idm.oclc.org/10.1007/s11517-023-02943-7

小伙伴们关注茗创科技，将第一时间收到精彩内容推送哦～