2023年五一假期期间,数学建模竞赛就有四场,各种比赛各种需求应接不暇。因此,对于本次浅析有不足的地方欢迎大家指出。为了更好的帮助大家华中杯参赛,下面带来,C题详细版思路。由于C题的难度,注定选题人数将不可计数,因此对于每一问求解已经不再是最关键的步骤。如何创新,增加 得分点才是,在接下来的思路中,我也将我认为的创新点得分点进行解释。

预计1号14点之前,可以完成成品论文的写作。

C 题 空气质量预测与预警

主模型:预测

数据预处理 + 指标选取

以空气污染为背景,设问。其预警等级划分为四级应急响应持续 时间均为24的倍数,即按天进行计算,大大减少计算难度。下面,我们首先进行数据预处理阶段。

对于题目给出的数据,我们第一步就是进行数据预处理。数据预处理无非就是数据清洗(主要就是缺失值、噪声数据、异常值、不一致性等问题。常用的方法有删除、填补、平滑、修正等。)给出的数据,很明显存在不少的缺失值,对于这个人问题缺失值的处理,我认为直接剔除不太好,因为时间序列都是连续的。因此,可以选择插值进行填充,或者其他处理方法均可。

问题一,根据附件 1 和附件 2,对数据进行分析和处理,筛选出与 PM2.5 浓度变化有 关的因素,并说明筛选出的因素对 PM2.5 浓度影响的程度。

对于问题一,需要我们数据预处理 + 指标选取。指标的选取,需要就是选取与 PM2.5 浓度变化有 关的因素。对于这一问,我们可以进行关联分析,主要方法如下所示。

至于,筛选出因素对 PM2.5 浓度影响的程度,我们就可以根据相关系数进行排序即可。

相关性分析的话,我还是比较推荐person相关系数

问题一注释:对于问题一,大部分人应该都是直接进行相关性分析,因此,问题一得分点就是数据预处理的好坏,以及相关性分析的文字描述,这两个点做好可以在众多论文中脱颖而出。或者有其他的相关性分析方法,只要合理,独特也是非常推荐的。

问题二:自行划分训练集和测试集,根据附件 1 和附件 2,基于问题一构建 PM2.5 浓 度多步预测模型,分别使用均方根误差(RMSE)对 3 步、 5 步、 7 步、 12 步预测效果进 行评估,其结果请用表 1 格式在正文中具体给出,并对测试集及其预测结果进行可视化。 同时,用该模型预测附件 3 所给定时间的 PM2.5 浓度,其结果请用表 2 格式在正文中具 体给出。

问题二,涉及到预测模型的选择,大家可以参考下图。

稍后我也会给出一些比较合适的预测模型。对于问题二提及的均方根误差(RMSE),如下所示,是一种用于衡量预测值与实际值之间差异的统计量,通常用于评估回归模型的预测能力。切记,通常来讲对于预测模型,随着预测步长的增加,RMSE是是越来越大,即预测步数越大,精度越小。所以,一旦结果趋势不对,很可能是数据或者模型出错了。

大概是一个这样的结果趋势,结果不对,为了展示随机捏造了四个结构。

问题二注释:问题二最大的区别应该就是预测模型的选择上,大部分人很可能直接选取一个模型。这里我有个好建议,就是我们可以使用加权平均预测。即使用多个模型,进行预测。最后的结果进行加权处理,对于加权的权重求解,我们可以建立优化模型进行求解。

问题三:构建 AQI 多步预测模型,使用均方根误差(RMSE)对建模效果进行评估, 并对测试集及其预测结果进行可视化。同时,用该模型预测附件 3 所给定时间的 AQI,并 给出每天空气质量的预警等级,其结果请用表 3 和表 4 格式在正文中具体给出。

问题三,构建AQI 多步预测模型,直接多步预测、递归多步预测、直接-递归混合预测、多输出预测等。尤其需要注意,问题三的预测主题不在是问题二的主题,因此,对于问题三预测模型的选择。我们依旧可以选择沿用问题二的模型。但是预测的指标必须进行重新筛选,选择出与AQI相关联的指标才可以。切记切记!不要直接用问题二的指标。应该是把问题一的问题主语换成AQI 再进行求解,就可以。

问题三注释:最简单的点就是预警等级的赋予上,很多人可能直接进行人工赋予。这里我们最好建立一个模型,数据处理模型即可,即对不同AQI下,对应的时间进行预警等级划分。这样问题三就会看起来特别的完备。

其中预测结果进行可视化。可以认为是对结果的另类展示,我们可以进行绘图或者制表的展示即可。