基于改进Apriori算法的环境空气NO2浓度变化的关联因素分析

时间：2024-02-02 14:45:01 来源：网友投稿

王敏亦，丁卉，徐锐，刘永红

(1. 中山大学智能工程学院，广东广州 510006；
2. 广东省交通环境智能监测与治理工程技术研究中心，广东广州 510275；
3. 广东省智能交通系统重点实验室，广东广州 510275）

随着居民生活水平的提升，我国汽车保有量呈现出大幅增长态势，机动车污染已成为我国空气污染的重要来源，是造成空气污染的重要原因[1]；
同时气象条件也在影响空气质量的变化，可以使空气污染物发生稀释、扩散等结果[2]。因此，掌握影响道路交通范围的空气污染物浓度变化的定量关联规则，可为大气环境管理决策者合理制定政策和措施提供参考依据。

目前，对空气污染物浓度变化的研究方法主要有：数值模型法、统计学法和机器算法[3]等。数值模型利用典型的AMRMOD[4]、WRF-Chem[5]和CMAQ[6]等模型，可以对不同空间尺度的大气扩散和化学反应有较好的模拟结果。但是在实际模拟过程中，模型的建立较复杂，且模型对物理场景做了很多参数的理想设置，例如：道路移动源排放中污染源排放高度、线源宽度等及实际污染物排放数据的设置都有不确定性[7-8]，因此这些模型对空气污染物浓度变化模拟有一定的偏差。而统计学方法主要有相关性分析、线性回归等方法，主要的研究有：Shi 等[9]利用去趋势互相关分析法提出了新的指标“拥塞长度”，分析了成都市空气污染物NO2与交通拥堵的关系，以幂函数成正相关的相关性；
Vienneau 等[10]利用主成分分析、聚类分析，对历史SO2浓度数据进行分析，界定了SO2不随空间和时间变化的区域；
张丹[11]研究了北京市空气质量与机动车尾气排放量关系，采用灰色关联度的方法发现机动车尾气污染物氮氧化物、PM10、SO2排放量与北京市PM10排放总量的关联度最高。这些方法虽然可以定性及半定量地描述影响因素和空气污染物之间的线性关系[12-14]，但是对深层次及复杂系统的非线性关联性分析会造成较大误差。

近年来机器学习算法被应用于关联分析、预测等任务中，并且表现出良好的性能[15-17]。目前对空气污染物的主要研究有：李光强等[2]利用时空挖掘方法找到了气象因素对空气污染物浓度变化的关联规则；
Karatzas 等[18]基于主成分分析法找出影响臭氧的主要因素，再基于影响因素利用BP 神经网络对希腊塞萨洛尼的臭氧进行了预测，表明了机器算法在对空气污染建模中的重要作用；
Sfetsos等[19]利用积极矩阵分解降维、K-means聚类方法发现气象模式与PM10超标的关系等。

因此如何将道路交通流和气象因素相结合，共同作用于空气污染物的变化，就需要利用机器算法——新的数据挖掘技术[20-26]，建立道路交通与气象对空气质量影响的综合关联因素分析系统，定量地表达联动作用，引入支持度、置信度和提升度等评价参数对判别规则的重要性提供了量的依据，对于空气质量预测具有重要的科学价值。基于此，本研究选取广东省佛山市国家空气质量监测站点(南海区气象局)周边1.5 km 半径区域为实验区域，监测2020 年5 月—2021 年3 月所有小时时间段内的实测数据，利用优化后的关联规则算法，定量探究空气质量监测站不同方位的道路交通流，在气象因素的影响下，分析空气污染物浓度变化的过程及敏感性因素，为实现区域污染联防联控和改善空气质量提供决策依据和技术支持。

2.1 研究范围

本文选取了佛山市国家空气质量监测站点(南海区气象局)周边1.5 km 半径区域为研究范围(图1)，红色标志为空气质量监测站点，路网内道路分别是：海三路、桂澜路、南海大道北、佛平二路，可从图1中查看到道路在空气质量监测站点的方位，分布在东南西北；
而监测站点到各道路的垂直距离从大到小排序是：佛平二路＜海三路＜桂澜路＜南海大道北。这四条道路均是城市主干道，道路交通流量较大，承载着城市区域内客货运交通，以交通功能为主。

图1 佛山市南海区气象局空气质量监测站点及周边道路分布图

2.2 数据采集与处理

研究收集了佛山市国家空气质量监测站点(南海区气象局)周边1.5 km半径区域，2020年5月—2021 年3 月所有小时时间段内的监测数据，主要包括空气质量监测站点内路网的信息数据(道路类型、道路长度等)、道路交通流量数据(卡口点位、方向等)、气象数据(风速、风向、湿度、温度和气压)和空气质量数据(NO2浓度)。首先进行所有数据的预处理，即对各类监测数据进行无效数据和错误数据去除处理，最终处理后的数据共有4 974条。

基于关联规则分析，要在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号代表落在每个子区间中的数据值。本研究利用统一权重法将各类数据进行区间等级划分，根据数据的取值范围，尽可能将每个区间离散的数量保持一致。将筛选后的数据按照表1 中的等级划分进行符号转化，为算法挖掘关联规则提供事务项集，数据存储如表2 所示。其中，字母符号区分各类属性数据，字母符号后的数字代表各类数据的等级划分。

表1 数据等级表

表2 数据事务项集

3.1 关联规则挖掘原理

关联规则是反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系[27-28]。Apriori 算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合[29-34]。

利用Apriori算法找到最大的K项频繁集。预先设定两个重要的参数指标：

Apriori 算法采用了逐层迭代的方法，主要流程包括：首先对数据库中的每个项计数，产生C1候选集，根据预设的最小支持度，得出L1频繁项集的集合，再将频繁项集L1的各个项连接，得到C2候选集，剪枝得到L2频繁项集的集合，以此类推，迭代下去，直到无法找到频繁(K+1)项集为止，对应的频繁项集的LK集合即为算法的输出结果。

从算法的流程可以看出，Apriori 算法每轮迭代都要扫描数据集，因此在数据集很大，数据种类很多的时候，算法效率很低。

3.2 算法改进

3.2.1 结构的改进

传统Apriori 算法每得到一次频繁项集，需要扫描一次数据库。针对算法计算效率低的问题，对算法结构进行了改进。

将原算法频繁1 项集L1中的元素两两连接组合，得到候选集C2，为得到频繁2 项集，需要第二次扫描原数据库中的所有元素，对候选集C2中所有可能出现的项集求支持度。但是原数据库中有一些元素(样本)是无用的，不包含任何频繁项集。因此我们将第二次扫描数据库改变为对频繁1 项集L1里的元素进行扫描(频繁1项集L1的数量级远比原数据库的数量级少)。通过连接L1中的元素得到候选集C2，并对候选集C2中的元素组合进行支持度计算，再次与预设的最小支持度比较，剪枝得到频繁2项集L2，依次循环操作，为得到频繁K+1 项集，只需对上一候选集CK中的元素进行支持度计算。改进后的算法随着高阶频繁K项集的数量越来越少，计算效率得到了很大程度的提高。

3.2.2 衡量指标的改进

传统Apriori 算法得到的关联规则，即使在达到最小置信度的要求下，得到的某些强关联规则仍然是没有规律可循的。虽然置信度可以衡量规则的可靠性，但是在关联结果中发现，只考虑置信度是欠缺的。例如共100 条数据，A出现了60 次，B出现了80 次，A和B一起出现了40 次。那A和B一起出现的概率就是40%，在有A的前提下，B出现的概率是67%，而没有A的前提下，B出现的概率是80%，这表明因为A的存在会降低B的概率，那A和B是没有关联的，因此只考虑置信度是无用的。为了在原算法的基础上实现关联规则挖掘效果的改进，本研究在改变扫描结构的同时，加入了新的衡量指标，从而使得算法能够输出更有价值的关联规则。

因此改进算法引入的新指标是“提升度”：反映A出现对B出现的概率产生了多大的影响，计算公式为：

(1) 当lift=1 时，表明A和B没有关系；
(2) 当lift＞1时，表明A和B是正相关；
(3)当lift＜1时，表明A和B是负相关。当lift＞1时，出现的关联规则还是冗余的。因此本研究设置的最小提升度为3(在一般数据挖掘中只有当提升度大于3才能保证关联规则是有价值的)。

3.2.3 关联规则的筛选

关联规则的筛选条件：用数学模型表示y=f(x1,……,n)，x1,……,n是影响因素，y是影响结果。关林规则的形式为A→B，A为前项，B为后项，原算法得到的关联规则前项与后项是不区分影响因素和影响结果，因此结果处理较复杂。基于此筛选条件为：保留后项只有影响结果的规则，基于置信度和提升度一致的前提下，从前项低维(三维)到前项高维(四维)比较，如果前项低维(三维)包含的元素为x1、x2、x3，后项为y1，置信度为c1，提升度为l1，前项从三维上升到四维时，包含的元素分别为x1、x2、x3、x4，后项为y1，置信度为c1，提升度为l1，这是发现四维前项只增加x4，对后项、置信度和提升度都没有变化，说明对y1真正产生影响的因素只有x1、x2、x3，因此需要删除四维，只保留三维。

改进后的算法的主要步骤为：(1) 加载数据集TID1，……，n里面每一个元素，存为Database D；
(2) 对数据库扫描，并对每个元素项进行计数，得到候选集C1。根据预先设置的最小支持度，对候选集C1进行剪枝，保留大于最小支持度的元素，得到频繁1 项集L1；
(3) 对频繁L1进行连接，得到候选集C"1。这时扫描数据集C"1，对候选集C"1里面的元素进行计数得到候选集C"2，接着对C"2剪枝，得到频繁2项集L"2……；
(4) 依次往下执行操作，重复剪枝、连接，直到找到频繁(K+1)项集L"K+1；
(5) 引入上一段增加的两个指标进行规则筛选，当前项低维包含的元素可以概括所有的影响因子，只需保留低维规则。主要流程如图2所示。

图2 改进后算法的流程图

3.3 强关联规则挖掘过程

根据改进的关联规则算法，设置最小支持度、最小置信度和最小提升度剔除无意义数据和筛选出强关联规则。在对算法进行多次调整参数，发现支持度不大于0.1%时，重点关注的NO2处于高浓度等级的三维强关联规则稳定在一条，因此设定最小支持度为0.1%，最小置信度为0.85，最小提升度为3。

多维关联规则的挖掘从二维关联规则上升至高维关联规则如图3所示，其中二维关联规则例如{[气压P1、风速W2]≥[NO2(N1)]，92%}，代表低等级气压和中等风速的组合，对NO2处于低等级产生92%概率的影响，三维关联规则例如{[道路1 的交通流Q1、气压P1、风速W2]≥[NO2(N1)]，91%}，四维关联规则例如{[道路1 的交通流Q1、道路2 的交通流Q2、湿度R1、风速W3]≥[NO2(N2)]，95%}。若不设置参数限制，挖掘得到的关联规则中，二维关联规则的组合共有269 856个，三维关联规则的组合共629 664 个，四维关联规则的组合共944 496 个。根据改进后的算法，设置限制性参数得到的强关联规则发现，NO2为低、中、高浓度时的强关联规则分别为13条、13条、21条。

图3 多维关联规则的挖掘

基于Apriori 算法得出的关联规则，筛选出后项为NO2的关联结果。通过对强关联规则结果分析得到：当NO2处于低浓度值N1时，三维关联规则当中包含所有的影响因素，不需要对更高维的关联规则进行分析；
而NO2处于偏高浓度时，生成的是四维关联规则且包含所有的影响因素。但是这些规则中存在较多无效关联规则，根据3.2 节对算法的改进：当后项为同一等级的对象且置信度相同时，低维关联规则的前项向高维关联规则递增时，增加的其他因素，并没有导致置信度发生变化，则剔除高维关联规则，保留低维关联规则。

3.4 强关联规则结果分析

3.4.1 NO2低浓度等级的强关联规则

表3 为NO2浓度处于低浓度值(浓度低于20 μg/m3)时的强关联规则，共13 条，具体的强关联规则所构的交通物理场景如图4 所示。从表3 可知，编号1～2中的二维强关联规则直接表明气象因素中的气压、风速、风向和气温对NO2的作用度最高，此时的气压小于1 006 hPa、风速大于2 m/s 及气温大于28 ℃，置信度都达到了100%；
基于二维强关联规则加入其他影响因素，到三维强关联规则可以进一步发现：气压(P)都处于最低等级、风速(W)和气温(T)都处于高等级，同时风向多处于X3(西南风)。

图4 NO2低浓度值时各影响因素所构交通物理场景

表3 交通流、气象与NO2低浓度的强关联规则

从编号3～13 可知，加入道路交通流信息和方位信息，在气象条件的影响下，所得的置信度偏差较小，可以表明气象因素对空气污染物的影响较大。进一步分析编号3～5 可得，海三路(A)位于空气质量监测站的正北方，虽然此时的道路流量处于最高等级(A4)，小时流量超过了1 085 辆，由于道路处于下风向(X3)、气压较低(P1，小于1 006 hPa)、风速较高(W2，1～2 m/s)和气温较高(T3，大于28 ℃)，不会导致NO2浓度的升高，置信度的范围在97.11%～100%。编号6 表明，佛平二路(B)位于空气质量监测站的正南方，因为此时的道路流量较低(B1，小时车流量低于376 辆)，车流量较低时大部分出现在凌晨，且气象条件较好，NO2浓度也处于较低等级。编号7 表明，南海大道(C)位于空气质量监测站的正西方，且距离监测站点较远，虽然道路流量处于中等水平，在低气压，距离远的条件下，NO2的浓度也不会升高。从编号9～13 发现，桂澜路位于空气质量监测站的正东方，随着道路流量逐渐增加，也并没有导致NO2的浓度等级的变化，主要是因为温度高、风速快，对空气污染物的扩散更快，然而置信度从100% 降到了90.34%，可见交通流量的增加也会影响NO2浓度的变化。

3.4.2 NO2中浓度等级的强关联规则

表4 为NO2浓度处于中浓度值时(浓度范围在[20，45]μg/m3)的强关联规则，共13 条，部分强关联规则所构的交通物理场景如图5 所示。编号1～2 中的三维强关联规则同表3 的二维强关联规则相似，同样表明道路流量有所上升，但是在气压、风速、气温的影响下，NO2的浓度也不会有太大的变化。从三维影响因素上升到四维影响因素可以进一步发现：风向(X)较3.4.1 节有所转变、气压(P)上升至中等级(1 006 hPa＜P2≤1 015 hPa)和风速(W)基本保持不变。

图5 NO2中等浓度值时各影响因素所构交通物理场景

表4 交通流、气象与NO2中高浓度的强关联规则

进一步分析可知，编号3～4表明，风向转变为东北风(X1)时，海三路(A，小时交通流的范围在[876，1 085])处于上风向、在气温较低(T1，低于21.2 ℃)和相邻道路为高交通流的影响下，NO2浓度逐渐升高；
随着高风速(W3)的推导作用，虽然NO2浓度级别没有改变，但是置信度从100%下降至90.91%，说明此时的温度的作用较风速影响更大。随着海三路(A)的车流量继续增加，从编号5～6 可知，伴随其他道路交通流的汇入，在高风速和高温度的作用下，也可以加快污染物的扩散。

编号7～13 表明，当NO2浓度上升至N3 级别时(浓度范围在[29，45]μg/m3)，风速在慢慢下降，而此时各条道路都处于上风向，随着道路交通流增大且气压达到最高(P3＜1 015 hPa)，使得NO2的浓度也在慢慢上升。其中置信度也存在差异，例如编号12～13，确定道路交通流不变时，风速下降(低于2 m/s)、湿度增加(高于66%)、从高气压转变为西北风(X4)时，污染物NO2的浓度置信度从88.74%升至100%，表明虽然道路在风的下风向，但是此时风速较小，导致污染物浓度也会增加。

3.4.3 NO2高浓度等级的强关联规则

表5 为NO2浓度处于高浓度值时(浓度大于45 μg/m3)的强关联规则，共21条，部分具体强关联规则所构的交通物理场景如图6 所示。气压(P)与3.4.2节的(N3)的现象相同，而风速(W)较3.4.2节的下降至最低(W1，低于1 m/s)等级。从编号2～12可知，随着各条道路交通流的叠加，气温和风速都处于较低水平时，空气扩散能力差，从而导致NO2处于较高等级。加入风向后，从编号13～21发现，因为各条道路都处于上风向，同时气象条件较差，也会导致NO2处于较高等级。

图6 NO2高浓度值时各影响因素所构交通物理场景

表5 交通流、气象与NO2高浓度的强关联规则

从编号4～5、7～8、9～10 发现置信度有一定的偏差，当道路交通流一致、温度都为低温时，将低风速(低于1 m/s)转变为中等气压(1 006＜P2≤1 015 hPa)，发现置信度从100%降至88.72%，此时对NO2较敏感的因素是较低的风速；
而当道路交通流一致、较低风速时，将低气温转变为较高气压，发现置信度从90.91%升至100%，此时说明对NO2较敏感的因素是较高的气压。将两种现象结合，结果与上一段的现象一致。

3.5 结果对比

基于以上对空气污染物各等级划分所得的强关联规则可得出：影响NO2浓度变化的主要因素是风速、温度和气压。因此将关联规则所得影响较大因素与空气污染物在SPSS 软件中进行线性拟合(图7)。并利用皮尔逊相关系数进行判定各因素与空气污染物的相关程度，得到的系数分别为：I(风速)=-0.27、I(温度)=-0.3、I(气压)=0.27、I(湿度)=-0.034。

图7 气象条件与NO2浓度的线性关系

计算结果发现风速、温度与NO2呈负相关、气压与NO2呈正相关、湿度与NO2的关系不明显，该结论与关联规则算法得出的结果相同。

(1) 基于传统的Apriori算法计算效率较低，改进后的算法效率有明显的提升，且加入参数“提升度”和对关联规则结果的筛选方法，改进后的结果更加可靠。

(2) 从NO2的浓度等级变化来看，影响空气污染物浓度变化的主要关联因素是风速、温度和气压，随着风速和温度的降低，NO2浓度在逐渐增加；
而气压与污染物浓度成正相关；
湿度与污染物的关系不太明显。且发现NO2浓度级别没有改变，但是改变某个气象因素，置信度会发生变化，说明这个气象因素对NO2的影响更大。

(3) 道路交通流对空气污染物的影响，需要考虑道路的方位、距离和风向等因素。当道路交通流较大且位于下风向时，在气象条件较好的情况下，也不会导致污染物迅速上升；
当道路交通流不大且位于上风向时，伴随着较差的气象条件，也会导致污染物逐渐累积。

(4) 为验证关联算法得到的影响空气污染物NO2浓度变化较大的影响因素，将这些数据与NO2浓度数据进行线性拟合并计算皮尔逊相关系数，所得结果与关联规则算法的结论一致。表明基于改进的Apriori算法在关联规则挖掘方面具有较高的准确性，也提高了关联性分析的效率。

(5) 本研究主要是对道路总交通流做关联分析，未考虑交通流的车队结构，而NO2在夜间的主要来源是重性柴油车排放的NOx，因此在未来的研究当中，基于本研究需要拓展更多的影响因素，包括车队结构(车型组成、排放标准)等因素。

猜你喜欢项集置信度空气质量一种基于定位置信度预测的二阶段目标检测方法小型微型计算机系统(2022年4期)2022-05-09硼铝复合材料硼含量置信度临界安全分析研究核科学与工程(2021年4期)2022-01-12不确定数据的约束频繁闭项集挖掘算法天津科技大学学报(2018年4期)2018-08-22正负关联规则两级置信度阈值设置方法计算机应用(2018年5期)2018-07-25“空气质量发布”APP上线环境保护与循环经济(2017年3期)2017-03-03车内空气质量标准进展汽车与安全(2016年5期)2016-12-01重视车内空气质量工作制造更环保、更清洁、更健康的汽车汽车与安全(2016年5期)2016-12-01开展“大气污染执法年”行动加快推动空气质量改善中国环境监察(2016年11期)2016-10-24置信度条件下轴承寿命的可靠度分析轴承(2015年2期)2015-07-25一种新的改进Apriori算法*网络安全与数据管理(2010年1期)2010-05-18