专利 一种基于麻雀搜索算法的时间序列关联规则挖掘方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211119664.0 (22)申请日 2022.09.14 (71)申请人广东工业大学地址 510090 广东省广州市越秀区东风东路729号 (72)发明人刘德荣　廖礼炉　王永华　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师刘俊 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/2455(2019.01) (54)发明名称一种基于麻雀搜索算法的时间序列关联规则挖掘方法 (57)摘要本发明公开了一种基于麻雀搜索算法的时间序列关联规则挖掘方法，包括以下步骤： S1、从时间序列中提取时间特征和统计特征，构建一个待挖掘的特征数据集； S2、麻雀位置采用数值属性与分类属性混合的编码方式，其中一个麻雀位置表示一个关联规则； S3、将置信度、可理解性、趣味性作为适应度函数即优化目标； S4、采用基于Pareto最优解集的多目标优化方法； S5、采用麻雀搜索算法对可行解进行优化，得到一组 Pareto最优解集，即一组关联规则。本方法与传统技术相比，能够根据需要提取相应的特征，构建新的特征数据集，并对其进行挖掘，可将时间序列关联规则挖掘转换为离散属性和数值属性混合的关联规则挖掘，经过优化，最终得到一组高质量的关联规则。权利要求书3页说明书10页附图3页 CN 115525692 A 2022.12.27 CN 115525692 A 1.一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，包括以下步骤： S1、从时间序列中提取时间特征和统计特征，构建一个待挖掘的特征数据集； S2、麻雀位置采用数值属性与分类属性混合的编码方式，其中一个麻雀位置表示一个关联规则； S3、确定优化目标，将置信度、可理解性和趣味性作为适应度函数； S4、采用基于Pareto 最优解集的多目标优化方法； S5、采用麻雀搜索算法对可行解进行优化，优化目标是使置信度、可理解性、趣味性最大，最终可得到一组Pareto 最优解集，即一组关联规则。 2.根据权利要求1所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，步骤S1 中所述时间特征包括有：季节、星期、时间段、季度、节假日和工作日；将所述时间特征转换成分类属性，采用设定的数字表示不同的分类。 3.根据权利要求2所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，所述分类属性包括有： Week＝{0,1,2,3,4,5,6} (1) 其中， Week为创建的一个新属性， 0表示星期日， 1表示星期一， 2表示星期二， 3表示星期三， 4表示星期四， 5表示星期五， 6表示星期六； Season为创建的一个新属性， 0表示春季， 1表示夏季， 2表示秋季， 3表示冬季， month为时间序列中的月份； Part为创建的一个新属性， 0表示黎明、 1表示早上、 2表示中午、 3表示下午、 4表示晚上、 5表示午夜， hour 为时间序列中的小时。 4.根据权利要求1所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，所述统计特征包括有：单位时间内的总和、均值、方差、中值、最小值、最大值；其中，将所述时间特征和统计特征合并构建成一个新的待挖掘的特征数据集，所述特征数据集既包含数值属性又包含分类属性。 5.根据权利要求1所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，麻雀位置采用数值属性与分类属性混合编码的方式，即令麻雀位置既含数值属性又含分类属性，其中一个麻雀位置表示一个关联规则；每个所述麻雀位置包括d维，其中d是数据集的属性个数，所述麻雀位置的每一维包括：决策位AC、属性区间下界LB、属性区间上界UB；其中决策位AC的取值为{0,1,2}， 0表示不参与关联规则的组成， 1表示为该关联规则的前件， 2表示为该关联规则的后件；对于数值属性，属性区间下界LB与上界UB表示该属性的区间范围，对于分类属性，属性区间下界LB等于属性区间上界UB。权　利　要　求　书 1/3 页 2 CN 115525692 A 26.根据权利要求1所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，步骤S3中所述适应度函数的数学表达式，具体为： Confidence表示置信度，用于衡量关联规则前件与后件的关联紧密程度，置信度越大，则说明前件与后件的紧密程度越大，即前件出现，那么后件出现的概率也越大，其中SUP(X) 表示包含该关联规则前件的事务数， SUP(XY)表示包含该关联规则的事务数； Comprehensibility表示可理解性，用于衡量关联规则所包含的信息的复杂程度，其中 A表示关联规则前件的属性个数， B表示关联规则后件的属性个数； Interestingness表示趣味性，用于衡量关联规则的有趣性，它由三个概率的乘积组成，第一个是基于前件生成规则的概率，第二个是基于后件生成规则的概率，第三个是基于整个数据集不产生规则的概率。 7.根据权利要求6所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，所述步骤S4，其数学表达方式具体为：其中， (x)为目标函数，优化目标是使关联规则的置信度、可理解性、趣味性最大；为可行解，为决策空间，即由数据集构成的关联规则集合。 8.根据权利要求7所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，所述麻雀搜索算法中，每只麻雀有一个位置属性，在D维解空间内每只麻雀的位置为xi＝(x1,x2,…,xD)，适应度值为fi＝f(x1,x2,…,xD)，共有3种麻雀，分别是发现者、跟随者、侦查者。 9.根据权利要求8所述的一种基于麻雀搜索算法的时间序列关联规则挖掘方法，其特征在于，所述3种麻雀的位置更新公式具体为：式(8)为发现者位置更新公式，其中为第t代中第i个个体的第d维位置， α为[0,1] 中的均匀随机数， Q为一个标准正态分布随机数， R2为[0,1]中的均匀随机数， itermax为最大权　利　要　求　书 2/3 页 3 CN 115525692 A 3

专利 一种基于麻雀搜索算法的时间序列关联规则挖掘方法

专利一种基于麻雀搜索算法的时间序列关联规则挖掘方法