说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211127844.3 (22)申请日 2022.09.16 (71)申请人 中国人民解 放军国防科技大 学 地址 410003 湖南省长 沙市开福区德雅路 109号 (72)发明人 黄健 范劭博 张中杰  (74)专利代理 机构 北京风雅颂专利代理有限公 司 11403 专利代理师 曾志鹏 (51)Int.Cl. G06F 16/2458(2019.01) G06K 9/62(2022.01) G06N 5/00(2006.01) (54)发明名称 基于决策树剪枝加强的关联规则的数据分 类方法 (57)摘要 本发明公开了一种基于决策树剪枝加强的 关联规则的数据分类方法, 所述方法包括: 对于 待分类的数据运用关联规则 挖掘算法, 生成关联 规则集; 并对于待分类的数据运用决策树剪枝算 法, 生成分类规则集; 对所述分类规则集中的每 条规则进行置信度迭代筛选; 合并所述关联规则 集和筛选后的分类规则集, 得到最终的规则集; 根据最终的规则集得到所述数据的分类结果。 应 用本发明可以提取更完整的关联规则集, 解决了 传统关联规则挖掘算法的非频繁规则的遗漏问 题, 也可避免决策树分类算法的规则数量过少的 问题, 从而提高规则分类精度; 且缓解了规则过 拟合的问题。 权利要求书2页 说明书13页 附图5页 CN 115495497 A 2022.12.20 CN 115495497 A 1.一种基于决策树剪枝加强的关联规则的数据分类方法, 包括: 对于待分类的数据运用关联规则挖掘算法, 生成关联规则集; 并 对于待分类的数据运用决策树剪枝算法, 生成分类规则集; 对所述分类规则集中的每条规则进行置信度迭代筛 选; 合并所述关联规则集和筛 选后的分类规则集, 得到最终的规则集; 根据最终的规则集得到所述数据的分类结果。 2.根据权利要求1所述的方法, 其特征在于, 所述对于待分类的数据运用关联规则挖掘 算法, 生成关联规则集, 具体包括: 利用挖掘算法处 理数据集DB得到频繁模式; 将频繁模式进行置信度筛 选, 得到关联规则集; 其中, 所示数据集DB是根据待分类的数据形成的。 3.根据权利要求2所述的方法, 其特征在于, 所述对于待分类的数据运用决策树剪枝算 法, 生成分类规则集, 具体包括: 根据数据集DB中划分的DS计算信息增益构建决策树; 将数据集DB中划分的DV作为验证集对构建的决策树进行剪枝, 得到分类规则集。 4.根据权利要求1所述的方法, 其特征在于, 所述对所述分类规则集中的每条规则进行 置信度迭代筛 选, 具体包括: 对于所述分类规则集中的一条规则, 判断该规则的置信度是否满足要求; 若是, 则判断 该规则为筛 选出的规则加入集 合A中; 否则, 在判断该规则的长度 l满足要求后, 搜索 该规则的(l ‑1)‑规则集合B, 并对集合B中的每 条规则执 行置信度迭代筛 选。 5.根据权利要求4所述的方法, 其特征在于, 所述规则的置信度具体根据如下公式1计 算得到: 其中, P(Li|X)表示计算得到的规则 “X→Li”的置信度, P(X|Li)表示规则 “X→Li”的支持 度, P(Li)表示分类标签为 Li的数据在数据集DB中的占比。 6.根据权利要求1所述的方法, 其特征在于, 所述合并所述关联规则集和筛选后的分类 规则集, 得到最终的规则集, 具体包括: 对每个分类标签Li, SFRi=SDTi∪SPDTi; 其中, SDTi表示SDT中的、 从分类标签Li对应的数据中挖掘而来的规则 子集; SPDTi表示SPDT 中的、 对应分类标签Li的规则子集; SFRi表示SFR中的、 对应 分类标签Li的规则子集; SDT表示所 述关联规则集, SPDT表示所述筛 选后的分类规则集, SFR表示最终的规则集。 7.根据权利要求1所述的方法, 其特征在于, 所述根据最终的规则集得到所述数据的分 类结果, 具体包括: 对于最终的规则集中的每条规则, 根据该规则中模式与分类标签的对应关系, 确定该 分类标签为该模式所属数据的分类结果。 8.根据权利要求7所述的方法, 其特征在于, 所述根据最终的规则集得到所述数据的分权 利 要 求 书 1/2 页 2 CN 115495497 A 2类结果, 还 包括: 若所述数据中有一条 数据出现多种规则冲突情况, 则: 在该数据匹配的规则中对于涉及的每个分类标签, 将该分类标签对应的各规则的置信 度求和, 得到对应该分类标签的权重系 数和; 将权重系 数和最大 的分类标签作为该数据的 最终分类结果。 9.一种电子设备, 包括中央处理单元、 信号处理和存储单元, 以及存储在信号处理和存 储单元上并可在中央处理单元上运行 的计算机程序, 其特征在于, 所述中央处理单元执行 所述程序时实现如权利要求1 ‑8任一所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机 程序, 所述计算机程序可被至少一个处理器所执行, 以使所述至少一个处理器执行权利要 求1‑8中任意一项所述的基于决策树剪枝加强的关联规则的数据分类方法的步骤。权 利 要 求 书 2/2 页 3 CN 115495497 A 3

PDF文档 专利 基于决策树剪枝加强的关联规则的数据分类方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于决策树剪枝加强的关联规则的数据分类方法 第 1 页 专利 基于决策树剪枝加强的关联规则的数据分类方法 第 2 页 专利 基于决策树剪枝加强的关联规则的数据分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。