说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211054055.1 (22)申请日 2022.08.31 (71)申请人 青岛迈金智能科技股份有限公司 地址 266000 山东省青岛市城阳区夏庄街 道成康路328号甲3号楼3 02 (72)发明人 孔繁斌 于鉴 张熙  (74)专利代理 机构 北京同辉知识产权代理事务 所(普通合伙) 11357 专利代理师 王艳秋 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/64(2013.01) G06F 16/215(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于隐私保护的数据处理方法、 系统及 电子设备 (57)摘要 本发明涉及一种基于隐私保护的数据处理 方法、 系统及电子设备, 属于 数据处理技术领域, 数据处理方法包括: 获取原始数据; 基于预设的 规则对原始数据进行筛选, 以剔除原始数据中的 隐私特征数据; 基于筛选后的数据是否存在空值 确定对筛选后数据的处理策略; 对处理后的数据 进行数据类型以及数值范围异常判断, 基于判断 结果确定对 数据的清理策略, 本发 明可以有效的 保护隐私数据, 防止数据在传输或者使用过程中 泄露用户隐私, 降低了数据处理的复杂 度, 同时, 对数据进行了高质量 提取。 权利要求书2页 说明书5页 附图2页 CN 115408711 A 2022.11.29 CN 115408711 A 1.一种基于隐私保护的数据处 理方法, 其特 征在于, 包括: 步骤S100、 获取原 始数据; 步骤S200、 基于预设的规则对原 始数据进行筛 选, 以剔除原 始数据中的隐私特 征数据; 步骤S300、 基于筛选后的数据是否存在空值确定对筛 选后数据的处 理策略; 步骤S400、 对处理后的数据进行数据类型以及数值范围异常判断, 基于判断结果确定 对数据的清理策略。 2.根据权利要求1所述的一种基于隐私保护的数据处 理方法, 其特 征在于, 所述规则为剔除原 始数据中的隐私特 征数据, 保留原 始数据中的非隐私特 征数据; 基于预先设定的规则对原 始数据进行筛 选, 具体为: 调用预先设定的检索表对所获取的原始数据进行匹配, 其中, 所述检索表中包含有表 征隐私特 征数据的特 征值; 根据匹配结果 查找并剔除原 始数据中的隐私特 征数据, 得到非隐私特 征数据。 3.根据权利要求2所述的一种基于隐私保护的数据处理方法, 其特征在于, 在步骤S200 与步骤S3 00之间还包括: 将剔除隐私特征数据的原始数据使用RAND函数生成随机序列, 且采用随机序列降序扰 乱数据集。 4.根据权利要求2或3所述的一种基于隐私保护的数据处理方法, 其特征在于, 基于筛 选后的数据是否存在空值确定对筛 选后数据的处 理策略, 具体为: 当所述非隐私特征数据中存在未输出数据值的标签时, 将该标签定义为空值标签, 采 用自学习的数据自动标注算法对空值标签进 行预测, 反之, 将标签定义为 非空值标签, 执行 步骤S400。 5.根据权利要求4所述的一种基于隐私保护的数据处理方法, 其特征在于, 采用自学习 的数据自动标注算法对空值标签进行 预测, 具体为: 调用预先构建的自学习的数据自动标注算法模型, 并利用非空值标签的数据训练模 型; 基于训练后的模型, 输入与空值标签相关联的非隐私特征数据, 输出预测的伪标签数 据, 循环迭代, 直至 完成所有空值标签的预测。 6.根据权利要求5所述的一种基于隐私保护的数据处理方法, 其特征在于, 输出预测的 伪标签数据之后还 包括确定 置信度, 具体为: 在两条或多条非隐私特征数据字段信 息相同的情况下, 设定该两条或多条非隐私特征 数据相对应的标签值相同; 确定与伪标签数据相关联的非隐私特征数据相同的另一条非隐私特征数据, 并设定该 另一条非隐私特征数据相关联的非空值标签作为监测标签数据, 计算伪标签数据与监测标 签数据之间的差值, 根据所述差值在预设的差值范围与置信度阈值对应关系中确定置信 度, 若所述置信度大于预设的置信度阈值, 保留伪标签数据及其相关联的非隐私特征数据, 反之, 则剔除伪标签数据及其相关联的非隐私特 征数据。 7.根据权利要求1所述的一种基于隐私保护的数据处理方法, 其特征在于, 对处理后的 数据进行 数据类型以及数值范围异常判断, 基于判断结果确定对数据的清理策略, 具体为: 设定数据类型判别逻辑, 循环遍历, 若当前数据的数据类型符合判别逻辑则保留当前权 利 要 求 书 1/2 页 2 CN 115408711 A 2数据, 反之, 将当前 数据的数据类型转换为符合判别逻辑的类型; 依据正态分布原则, 动态设定数值范围, 循环遍历, 若当前数据的数值符合数值范围则 保留当前 数据, 反之, 剔除当前 数据。 8.根据权利要求7所述的一种基于隐私保护的数据处理方法, 其特征在于, 步骤S400 中 所述异常判断还 包括: 设定缺省值与默认值判别 逻辑, 循环遍历, 若当前数据符合判别逻辑则保留当前数据, 反之, 剔除当前 数据。 9.一种基于隐私保护的数据处 理系统, 其特 征在于, 包括: 数据获取 单元, 用于获取原 始数据; 数据筛选单元, 基于预设的规则对原始数据进行筛选, 以剔除原始数据中的隐私特征 数据; 数据处理单元, 基于筛选后的数据是否存在空值确定对筛选后数据的处理策略, 以及 对处理后的数据进行数据类型以及数值范围异常判断, 基于判断结果确定对数据的清理策 略。 10.一种电子设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器上存 储有可被所述处 理器执行的计算机可读程序; 所述处理器执行所述计算机可读程序时实现权利要求1 ‑8任一所述的基于隐私保护的 数据处理方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115408711 A 3

PDF文档 专利 一种基于隐私保护的数据处理方法、系统及电子设备

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于隐私保护的数据处理方法、系统及电子设备 第 1 页 专利 一种基于隐私保护的数据处理方法、系统及电子设备 第 2 页 专利 一种基于隐私保护的数据处理方法、系统及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。