说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211054055.1 (22)申请日 2022.08.31 (71)申请人 青岛迈金智能科技股份有限公司 地址 266000 山东省青岛市城阳区夏庄街 道成康路328号甲3号楼3 02 (72)发明人 孔繁斌 于鉴 张熙 (74)专利代理 机构 北京同辉知识产权代理事务 所(普通合伙) 11357 专利代理师 王艳秋 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/64(2013.01) G06F 16/215(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于隐私保护的数据处理方法、 系统及 电子设备 (57)摘要 本发明涉及一种基于隐私保护的数据处理 方法、 系统及电子设备, 属于 数据处理技术领域, 数据处理方法包括: 获取原始数据; 基于预设的 规则对原始数据进行筛选, 以剔除原始数据中的 隐私特征数据; 基于筛选后的数据是否存在空值 确定对筛选后数据的处理策略; 对处理后的数据 进行数据类型以及数值范围异常判断, 基于判断 结果确定对 数据的清理策略, 本发 明可以有效的 保护隐私数据, 防止数据在传输或者使用过程中 泄露用户隐私, 降低了数据处理的复杂 度, 同时, 对数据进行了高质量 提取。 权利要求书2页 说明书5页 附图2页 CN 115408711 A 2022.11.29 CN 115408711 A 1.一种基于隐私保护的数据处 理方法, 其特 征在于, 包括: 步骤S100、 获取原 始数据; 步骤S200、 基于预设的规则对原 始数据进行筛 选, 以剔除原 始数据中的隐私特 征数据; 步骤S300、 基于筛选后的数据是否存在空值确定对筛 选后数据的处 理策略; 步骤S400、 对处理后的数据进行数据类型以及数值范围异常判断, 基于判断结果确定 对数据的清理策略。 2.根据权利要求1所述的一种基于隐私保护的数据处 理方法, 其特 征在于, 所述规则为剔除原 始数据中的隐私特 征数据, 保留原 始数据中的非隐私特 征数据; 基于预先设定的规则对原 始数据进行筛 选, 具体为: 调用预先设定的检索表对所获取的原始数据进行匹配, 其中, 所述检索表中包含有表 征隐私特 征数据的特 征值; 根据匹配结果 查找并剔除原 始数据中的隐私特 征数据, 得到非隐私特 征数据。 3.根据权利要求2所述的一种基于隐私保护的数据处理方法, 其特征在于, 在步骤S200 与步骤S3 00之间还包括: 将剔除隐私特征数据的原始数据使用RAND函数生成随机序列, 且采用随机序列降序扰 乱数据集。 4.根据权利要求2或3所述的一种基于隐私保护的数据处理方法, 其特征在于, 基于筛 选后的数据是否存在空值确定对筛 选后数据的处 理策略, 具体为: 当所述非隐私特征数据中存在未输出数据值的标签时, 将该标签定义为空值标签, 采 用自学习的数据自动标注算法对空值标签进 行预测, 反之, 将标签定义为 非空值标签, 执行 步骤S400。 5.根据权利要求4所述的一种基于隐私保护的数据处理方法, 其特征在于, 采用自学习 的数据自动标注算法对空值标签进行 预测, 具体为: 调用预先构建的自学习的数据自动标注算法模型, 并利用非空值标签的数据训练模 型; 基于训练后的模型, 输入与空值标签相关联的非隐私特征数据, 输出预测的伪标签数 据, 循环迭代, 直至 完成所有空值标签的预测。 6.根据权利要求5所述的一种基于隐私保护的数据处理方法, 其特征在于, 输出预测的 伪标签数据之后还 包括确定 置信度, 具体为: 在两条或多条非隐私特征数据字段信 息相同的情况下, 设定该两条或多条非隐私特征 数据相对应的标签值相同; 确定与伪标签数据相关联的非隐私特征数据相同的另一条非隐私特征数据, 并设定该 另一条非隐私特征数据相关联的非空值标签作为监测标签数据, 计算伪标签数据与监测标 签数据之间的差值, 根据所述差值在预设的差值范围与置信度阈值对应关系中确定置信 度, 若所述置信度大于预设的置信度阈值, 保留伪标签数据及其相关联的非隐私特征数据, 反之, 则剔除伪标签数据及其相关联的非隐私特 征数据。 7.根据权利要求1所述的一种基于隐私保护的数据处理方法, 其特征在于, 对处理后的 数据进行 数据类型以及数值范围异常判断, 基于判断结果确定对数据的清理策略, 具体为: 设定数据类型判别逻辑, 循环遍历, 若当前数据的数据类型符合判别逻辑则保留当前权 利 要 求 书 1/2 页 2 CN 115408711 A 2数据, 反之, 将当前 数据的数据类型转换为符合判别逻辑的类型; 依据正态分布原则, 动态设定数值范围, 循环遍历, 若当前数据的数值符合数值范围则 保留当前 数据, 反之, 剔除当前 数据。 8.根据权利要求7所述的一种基于隐私保护的数据处理方法, 其特征在于, 步骤S400 中 所述异常判断还 包括: 设定缺省值与默认值判别 逻辑, 循环遍历, 若当前数据符合判别逻辑则保留当前数据, 反之, 剔除当前 数据。 9.一种基于隐私保护的数据处 理系统, 其特 征在于, 包括: 数据获取 单元, 用于获取原 始数据; 数据筛选单元, 基于预设的规则对原始数据进行筛选, 以剔除原始数据中的隐私特征 数据; 数据处理单元, 基于筛选后的数据是否存在空值确定对筛选后数据的处理策略, 以及 对处理后的数据进行数据类型以及数值范围异常判断, 基于判断结果确定对数据的清理策 略。 10.一种电子设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器上存 储有可被所述处 理器执行的计算机可读程序; 所述处理器执行所述计算机可读程序时实现权利要求1 ‑8任一所述的基于隐私保护的 数据处理方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115408711 A 3
专利 一种基于隐私保护的数据处理方法、系统及电子设备
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:17
上传分享
举报
下载
原文档
(471.6 KB)
分享
友情链接
DB3417-T 006-2021 美丽乡村 村庄运维管理规范 池州市.pdf
《信息安全技术 关键信息基础设施安全保障指标体系》.pdf
GB-T 26251-2010 氟及氟氮混合气.pdf
中华人民共和国密码法 2020.pdf
GB-T 7814-2017 工业用异丙醇.pdf
GW0205-2014 国家电子政务外网 跨网数据安全交换技术要求与实施指南.pdf
DB63-T 2010.1-2022 涉路行为标准化规范 第1部分:技术导则 青海省.pdf
GB-T 32563-2016 无损检测 超声检测 相控阵超声检测方法.pdf
GB-T 25712-2010 振动时效工艺参数选择及效果评定方法.pdf
GB-T 19291-2003 金属和合金的腐蚀 腐蚀试验一般原则.pdf
DB34-T 3599-2020 民用住宅供热计量温控一体化系统技术规范 安徽省.pdf
GB-T 28055-2023 钢质管道带压封堵技术规范.pdf
GB-Z 24294.1-2018 信息安全技术 基于互联网电子政务信息安全实施指南 第1部分:总则.pdf
GB-T 39662-2020 基金行业数据集中备份接口规范.pdf
GB-T 32911-2016 软件测试成本度量规范.pdf
GB/T 40997-2021 经外奇穴名称与定位.pdf
DB37-T 5237-2022 《超低能耗公共建筑技术标准》 山东省.pdf
GB-T 1871.5-2022 磷矿石和磷精矿中氧化镁含量的测定 火焰原子吸收光谱法、容量法和电感耦合等离子体发射光谱法.pdf
法律法规 陕西省民用建筑节能条例2016-11-24.pdf
美国退役军人事务部 事件应急响应计划 2022.pdf
交流群
-->
1
/
10
评价文档
赞助2元 点击下载(471.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。