说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211143866.9 (22)申请日 2022.09.20 (71)申请人 上海太美数字科技有限公司 地址 201700 上海市青浦区赵巷镇沪青平 公路2855弄1-72号B座12层C区128 8室 (72)发明人 张凯 陶提 李旭 (74)专利代理 机构 苏州三英知识产权代理有限 公司 32412 专利代理师 仲崇明 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/2453(2019.01) (54)发明名称 查重方法、 装置、 电子设备及计算机存储介 质 (57)摘要 本发明公开了一种查重方法、 装置、 电子设 备及计算机存储介质, 所述查重方法包括: 查重 系统接收待查文件, 并按内容类型提取待查文件 的内容; 根据所述提取内容的内容类型选取编码 方式, 对所述提取内容进行编码, 以获取所述提 取内容的特征向量; 根据所述提取内容的内容类 型选取相似度算法; 根据所述特征向量和所述相 似度算法, 计算所述特征向量与已有文件向量的 相似度, 以确定所述待查文件的相似文件。 本发 明提供的查重方法及装置, 可实现对包含多种内 容类型内容的文 件的精准 查重。 权利要求书3页 说明书12页 附图8页 CN 115455083 A 2022.12.09 CN 115455083 A 1.一种查重方法, 其特 征在于, 包括: 查重系统接收待查文件, 并按内容类型提取待查文件的内容; 根据所述提取内容的内容类型选取编码方式, 对所述提取内容进行编码, 以获取所述 提取内容的特 征向量; 根据所述 提取内容的内容类型选取相似度算法; 根据所述特征向量和所述相似度算法, 计算所述特征向量与已有文件向量的相似度, 以确定所述待查文件的相似文件。 2.如权利要求1所述的查重方法, 其特征在于, 所述根据 所述提取内容的内容类型选取 编码方式, 对所述 提取内容进行编码, 以获取 所述提取内容的特 征向量, 包括: 当所述提取内容的内容类型为文本时, 对所述提取内容进行3 ‑gram编码, 并进行hash 计算, 以获取 所述提取内容的特 征向量; 当所述提取内容的内容类型为图片时, 将所述提取内容中各张图片调整为预设分辨率 的RGB图像, 并通过 卷积神经网络提取 所述提取内容的特 征向量。 3.如权利要求1所述的查重方法, 其特征在于, 所述根据 所述提取内容的内容类型选取 相似度算法, 包括: 当所述提取内容的内容类型为文本时, 选取Jac card相似度算法; 当所述提取内容的内容类型为图片时, 选取Cosi ne相似度算法。 4.如权利要求1所述的查重方法, 其特征在于, 所述根据 所述特征向量和所述相似度算 法, 计算所述特 征向量与已有 文件向量的相似度, 以确定所述待查文件的相似文件, 包括: 根据所述相似度算法, 计算所述特 征向量与向量引擎中已有 文件向量的相似度; 根据所述相似度对所述已有 文件向量进行排序; 召回所述已有 文件向量中相似度大于预设阈值的相似文件向量; 查询数据库已有文件中与 所述召回相似文件向量关联的文件, 确定为所述待查文件的 相似文件。 5.如权利要求1~4中任一项所述的查重方法, 其特征在于, 所述查重系统包括预处理 模块、 提取模块、 编码模块、 向量引擎和数据库; 所述预处 理模块用于 接收文件并生成文件ID; 所述提取模块用于按内容类型提取 所述文件的内容; 所述编码模块用于根据 所述提取内容的内容类型选取编码方式, 对所述提取内容进行 编码, 以获取 所述提取内容的特 征向量; 所述向量引擎用于根据所述提取内容的内容类型, 为所述特征向量创建向量索引, 并 将所述特 征向量作为已有 文件向量进行存 储; 所述数据库用于存储所述文件, 并通过所述文件ID关联所述 已有文件向量和所述文 件。 6.如权利要求5所述的查重方法, 其特 征在于, 所述向量引擎在所述提取内容的内容类型为文本时, 将所述特征向量转换为BINARY类 型256维向量字段, 为所述特征向量创建量化索引, 并将所述特征向量作为已有文件向量进 行存储; 所述向量引擎在所述提取内容的内容类型为图片时, 将所述特征向量转换为FLOAT类权 利 要 求 书 1/3 页 2 CN 115455083 A 2型1000维向量字段, 为所述特征向量创建量化索引, 并将所述特征向量作为已有文件向量 进行存储。 7.一种查重方法, 其特 征在于, 包括: 查重系统接收待查文件, 并按内容类型分页提取待查文件各页的内容; 根据所述提取页的内容的内容类型选取编码方式, 对所述提取页的内容进行编码, 以 获取所述提取页的内容的特 征向量; 根据所述 提取页的内容的内容类型选取相似度算法; 根据所述特征向量和所述相似度算法, 计算所述特征向量与已有文件页向量的相似 度, 以确定所述待查文件的相似文件。 8.如权利要求7所述的查重方法, 其特征在于, 所述根据 所述特征向量和所述相似度算 法, 计算所述特征向量与已有文件页向量的相似度, 以确定所述待查文件的相似文件, 包 括: 根据所述相似度算法, 计算所述特 征向量与向量引擎中已有 文件页向量的相似度; 根据所述相似度对所述已有 文件页向量进行排序; 召回所述已有 文件页向量中相似度大于预设阈值的相似页向量; 确定所述召回相似页向量的所属文件; 计算所述召回相似页向量的所属文件与 所述待查文件的文件相似度, 以确定所述待查 文件的相似文件。 9.如权利要求7所述的查重方法, 其特征在于, 所述计算所述召回相似页向量的所属文 件与所述待查文件的文件相似度, 以确定所述待查文件的相似文件, 包括: 按页序计算所述待查文件的所有页向量与所述召回相似页的所属文件的所有页向量 的页相似度; 根据所述召回相似页的所属文件与 所述待查文件的页码对应关系, 对所述页相似度进 行加权或降权, 得到所述召回相似页向量的所属文件与所述待查文件的文件相似度; 根据所述文件相似度, 确定所述待查文件的相似文件。 10.如权利要求8所述的查重方法, 其特征在于, 所述根据 所述文件相似度, 确定所述待 查文件的相似文件, 包括: 根据所述文件相似度, 对所述召回相似页的所属文件进行排序; 筛选所述文件相似度大于预设阈值的文件, 确定为所述待查文件的相似文件。 11.如权利要求7~10中任一项所述的查重方法, 其特征在于, 所述查重系统包括预处 理模块、 提取模块、 编码模块、 向量引擎和数据库; 所述预处 理模块用于 接收文件并生成文件ID; 所述提取模块用于按内容类型分页提取 所述文件各页的内容; 所述编码模块用于根据 所述提取页的内容的内容类型选取编码方式, 对所述提取页的 内容进行编码, 以获取 所述提取页的内容的特 征向量; 所述向量引擎用于根据所述提取页的内容的内容类型, 为所述特征向量创建向量索 引, 并将所述特 征向量作为已有 文件页向量进行存 储; 所述数据库用于存储所述文件, 并通过所述文件ID关联所述已有文件页向量和所述文 件。权 利 要 求 书 2/3 页 3 CN 115455083 A 3
专利 查重方法、装置、电子设备及计算机存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:11
上传分享
举报
下载
原文档
(911.0 KB)
分享
友情链接
GB-T 35973-2018 集装箱环保技术要求.pdf
GM-T 0044.5-2016 SM9标识密码算法 第5部分:参数定义.pdf
GB-T 24525-2009 炭素材料电阻率测定方法.pdf
T-ZZB 2358—2021 紫外光 UV 固化漆饰面人造板.pdf
T-CPUMT 011—2023 石墨烯水性防腐涂料.pdf
安全牛 AI防火墙技术白皮书.pdf
GB-T 13923-2022 基础地理信息要素分类与代码.pdf
ISO 21434 Road vehicles Cybersecurity engineering 英文版.pdf
OWASP AI大模型应用网络安全治理检查清单 LLM_AI_Security_and_Governance_Checklist 2024.pdf
T-ZZB 2678—2022 高寿命汽车散热器电动风扇总成.pdf
GB-T 37338-2019 电动摩托车和电动轻便摩托车用仪表.pdf
GM-T 0092-2020 基于SM2算法的证书申请语法规范.pdf
GB-T 30942-2014 化妆品中禁用物质乙二醇甲醚、乙二醇乙醚及二乙二醇甲醚的测定 气相色谱法.pdf
GB-T 33574-2017 集装箱生产序列号编码.pdf
GB 12955-2008 防火门.pdf
GB-T 17145-1997 废润滑油回收与再生利用技术导则.pdf
GB-T 38667-2020 信息技术 大数据 数据分类指南.pdf
GB/T 5824-2021 建筑门窗洞口尺寸系列.pdf
GB-T 36527-2018 洁净室及相关受控环境 节能指南.pdf
GB-T 5623-2008 产品电耗定额制定和管理导则.pdf
交流群
-->
1
/
24
评价文档
赞助2元 点击下载(911.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。