说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211143866.9 (22)申请日 2022.09.20 (71)申请人 上海太美数字科技有限公司 地址 201700 上海市青浦区赵巷镇沪青平 公路2855弄1-72号B座12层C区128 8室 (72)发明人 张凯 陶提 李旭  (74)专利代理 机构 苏州三英知识产权代理有限 公司 32412 专利代理师 仲崇明 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/2453(2019.01) (54)发明名称 查重方法、 装置、 电子设备及计算机存储介 质 (57)摘要 本发明公开了一种查重方法、 装置、 电子设 备及计算机存储介质, 所述查重方法包括: 查重 系统接收待查文件, 并按内容类型提取待查文件 的内容; 根据所述提取内容的内容类型选取编码 方式, 对所述提取内容进行编码, 以获取所述提 取内容的特征向量; 根据所述提取内容的内容类 型选取相似度算法; 根据所述特征向量和所述相 似度算法, 计算所述特征向量与已有文件向量的 相似度, 以确定所述待查文件的相似文件。 本发 明提供的查重方法及装置, 可实现对包含多种内 容类型内容的文 件的精准 查重。 权利要求书3页 说明书12页 附图8页 CN 115455083 A 2022.12.09 CN 115455083 A 1.一种查重方法, 其特 征在于, 包括: 查重系统接收待查文件, 并按内容类型提取待查文件的内容; 根据所述提取内容的内容类型选取编码方式, 对所述提取内容进行编码, 以获取所述 提取内容的特 征向量; 根据所述 提取内容的内容类型选取相似度算法; 根据所述特征向量和所述相似度算法, 计算所述特征向量与已有文件向量的相似度, 以确定所述待查文件的相似文件。 2.如权利要求1所述的查重方法, 其特征在于, 所述根据 所述提取内容的内容类型选取 编码方式, 对所述 提取内容进行编码, 以获取 所述提取内容的特 征向量, 包括: 当所述提取内容的内容类型为文本时, 对所述提取内容进行3 ‑gram编码, 并进行hash 计算, 以获取 所述提取内容的特 征向量; 当所述提取内容的内容类型为图片时, 将所述提取内容中各张图片调整为预设分辨率 的RGB图像, 并通过 卷积神经网络提取 所述提取内容的特 征向量。 3.如权利要求1所述的查重方法, 其特征在于, 所述根据 所述提取内容的内容类型选取 相似度算法, 包括: 当所述提取内容的内容类型为文本时, 选取Jac card相似度算法; 当所述提取内容的内容类型为图片时, 选取Cosi ne相似度算法。 4.如权利要求1所述的查重方法, 其特征在于, 所述根据 所述特征向量和所述相似度算 法, 计算所述特 征向量与已有 文件向量的相似度, 以确定所述待查文件的相似文件, 包括: 根据所述相似度算法, 计算所述特 征向量与向量引擎中已有 文件向量的相似度; 根据所述相似度对所述已有 文件向量进行排序; 召回所述已有 文件向量中相似度大于预设阈值的相似文件向量; 查询数据库已有文件中与 所述召回相似文件向量关联的文件, 确定为所述待查文件的 相似文件。 5.如权利要求1~4中任一项所述的查重方法, 其特征在于, 所述查重系统包括预处理 模块、 提取模块、 编码模块、 向量引擎和数据库; 所述预处 理模块用于 接收文件并生成文件ID; 所述提取模块用于按内容类型提取 所述文件的内容; 所述编码模块用于根据 所述提取内容的内容类型选取编码方式, 对所述提取内容进行 编码, 以获取 所述提取内容的特 征向量; 所述向量引擎用于根据所述提取内容的内容类型, 为所述特征向量创建向量索引, 并 将所述特 征向量作为已有 文件向量进行存 储; 所述数据库用于存储所述文件, 并通过所述文件ID关联所述 已有文件向量和所述文 件。 6.如权利要求5所述的查重方法, 其特 征在于, 所述向量引擎在所述提取内容的内容类型为文本时, 将所述特征向量转换为BINARY类 型256维向量字段, 为所述特征向量创建量化索引, 并将所述特征向量作为已有文件向量进 行存储; 所述向量引擎在所述提取内容的内容类型为图片时, 将所述特征向量转换为FLOAT类权 利 要 求 书 1/3 页 2 CN 115455083 A 2型1000维向量字段, 为所述特征向量创建量化索引, 并将所述特征向量作为已有文件向量 进行存储。 7.一种查重方法, 其特 征在于, 包括: 查重系统接收待查文件, 并按内容类型分页提取待查文件各页的内容; 根据所述提取页的内容的内容类型选取编码方式, 对所述提取页的内容进行编码, 以 获取所述提取页的内容的特 征向量; 根据所述 提取页的内容的内容类型选取相似度算法; 根据所述特征向量和所述相似度算法, 计算所述特征向量与已有文件页向量的相似 度, 以确定所述待查文件的相似文件。 8.如权利要求7所述的查重方法, 其特征在于, 所述根据 所述特征向量和所述相似度算 法, 计算所述特征向量与已有文件页向量的相似度, 以确定所述待查文件的相似文件, 包 括: 根据所述相似度算法, 计算所述特 征向量与向量引擎中已有 文件页向量的相似度; 根据所述相似度对所述已有 文件页向量进行排序; 召回所述已有 文件页向量中相似度大于预设阈值的相似页向量; 确定所述召回相似页向量的所属文件; 计算所述召回相似页向量的所属文件与 所述待查文件的文件相似度, 以确定所述待查 文件的相似文件。 9.如权利要求7所述的查重方法, 其特征在于, 所述计算所述召回相似页向量的所属文 件与所述待查文件的文件相似度, 以确定所述待查文件的相似文件, 包括: 按页序计算所述待查文件的所有页向量与所述召回相似页的所属文件的所有页向量 的页相似度; 根据所述召回相似页的所属文件与 所述待查文件的页码对应关系, 对所述页相似度进 行加权或降权, 得到所述召回相似页向量的所属文件与所述待查文件的文件相似度; 根据所述文件相似度, 确定所述待查文件的相似文件。 10.如权利要求8所述的查重方法, 其特征在于, 所述根据 所述文件相似度, 确定所述待 查文件的相似文件, 包括: 根据所述文件相似度, 对所述召回相似页的所属文件进行排序; 筛选所述文件相似度大于预设阈值的文件, 确定为所述待查文件的相似文件。 11.如权利要求7~10中任一项所述的查重方法, 其特征在于, 所述查重系统包括预处 理模块、 提取模块、 编码模块、 向量引擎和数据库; 所述预处 理模块用于 接收文件并生成文件ID; 所述提取模块用于按内容类型分页提取 所述文件各页的内容; 所述编码模块用于根据 所述提取页的内容的内容类型选取编码方式, 对所述提取页的 内容进行编码, 以获取 所述提取页的内容的特 征向量; 所述向量引擎用于根据所述提取页的内容的内容类型, 为所述特征向量创建向量索 引, 并将所述特 征向量作为已有 文件页向量进行存 储; 所述数据库用于存储所述文件, 并通过所述文件ID关联所述已有文件页向量和所述文 件。权 利 要 求 书 2/3 页 3 CN 115455083 A 3

PDF文档 专利 查重方法、装置、电子设备及计算机存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 查重方法、装置、电子设备及计算机存储介质 第 1 页 专利 查重方法、装置、电子设备及计算机存储介质 第 2 页 专利 查重方法、装置、电子设备及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。