说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210000282.X (22)申请日 2022.01.02 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号西 安电子科技大 学 (72)发明人 高海昌 姚舟 常国沁 张宇鸿 (74)专利代理 机构 西安长和专利代理有限公司 61227 专利代理师 黄伟洪 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) (54)发明名称 一种面向文本的对抗样本生成方法、 系统、 设备及终端 (57)摘要 本发明属于人工智能信息安全技术领域, 公 开了一种面向文本的对抗样本生成方法、 系统、 设备及终端, 该方法包括: 对获取的文本数据进 行预处理, 使用处理好的训练集训练深度学习模 型; 将数据输入深度学习模型, 对文本进行计算, 获取关键词权重; 将关键词按照权重排序后选择 关键词进行处理生成对应的对抗样 本, 根据模型 识别效果选择结束或者继续修改关键词, 获取最 终的对抗样 本。 本发明结合了单词级和句子级的 方法, 同时避免了无效语句的生成, 减少了修改 的比率, 尽可能地不影响文本语义, 在保证攻击 效果的同时减小了人眼识别的可能性。 本发明自 适应地选 择最优扰动, 在保留完整文本语义的同 时尽可能减小扰动幅度, 以更高的攻击成功率欺 骗分类器。 权利要求书3页 说明书9页 附图3页 CN 114528827 A 2022.05.24 CN 114528827 A 1.一种面向文本的对抗样本生成方法, 其特征在于, 所述面向文本的对抗样本生成方 法对获取 的文本数据进行预处理, 使用处理好的训练集训练深度学习模型; 将数据输入所 述深度学习模型, 对文本进行计算, 获取关键词的权重; 将关键词按照权重排序以后选择关 键词进行处理生成对应的对抗样本, 根据模型识别效果选择结束或者继续修改关键词, 获 取最终的对抗样本 。 2.如权利要求1所述的面向文本的对抗样本生成方法, 其特征在于, 所述面向文本的对 抗样本生成方法包括以下步骤: 步骤一, 对文本数据预处 理; 步骤二, 训练有效的深度学习模型; 步骤三, 根据模型获得文本的关键词; 步骤四, 对获取的关键词进行处 理; 步骤五, 使用处 理后的关键词生成对抗文本 。 3.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤一中的对 文本数据预处 理包括: (1)清理数据, 删除掉无用的符号和各种标签; 在处理前删除掉无用的空格符号和各种网页标签; (2)为各个 类别的数据添加对应的数字标签; 对于情感分类样本, 正样本标签设置为1, 负样本设置为0; 对于多分类样本, 根据类别 数从0开始计数进行 标签分类; (3)对文本进行分词, 转 化为对应的数字TOKEN; 使用训练集来构造词典, 根据 单词出现频率从大到小排序; 从3开始计数作为对应单词 的TOKEN; 其中0用于长度填充, 保证文本具有相同的长度; 1用于表 示文本的开始, 置于文本 第一个位置; 2用于表示未知符号, 代 表词典中没有出现的单词。 4.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤二中的训 练有效的深度学习模型包括: (1)设置词嵌入矩阵参数, 设置模型 结构超参数, 使用LSTM构建出模型框架; 构建模型时, 根据需要设置词向量长度, 构建词嵌入矩阵, 随机初始化以后作为模型第 一层, 将离散的单词转化为连续的向量表示; 将连续的向量表示输入设置好的LSTM和 TEXTCNN模型得到模型输出的向量, 最后 经过线性层和Softmax层的转化, 将输出向量转化 为对应类别的置信度分数; (2)将预处 理的数据输入 模型, 根据深度学习方法对 模型进行训练和调节参数; 将步骤一中处理好的数据送入模型, 通过Adam优化器对模型进行优化, 不断使用训练 集优化模型参数; (3)得到模型的最优参数, 固化模型作为后续的使用工具; 将训练好的模型参数, 通过库函数保存为 参数文件用于之后的攻击实验。 5.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤三中的根 据模型获得文本的关键词包括: (1)将文本进行截取, 获得对应单词上文的信息; 1)对于文本中的每 个单词, 去掉单词之后的文本;权 利 要 求 书 1/3 页 2 CN 114528827 A 2对于第i条文本xi={w0, w1…wn‑1, wn}, 对于单词wj的上文信息重要度, 去掉第j个单词之 后的所有 文本, 得到xi={w0, w1…wj}, 再将第j个单词去掉得到x ′i={w0, w1…wj‑1}; 2)将截取后的文本 输入模型, 获取模型分数; 将得到的xi={w0, w1…wj}输入模型得到置信度分数{s0, s1…sd}, 将得到的x ′i={w0, w1…wj‑1}输入模型得到置信度分数{s ′0, s′1…s′d}; 3)计算模型分数和对应标签之间的变化, 将变化 量作为单词的上文权 重; 根据文本的类别k得到对应的分数变化sk‑s′k来作为对应单词的上文信息; (2)将文本进行截取, 获取对应单词下文的信息; 1)对于文本中的每 个单词, 去掉单词之前的文本; 对于第i条文本xi={w0, w1…wn‑1, wn}, 对于单词wj的上文信息重要度, 去掉第j个单词之 前的所有 文本, 得到xi={wj, wj+1…wn}, 再将第j个单词去掉得到x ′i={wj+1…wn}; 2)将截取后的文本 输入模型, 获取模型分数; 将得到的xi={w0, w1…wn‑1, wn}送入模型得到置信度分数{t0, t1…td}, 将得到的x ′i= {wj+1…wn}送入模型得到置信度分数{t ′0, t′1…t′d}; 3)计算模型分数和对应标签的之间的变化, 将变化 量作为单词的下文权 重; 根据文本的类别k得到对应的分数变化tk‑t′k来作为对应单词的下文信息; (3)根据文本中对应单词的上 下文信息确定关键词; 1)根据单词的上文和下文权 重, 进行加 和作为单词的上 下文信息 权重; 使用步骤(1)和步骤(2)的得到的单词对应的上文和下文信息, 通过计算(sk‑s′k)+(tk‑ t′k)来作为单词的上 下文信息 权重; 2)根据上 下文信息 权重对单词进行从大到小排序; 对每条文本中的每个单词来计算上下文信息权重, 将单词记录位置坐标, 按照从大到 小进行排序; 3)选取权 重高的单词作为关键词进行修改; 依次按照权 重从大到小的顺序选择关键词。 6.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤四中的对 获取的关键词进行处 理包括: (1)使用同义词对单词进行修改; 1)使用Gl oVe来对单词进行计算, 获取对应的单词向量; 使用GloVe构建向量词典, 将单词转 化为对应向量; 2)在词向量空间中查找和单词向量 最接近的作为近义词替换; 在GloVe词典中寻找和关键词词性POS相同的单词, 计算和关键词词向量的余弦相似 度, 选择余弦相似度最大的单词作为当前关键词的同义词替换候选; (2)使用Emoji对单词进行修改; 将所有表情Emoji取 出, 随机选取两个表情, 添加到单词的前后位置; (3)使用词典对单词进行修改; 1)使用nltk函数获取 单词在文本中的POS含义; 使用nltk函数库的词性判断函数获取关键词 词性POS; 2)在词典中获取 单词的释义, 选择相同POS的释义作为关键词替换内容;权 利 要 求 书 2/3 页 3 CN 114528827 A 3
专利 一种面向文本的对抗样本生成方法、系统、设备及终端
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:03
上传分享
举报
下载
原文档
(685.2 KB)
分享
友情链接
DB44-T 297-2019 温泉服务 温泉沐浴服务要求 广东省.pdf
NB-T 10639—2021 风电场工程场址选择技术规范.pdf
GB-T 38472-2019 再生铸造铝合金原料.pdf
DB14-T 2255—2021 《机关事务标准体系总体框架》 山西省.pdf
GB-T 18725-2008 制造业信息化 技术术语.pdf
GB-T 31495.3-2015 信息安全技术 信息安全保障指标体系及评价方法 第3部分:实施指南.pdf
YD-T 4011-2022 5G网络管理技术要求 总体要求.pdf
GB-T 30942-2014 化妆品中禁用物质乙二醇甲醚、乙二醇乙醚及二乙二醇甲醚的测定 气相色谱法.pdf
GB-T 42591-2023 燃气轮机 质量控制规范.pdf
GB-T 23868-2019 体育用品的分类.pdf
山西省大数据发展应用促进条例.pdf
DB65-T 4458-2021 南疆盐碱地土壤调理剂施用技术规程 新疆维吾尔自治区.pdf
DB50-T 1474.3-2023 化粪池监控系统 第3部分:运行与管理 重庆市.pdf
GB-T 1311-2008 直流电机试验方法.pdf
DB3305-T 247-2022 银行信贷碳排放核算通则 湖州市.pdf
DB4403-T 12-2019 物业服务要求 商务写字楼 深圳市.pdf
NB-T 10204-2019 分布式光伏发电低压并网接口装置技术要求.pdf
GB-T 31519-2015 台风型风力发电机组.pdf
T-ZJEI 008—2023 制造业企业 数字化技术改造指南.pdf
GB-T 33562-2017 信息安全技术 安全域名系统实施指南.pdf
交流群
-->
1
/
16
评价文档
赞助2元 点击下载(685.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。