(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211110480.8
(22)申请日 2022.09.13
(65)同一申请的已公布的文献号
申请公布号 CN 115186015 A
(43)申请公布日 2022.10.14
(73)专利权人 广东财经 大学
地址 510000 广东省广州市海珠区赤沙路
21号
(72)发明人 郑伟发 谢文亮 蔡梓涛 程培宇
(74)专利代理 机构 广州润禾知识产权代理事务
所(普通合伙) 44446
专利代理师 林伟斌
(51)Int.Cl.
G06F 16/2458(2019.01)
G06N 5/02(2006.01)G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 16/835(2019.01)
G06F 16/903(2019.01)
G06F 40/295(2020.01)
(56)对比文件
CN 111163086 A,2020.0 5.15
US 2018159876 A1,2018.0 6.07
王伟.基于知识图谱的分布式安全 事件关联
分析技术研究. 《中国优秀硕士学位 论文全文数
据库信息科技 辑》 .2020,(第2期),第I138-1 1页.
审查员 邓丽婉
(54)发明名称
一种网络安全知识图谱构建方法及系统
(57)摘要
本发明提供网络安全知识图谱构建方法及
系统, 应用于网络安全领域, 包括: 构建网络安全
领域本体模型, 所述模型定义为CDO模型, 其中
CDO模型包括: 网络安全领域类的集合、 实体集合
和类与类 之间关系的集合; 从互联网中获取结构
化数据、 半结构化数据和非结构化文本数据; 从
结构化数据、 半结构化数据和非结构化文本数据
进行知识抽取得到网络安全实体、 属性及关系;
将网络安全实体、 属性和关系基于CDO模型存储
到图数据库, 完成网络安全知识图谱的构建。 通
过准确描述网络安全事件的事理逻辑关系, 考虑
漏洞、 威胁等多维度知识, 描述网络安全事件的
演化规律和模式, 结合知识抽取技术构建知 识图
谱, 提高网络安全分析的准确率和智能化水平。
权利要求书6页 说明书14页 附图4页
CN 115186015 B
2022.11.25
CN 115186015 B
1.一种网络安全知识图谱构建方法, 其特 征在于, 包括:
构建网络安全领域本体模型, 所述模型定义为 CDO模型,CDO=(C,I,R) , 其中CDO表示网
络安全领域本体,
C={c1, c2,…cx…,cm}表示网络安全领域类的集合, m表示网络安全领域类集合的类数
量,cx为某种网络安全领域类;
I={i1, i2,…ix…,in}表示实体集合, n表示实体数量, ix表示某个网络安全领域类的实
体;R={r1, r2,…rx…,rl}表示类与类之间关系的集合, l表示网络安全领域类与类的关系数
量,rx表示某一种类与类的关系;
从互联网中获取 结构化数据、 半结构化数据和非结构化文本数据;
从结构化数据、 半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、
属性及关系;
将网络安全实体、 属性和关系基于 CDO模型存储到图数据库中, 完成网络安全知识图谱
的构建;
从非结构化文本数据进行知识抽取 得到网络安全实体、 属性及关系, 具体包括:
利用非结构化文本数据抽取模型对非结构化文本数据进处 理得到自动化标注数据;
根据得到的自动化标注数据抽取 得到对应的网络安全实体、 属性及关系;
所述非结构化文本数据抽取模型的训练方法包括:
预定义应用于网络安全的文本标签集, 文本标签集中包括若干个标签;
获取非结构化文本数据样本形成以句子为单位的语料 数据样本集;
基于文本标签集对语料 数据样本集进行 人工标注得到对应的人工标注数据集;
将语料数据样本集和人工标注数据集进行 预处理分别转 化成数字矩阵集;
将语料数据样本集和人工标注数据集对应的数字矩阵集均对应地分为训练集和测试
集;
将训练集输入到利用神经网络构建的非结构化文本数据抽取模型中进行训练, 得到收
敛的非结构化文本数据抽取模型, 并利用测试集对非结构化文本数据抽取模型进行验证;
所述实体分为主体和客体;
所述文本标签集表示 为CyberTag,
CyberTag = { O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has ,
exploit , belong , threat },
O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit ,
belong , threat均为文本标签集中的标签;
其中文本标签集中 O代表威胁情报类以外的其他安全领域类中的实体的文本字符, BS
代表威胁情报 类中的实体属性文本字符的开始 位置,IS代表威胁情报 类中的实体属性文本
字符的中间位置, ES代表威胁情报类中的实体属性文本字符的结尾位置, SS代表单个文本
字符的威胁情报类中的实体属 性, 所述文本字符为汉字或英文单词; 威胁情报类中的实体
属性位置由数字 “1”和“2”表示, 1表示主体属性, 2表示客体属性; has、 exploit、 belong 和
threat为威胁情报类中实体的关系属性的值, has代表主体与客体的关系是拥有或存在;
exploit代表主体与客体的关系是利用, belong代表主体与客体的关系是属于, threat代表
主体与客体的关系是威胁和攻击;权 利 要 求 书 1/6 页
2
CN 115186015 B
2所述基于文本标签集对语料数据样本集进行人工标注得到对应的人工标注数据集, 具
体包括:
根据文本标签集中的标签判定语料数据样本集中的每个句子的汉字和英语单词所对
应的标签, 得到每 个句子对应的标注结果;
根据每个句子对应的标注结果, 每个句子中的汉字和英语单词按照文本标签集中标签
的顺序进 行存储生成标签数组, 其中句子中没有 出现的标签则 在标签数组中所述标签对应
的位置填上预设符号, 文本标签集中的标签O对应的汉字和/或英语单词在标签数组中标签
O对应的位置填上 所述预设符号;
语料数据样本集中句子对应的标签数组 组成人工标注数据集。
2.根据权利要求1所述的网络安全知识图谱构建方法, 其特征在于, 所述半结构化数据
包括事件数据;
所述事件数据包括 安全事件告警信息, 其 通过OSSIM 平台从不同的安全设备 上获取。
3.根据权利要求2所述的网络安全知识图谱构建方法, 其特征在于, 网络安全领域类的
集合C包括与网络资产相关的类、 与脆弱性相关的类、 与攻击相关的类、 与观测指标相关的
类和与情 报相关的类;
所述与网络资产相关的类的集合表示为Class(Assets)={Host, Network Equipment,
Safety Equipment, Hardware, OS, Software, Network, IP, Port};
其中, Host表示主机类, Network Equipment表示网络设备类, Safety Equipment表示
安全设备类, Hardware表示硬件类, OS表示操作系统类, Software表示软件类, Network表示
互联网类, IP表示 IP地址类, Por t表示端口类;
所述与脆弱性相关的类的集合表示为Class(Fragility)={Vulnerability,
Weakness};
其中, Vul nerability表示漏洞类, Weak ness表示弱点类;
所述与攻击相关的类的集合表示为Class(Attack)={Attacker, Mean, Tool,
Malware, Consequence};
其中, Attacker表示攻击者类, Mean表示攻击方法类, Tool表示攻击工具类, Malware
表示恶意软件类, Consequence表示 攻击结果类;
所述与情报相关的类的集合表示为Class(Intelligence)={Event, Threat
intelligence},
其中, Event 表示安全事件类, Threat intelligence表示 威胁情报类;
从半结构化数据中进行知识抽取得到网络安全实体、 属性及关系, 包括从事件数据中
进行知识抽取 得到网络安全实体、 属性及关系;
所述从事 件数据中进行知识抽取 得到网络安全实体、 属性及关系, 具体包括:
设所述CDO模型中主机类集合为 H={h1, h2, h3,…hi…,ha}, 其中hi表示第i台主机,a表示
主机数量;
每个安全事件告警信息含有源IP、 源端口、 目的IP、 目的端口、 事 件、 漏洞类和时间;
提取每台主机发生的安全事件对应的安全事件告警信 息, 得到每 台主机预处理后的安
全事件流为 E={Emsg1, Emsg2, Emsg3,…Emsgi…, Emsgb},Emsgi表示安全事件, b表示有b个安
全事件;权 利 要 求 书 2/6 页
3
CN 115186015 B
3
专利 一种网络安全知识图谱构建方法及系统
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:13上传分享