专利汇可以提供一种面向暗网的数据采集与分析系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种面向暗网的 数据采集 与分析系统及方法,涉及信息安全技术领域。本发明在暗网数据采集方面通过在tor网络中部署探测 节点 ,结合已有的爬虫接入、域名获取技术及方法,可获取更多有效暗网地址,通过暗网数据分析,将获取的暗网数据,进行 关联性分析 、热点分析等,从而解决了暗网原始数据格式不统一、数据内容杂乱的问题,并通过翻译平台解决了暗网中小语种多的问题。,下面是一种面向暗网的数据采集与分析系统及方法专利的具体信息内容。
1.一种面向暗网的数据采集与分析系统,其特征在于,包括:
数据采集模块:用于从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
数据处理模块:用于将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理;
数据存储模块:用于实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据包括数据处理过程中,对文本数据打的标签;
数据分析模块:用于实现对数据存储模块中存储的数据的分析。
2.如权利要求1所述的系统,其特征在于,所述数据采集模块具体通过以下方式获取暗网域名:所述公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集。
3.如权利要求2所述的系统,其特征在于,所述数据采集模块具体通过以下方式获取暗网域名:所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
4.如权利要求1所述的系统,其特征在于,所述数据处理模块具体用于通过以下方法进行数据处理:
语种翻译:通过机器翻译,将不同国家、不同民族的语言进行翻译;
信息提取:运用机器学习相关知识,提取语种翻译后数据中的有用信息,去除多余无意义信息;将关注的文本通过自然语言处理方法进行关键词提取、依存句法分析方法,抽取文本中的热点事件相关的实体,并抽取出两个或多个实体之间的关系;
数据格式化:根据结构化威胁信息表达式STIX以及指标信息的可信自动化交换TAXII标准,将经信息提取后得到的多样化暗网数据统一表达;
特征提取:通过机器学习相关算法对格式化后的文本进行分析、处理、归纳和推理,将格式化数据抽象出一个特征,作为数据的标签,标签可有多个;
数据筛选:将经特征提取后的多样数据进行清洗筛选,实现对无意义信息的进一步去除。
5.如权利要求1所述的系统,其特征在于,所述数据分析模块具体用于通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析:
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率高于预设阈值;2、一段事件内,事件标签持续预设一定时间出现;
敏感数据跟踪:对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向信息;通过预设一定时间的持续关注,分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:对暗网数据中的人物、时间、地点、事件关联起来;并对暗网数据中的人与人、人与事件之间进行关联,从而通过用户的行为,尽可能挖掘暗网用户标签;并通过对不同用户标签的关联分析,挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序;该分析利用统计分析方法,观测网站规模的变化,网站类别的变化,并用于通过网站规模的变化间接推测Tor网络安全状态。
6.如权利要求1所述的系统,其特征在于,所述系统还包括:应用模块:用于对数据分析模块得到的数据进行可视化展示,包括实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。
7.一种面向暗网的数据采集与分析方法,其特征在于,包括以下步骤:
数据采集步骤:从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
数据处理步骤:将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理;
数据存储步骤:实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据包括数据处理过程中,对文本数据打的标签;
数据分析步骤:实现对数据存储模块中存储的数据的分析。
8.如权利要求7所述的方法,其特征在于,所述公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集。
9.如权利要求8所述的方法,其特征在于,所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
10.如权利要求7所述的方法,其特征在于,所述数据分析步骤包括通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析:
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率高于预设阈值;2、一段事件内,事件标签持续预设一定时间出现;
敏感数据跟踪:对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向信息;通过预设一定时间的持续关注,分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:对暗网数据中的人物、时间、地点、事件关联起来;并对暗网数据中的人与人、人与事件之间进行关联,从而通过用户的行为,尽可能挖掘暗网用户标签;并通过对不同用户标签的关联分析,挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序;该分析利用统计分析方法,观测网站规模的变化,网站类别的变化,并用于通过网站规模的变化间接推测Tor网络安全状态。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
通用翻译 | 2020-05-15 | 155 |
面向计算机辅助翻译的输入方法与装置 | 2020-05-26 | 150 |
多语言文档聚类 | 2020-05-20 | 272 |
电子临床自由文本的阅读者驱动的释义 | 2020-05-23 | 494 |
一种跨语言分析报告的生成方法 | 2020-05-24 | 507 |
一种基于神经元的机器翻译方法 | 2020-05-26 | 656 |
一种基于篇章的机器翻译引擎测评优选方法及系统 | 2020-05-14 | 118 |
一种面向暗网的数据采集与分析系统及方法 | 2020-05-15 | 329 |
一种双模蓝牙翻译机及其使用方法 | 2020-05-13 | 483 |
翻译平台匹配方法及装置 | 2020-05-16 | 157 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。