首页 / 专利库 / 商业 / 上市时间 / 一种基于强化学习和迁移学习的动态金融知识图谱构建方法

一种基于强化学习和迁移学习的动态金融知识图谱构建方法

阅读:547发布:2020-05-11

专利汇可以提供一种基于强化学习和迁移学习的动态金融知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 强化学习 和迁移学习的动态金融知识图谱构建方法。本方法为:1)对于各所选上市公司的结构化数据和半结构化数据,构建一金融知识图谱;并将图谱中的金融实体对应的实体指称插入到金融实体 数据库 ;2)对于与所选上市公司相关的非结构化数据得到一金融实体数据集;3)利用金融实体数据集、标准实体识别数据集训练金融实体识别模型;4)生成一金融实体链接数据集,然后利用金融实体链接数据集训练金融实体链接模型;5)利用训练后的金融实体链接模型在金融知识图谱中找到非结构化数据中每个实体指称对应的金融实体并更新金融知识图谱;6)利用金融关系 抽取 模型从非结构化数据进行金融实体关系抽取并更新金融知识图谱。,下面是一种基于强化学习和迁移学习的动态金融知识图谱构建方法专利的具体信息内容。

1.一种基于强化学习和迁移学习的动态金融知识图谱构建方法,其步骤包括:
1)对于各所选上市公司的结构化数据和半结构化数据,构建一金融知识图谱;并将所述金融知识图谱中的金融实体对应的实体指称插入到金融实体数据库
2)对于与所选上市公司相关的非结构化数据,获取所述非结构化数据中每个包含实体的句子序列,查询每个句子序列的实体在该金融实体数据库中是否存在标记实体,过滤掉实体未存在于该金融实体数据库的句子序列,然后将金融实体数据库中实体所带有的标签作为句子序列中对应实体的标志,将所得句子序列集合作为金融实体数据集;
3)利用金融实体数据集、标准实体识别数据集训练金融实体识别模型;
4)利用步骤3)训练后的金融实体识别模型对非结构化数据进行金融实体识别,保留在所述金融实体数据库中包含具有唯一实体指称金融实体的句子;然后对所述句子进行负采样,获得正负样例平衡的金融实体链接数据集,然后利用金融实体链接数据集训练金融实体链接模型;
5)利用训练后的金融实体链接模型在所述金融知识图谱中找到所述非结构化数据中每个实体指称对应的金融实体,并对找到的金融实体与对应的实体指称进行链接并更新金融知识图谱;
6)利用金融关系抽取模型从所述非结构化数据进行金融实体关系抽取并更新所述金融知识图谱,得到动态展示的金融知识图谱。
2.如权利要求1所述的方法,其特征在于,步骤1)中,构建金融知识图谱的方法为:首先基于上市公司的结构化数据和半结构化数据构建该上市公司的金融实体集合,以及该金融实体集合中各金融实体之间的关系集合;然后获取该金融实体集合中各金融实体的相关实体信息作为对应金融实体的附加属性值;然后基于各上市公司的金融实体集合及对应关系集合构建所述金融知识图谱。
3.如权利要求1所述的方法,其特征在于,基于BERT、BiLSTM和CRF构建所述金融实体识别模型;所述金融实体识别模型依次包括输入层、BERT层、双向长短期记忆网络层和作为输出的条件随机场层;其中,BERT层,用于对输入层输入的字序列进行处理得到BERT的语义编码并发送给双向长短期记忆网络层;双向长短期记忆网络层,用于汇集双向长句子信息,对句子语义进行学习表示并传送给条件随机场层;条件随机场层,用于根据设置的约束来保证预测标签的合法性,得到标注序列。
4.如权利要求1或2或3所述的方法,其特征在于,利用迁移学习算法训练所述金融实体识别模型:首先使用标准实体识别数据集对所述金融实体识别模型进行初步的训练,得到可识别基本实体类别的所述金融实体识别模型;然后将映射层和CRF层的大小依据金融实体数据类别进行更改,保留其他网络层的权重作为初始化数据,最后使用金融实体数据集对所述金融实体识别模型继续训练,得到最终的所述金融实体识别模型。
5.如权利要求1所述的方法,其特征在于,步骤5)中,金融实体链接模型基于提取的指实体指称和金融实体之间的文本相似度特征和上下文相似度特征,确定实体指称对应的金融实体。
6.如权利要求1所述的方法,其特征在于,所述金融知识图谱包括多个金融实体,金融实体之间产生的联系在金融知识图谱中以边的表示形式存在,边的起始点和终止点均为金融实体且每一条边上都会印有时间戳,代表该边产生的时间。
7.如权利要求6所述的方法,其特征在于,所述边为金融关系,包括股东关系、高管关系、法人关系、概念所属、行业所属、地点所属、托管关系、管理关系和产品关系。
8.如权利要求1所述的方法,其特征在于,所述金融关系抽取模型为基于BERT和强化学习的关系分类算法模型,包括实例选择器和关系分类器;其中,实例选择器作为一个分类器,会筛选远程监督数据来作为关系分类器的训练数据,关系分类器则通过分类任务得到的反馈来优化实例选择器;通过强化学习算法对实例选择器和关系分类器进行优化。
9.如权利要求1所述的方法,其特征在于,所述金融实体包括:公司、机构、基金、产品、个人、概念、行业和地点。
10.如权利要求1所述的方法,其特征在于,所述半结构化数据包括高管数据、公司数据和股东数据。

说明书全文

一种基于强化学习和迁移学习的动态金融知识图谱构建方法

技术领域

[0001] 本发明涉及一种动态金融知识图谱的构建方法,具体方法为利用A股上市公司的相关结构化和非结构化数据构建基础知识图谱,通过强化学习和迁移学习等多个模型对图谱进行扩建和优化,最终构建并展示出一个动态的金融知识图谱。本发明属于表示学习和数据分析领域。

背景技术

[0002] 1.动态金融知识图谱
[0003] “知识图谱”这个名称起源于谷歌公司2012年推出的知识库,该知识库是用来支持从语义度组织网络上的数据,从而提供智能搜索服务。知识库中存储的实体和关系,可以完全等价图的节点和边,所以知识图谱渐渐与知识库的概念等同起来。
[0004] 自知识库和知识图谱的概念创立以来,国内外涌现了很多有影响的知识库项目。传统的知识图谱的构建主要依赖于专家知识,如CYC,WordNet等。后来随着互联网的发展,产生了大量的高质量的由用户生成的内容,如WikiData、Freebase、CN-DBpedia等。随着机器学习深度学习的快速发展,自动构建图谱技术也越来越成熟,极大地提升知识图谱的覆盖率和规模,如NELL。
[0005] 随着知识图谱的发展,通用的知识图谱涵盖面越来越广,但在针对特定领域的专业需求,通用知识图谱的深度远远达不到了领域应用要求。金融领域对于数据的强依赖性,决定了其对于金融知识图谱的刚性需求。金融知识图谱可以将海量的金融数据知识化和规范化,以用户友好的方式可视化展现,大大地减轻了金融从业者的负担。同时相较于医疗领域,金融领域的数据相对开放,并且有相关金融机构进行整合,完整性也得到了一定程度的保证。
[0006] 动态知识图谱相对于普通知识图谱,增加了时间维度的信息,完整记录图谱结构随时间的演变和趋势。动态知识图谱的难点在于,动态数据难以收集,多方信息存在的数据不一致问题,以及如何用户友好地展示这些信息等等。目前业界对于动态知识图谱研究的投入较少。
[0007] 2.学习算法
[0008] 在本文动态金融知识图谱的构建过程中,主要用到了深度学习、表示学习和迁移学习等多种学习算法。
[0009] 深度学习相对于浅层机器学习来说,不同点在于能够自动从大量数据中,提取高抽象性的特征,进行模型训练。主流的模型分为卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Network,RNN)。长短期记忆(Long Short-Term Memory,LSTM)网络是对RNN网络的扩展,主要是为了解决长序列在使用循环神经网络训练过程中产生的梯度消失和梯度爆炸问题。
[0010] 表示学习是指将某一个对象映射到另一个空间中去,如映射f:X→Y。本文中主要探讨将文本转化为数值型数据,使文本信息能够有效编码,以提供给机器学习等算法,其中Word2Vec是Mikolov2013提出的经典词语表示学习算法。
[0011] 迁移学习是指把已学好的模型参数,迁移到相关的新任务上,以帮助提升新模型的学习效果。迁移学习的核心就是,分析和发现源领域和目标领域的相似性,并对其加以利用。如果两个任务之间不存在相似性,却强行应用迁移学习,将会产生负迁移(Negative Transfer)现象,即源领域学到的知识,会对目标域上的学习产生负面作用。
[0012] 强化学习是一种重要的机器学习算法,整个过程仿照了动物学习的过程。动物学习遵从一套激励和惩罚的模式,得到奖励的行为会被强化,而受到惩罚的行为会被弱化。强化学习尝试训练一个智能体(Agent),通过决策在什么状态(State)下采用什么行动(Action),而获得最大的回报(Reward)。
[0013] 3.图谱构建相关技术
[0014] 目前知识图谱构建的关键技术,可以分为实体识别、实体链接和关系抽取三个部分。
[0015] 实体识别,全称命名实体识别(Named Entity Recognition:NER),是指从文本中识别出预定义的特殊的对象,如人名、地名、机构名等等。实体识别算法,可以分为传统的实体识别算法和深度学习算法。传统的实体识别算法又可细分为:基于规则的算法、无监督的算法和基于特征的有监督算法。深度学习的普遍做法是将实体识别看作是序列标注问题,然后利用深度学习相关算法进行学习。
[0016] 实体链接(Entity Linking:EL)又称实体消歧,是指将文本中的实体指称(Mention;如“北京大学”、“北大”),映射到知识库中对应的实体。实体链接主要分为两个部分,首先要生成候选集,然后再对候选项进行排序。对于排名最高的候选项,还需要判断该实体是否是实体指称的合理映射,如不存在合理映射,则返回NIL。候选集的生成一般是通过统计实体指称到实体的情况,然后对于每一个实体指称建立实体候选集。实体链接的主要难点还是在于如何衡量候选项与当前指称的相关性。
[0017] 在对文本进行实体识别和实体链接之后,得到的是一堆散列的实体。实体对应的是知识图谱的节点,关系对应的是知识图谱的边,所以还需要从相应语料中提取出实体间的关系,图谱构建流程才算完整。关系抽取任务,在1998年便以MUC-7的任务形式在信息理解会议(Message Understanding Conference:MUC)引进。其发展和实体识别任务非常类似,都是由朴素的模版匹配的方法,到监督学习和监督学习,最后到深度学习阶段的发展脉络。

发明内容

[0018] 针对现有技术存在的技术问题,本发明的目的在于提供一种基于强化学习和迁移学习的动态金融知识图谱构建方法。
[0019] 基于A股上市公司数据,本发明利用相关背景技术构建了一个具有时间维度的动态知识图谱。本发明基于如下几个步骤:
[0020] 1)通过A股相关的结构化数据和半结构化数据,构建基础的动态金融知识图谱。
[0021] 2)利用迁移学习算法,训练利用BERT、BiLSTM和CRF构建而成的金融实体识别模型。
[0022] 3)利用相似度特征和先验知识特征,训练金融实体链接模型。
[0023] 4)使用强化学习去除远程监督带来的噪音,训练金融关系分类模型。
[0024] 5)设计和构建展示网站,动态地展示知识图谱随时间的结构变化。
[0025] 本发明的技术方案为:
[0026] 一种基于强化学习和迁移学习的动态金融知识图谱构建方法,其步骤包括:
[0027] 1)对于各所选上市公司的结构化数据和半结构化数据,构建一金融知识图谱;并在所述金融知识图谱的构建过程中,根据实体指称到金融实体的映射关系将所述金融知识图谱中的金融实体对应的实体指称插入到金融实体数据库
[0028] 2)对于与所选上市公司相关的非结构化数据,获取所述非结构化数据中每个包含实体的句子序列,查询每个句子序列的实体在该金融实体数据库中是否存在标记实体,过滤掉实体未存在于该金融实体数据库的句子序列,然后将金融实体数据库中实体所带有的标签作为句子序列中对应实体的标志,将所得句子序列集合作为金融实体数据集;
[0029] 3)利用金融实体数据集、标准实体识别数据集训练金融实体识别模型;
[0030] 4)利用步骤3)训练后的金融实体识别模型对非结构化数据进行金融实体识别,保留在所述金融实体数据库中包含具有唯一实体指称金融实体的句子;然后对所述句子进行负采样,获得正负样例平衡的金融实体链接数据集,然后利用金融实体链接数据集训练金融实体链接模型;
[0031] 5)利用训练后的金融实体链接模型在所述金融知识图谱中找到所述非结构化数据中每个实体指称对应的金融实体,并对找到的金融实体与对应的实体指称进行链接并更新金融知识图谱;
[0032] 6)利用金融关系抽取模型从所述非结构化数据进行金融实体关系抽取并更新所述金融知识图谱,得到动态展示的金融知识图谱。
[0033] 进一步的,步骤1)中,构建金融知识图谱的方法为:首先基于上市公司的结构化数据和半结构化数据构建该上市公司的金融实体集合,以及该金融实体集合中各金融实体之间的关系集合;然后获取该金融实体集合中各金融实体的相关实体信息作为对应金融实体的附加属性值;然后基于各上市公司的金融实体集合及对应关系集合构建所述金融知识图谱。
[0034] 进一步的,基于BERT、BiLSTM和CRF构建所述金融实体识别模型;所述金融实体识别模型依次包括输入层、BERT层、双向长短期记忆网络层和作为输出的条件随机场层;其中,BERT层,用于对输入层输入的字序列进行处理得到BERT的语义编码并发送给双向长短期记忆网络层;双向长短期记忆网络层,用于汇集双向长句子信息,对句子语义进行学习表示并传送给条件随机场层;条件随机场层,用于根据设置的约束来保证预测标签的合法性,得到标注序列。
[0035] 进一步的,利用迁移学习算法训练所述金融实体识别模型:首先使用标准实体识别数据集对所述金融实体识别模型进行初步的训练,得到可识别基本实体类别的所述金融实体识别模型;然后将映射层和CRF层的大小依据金融实体数据类别进行更改,保留其他网络层的权重作为初始化数据,最后使用金融实体数据集对所述金融实体识别模型继续训练,得到最终的所述金融实体识别模型。
[0036] 进一步的,步骤5)中,金融实体链接模型基于提取的指实体指称和金融实体之间的文本相似度特征和上下文相似度特征,确定实体指称对应的金融实体。
[0037] 进一步的,所述金融知识图谱包括多个金融实体,金融实体之间产生的联系在金融知识图谱中以边的表示形式存在,边的起始点和终止点均为金融实体且每一条边上都会印有时间戳,代表该边产生的时间。
[0038] 进一步的,所述边为金融关系,包括股东关系、高管关系、法人关系、概念所属、行业所属、地点所属、托管关系、管理关系和产品关系。
[0039] 进一步的,所述金融关系抽取模型为基于BERT和强化学习的关系分类算法模型,包括实例选择器和关系分类器;其中,实例选择器作为一个分类器,会筛选远程监督数据来作为关系分类器的训练数据,关系分类器则通过分类任务得到的反馈来优化实例选择器;通过强化学习算法对实例选择器和关系分类器进行优化。
[0040] 进一步的,所述金融实体包括:公司、机构、基金、产品、个人、概念、行业和地点。
[0041] 进一步的,所述半结构化数据包括高管数据、公司数据和股东数据。
[0042] 与现有技术相比,本发明的积极效果为:
[0043] 本发明构建的动态金融知识图谱因为可以展示相关属性随时间的变化,具有更强的实际应用价值。其构建流程和算法均采用了最新的深度学习模型与技术,对于专业动态图谱构建提供了框架和思路,具有很好的泛化性。附图说明
[0044] 图1是动态金融知识图谱构建流程示意图。
[0045] 图2是金融实体识别任务中的迁移学习示意图。
[0046] 图3是基于BERT和强化学习的金融关系分类模型示意图。
[0047] 图4是知识图谱可视化界面示意图。

具体实施方式

[0048] 下面结合说明书附图对本发明进行进一步描述。
[0049] 动态金融知识图谱构建流程如图1所示。图谱构建流程可以大致分为两个部分:一是基于半结构化数据和结构化数据搭建基础的动态金融知识图谱,二是在基础图谱的监督下对非结构化数据提取知识来扩充图谱。第一个部分主要是工程性的工作,涉及数据处理、数据库构建和网站搭建;第二个部分是本发明专利的重点,侧重算法和模型设计。
[0050] 一、数据获取
[0051] 本发明中所构建的动态金融知识图谱是基于大量爬取的互联网数据,它们包括:A股上市公司列表、上市公司基本信息及简介、主要股东及流通股东(季度更新)、上市公司高管信息、上市公司新闻、公告及研报等。
[0052] 由于该任务需要收集大量的数据,这就要求爬虫能够高效地抓取数据,并且能够应对各网站的反爬虫措施。本发明基于Scrapy框架实现爬虫机制,构建和更新代理池,并行地爬取所需要的数据。爬虫抓取到的数据存储在MongoDB中,方便程序快速地索引。
[0053] 二、基础动态金融知识图谱构建
[0054] 基于新浪财经网获取的A股上市公司列表并通过CNDBPedia和球网公司数据,本发明逐个对上市公司构建了基本的A股上市公司金融实体。然后利用半结构化数据如高管数据、公司数据、股东数据,整理构建相关的个人实体和其他公司实体。与此同时,借助Tushare工具,获取关于上市公司股票概念、行业、地点等固定内容,然后通过百度百科、维基百科和CN-DBPedia获取相关实体信息,作为构建实体时的附加属性值。即对于获得的每一个实体,都通过上述三种数据库进行查询,获得简介、百科标签等属性。在构建基本的金融实体之后,通过上述的半结构化数据和结构化数据中已有的关系数据,提取作为实体之间的关系集合。
[0055] 在初步得到实体和关系集合之后,通过结构化数据(如知识库CN-DBpedia)进一步扩展丰富相关实体间的信息,提取出一个小型的与金融相关的网络结构。在构建过程中需要记录一些信息,诸如实体指称到实体的映射、该金融实体在哪些股票范围会出现等等。这些相关信息和构建好的基础的动态金融知识图谱,将会对之后基于非结构化数据的图谱扩建工作带来帮助。
[0056] 三、金融实体
[0057] 实体是指客观存在并且可相互区别的事物,如人、地点和机构等。本文根据A股相关数据,总共归纳划分了8种有具体意义的金融实体:公司、其他机构、基金、产品、个人、概念、行业和地点。
[0058] 本发明的实体定义针对于金融领域,相较于常见实体识别数据集,划分更为细致。对于实体识别任务构建的深度学习模型,实体识别所构建的特征抽取等模功能是一致的。一般的实体识别任务和金融实体识别任务从数据格式、模型设置和任务目的等方面都是非常相似的,适合对两者进行迁移学习。
[0059] 模型中使用数据集分为两部分:标准实体识别数据集和金融实体识别数据集。标准实体识别数据集是指业界一般中文实体识别任务的所使用数据集,本文中采用的是SIGHANBakeoff2006数据集,其中包含3种基本实体、7种标记符号。
[0060] 1.金融实体识别
[0061] 金融实体识别数据集是通过结构化和半结构化数据进行数据预处理后,借助StanfordCoreNLP工具的实体识别接口,对非结构化数据中句子序列进行实体识别,得到含有带实体的句子序列集合。在基础动态金融知识图谱构建过程中,每个实体指称到金融实体的映射,都将插入金融实体数据库。对于每个包含实体的句子序列,查询该数据库是否存在标记实体,过滤掉实体未存在于数据库的句子序列。最后将金融实体数据库中实体所带有的标签作为句子序列中对应实体的标志,所得到的句子序列集合就是金融实体数据集。
[0062] 在实体识别任务中,本发明基于双向长短期记忆网络和条件随机场结合的算法,辅以BERT语言模型,作为我们的金融实体识别模型,称为BERT_BiLSTM_CRF。该模型由下至上分别为输入层、BERT层、双向长短期记忆网络层和作为输出的条件随机场层。
[0063] 其中,BERT层使用字序列作为输入,得到BERT的语义编码发送给双向长短期记忆网络层;双向长短期记忆网络层汇集双向长句子信息,对句子语义进行学习表示,并传送给条件随机场层;条件随机场层可以添加约束来保证预测的标签的合法性,最后得到标注序列。
[0064] 图2描述了金融实体识别任务中的迁移学习过程。首先,将使用标准实体识别数据对模型进行初步的训练,得到可以识别基本实体类别的BERT_BiLSTM_CRF模型。然后将映射层(图2中的Proj)和CRF层的大小依据金融实体数据类别进行更改,保留其他网络层的权重作为初始化数据,最后使用金融实体识别数据对BERT_BiLSTM_CRF模型进行训练,得到最后的金融实体识别模型。
[0065] 2.金融实体链接
[0066] 由于自然语言天然所具有的歧义性,相同的实体指称在不同的语境下可能会对应到不同的实体。实体链接是解决实体歧义的一种重要途径,通过将实体指称项链接到具有唯一标识的图谱实体,从而实现实体的消歧。金融实体指称同样具有歧义性,所以链接文本中的金融实体指称,对于后面的关系抽取任务是必不可少的一步。
[0067] 本发明首先借助上文训练出的金融实体识别模型(即BERT_BiLSTM_CRF)对非结构化数据进行金融实体识别,为了数据集的准确性,只留下在金融实体数据库中包含具有唯一实体指称金融实体的句子。然后对筛选出的句子进行负采样,即从金融实体数据库中,随机采样一个实体,将实体指称到该实体的链接作为负样本。最后形成了正负样例平衡的金融实体链接数据集,以此作为金融实体链接任务的训练集。
[0068] 本发明中的金融实体链接任务,是指在对于非结构化文本金融实体识别之后,对于非结构化数据中的每个实体指称在金融实体关系库(即基础的动态金融知识图谱)中找到其对应的金融实体。对于金融实体链接任务,提取的特征主要分为两部分,一部分是基于相似度的特征,一部分是语料先验知识特征。相似度特征又分为文本相似度特征和上下文相似度特征。文本相似度特征主要指实体指称和实体之间的相似度,其中词语相似度由训练好的Word2Vec模型表示向量相似度、Jaccard相似度等来衡量。上下文相似度主要由实体指称所在的上下文和实体相关内容的语义相似度进行计算,发明中使用维基百科语料训练的Doc2Vec和谷歌提供的预训练模型BERT等计算句子的向量表示,再对表示向量进行相似度计算。基于语料的特征是在构建基础的动态金融知识图谱过程中所发现的一些特征,如,某些金融实体只出现在某几只股票的相关数据中,金融实体中的stock_codes域就作为相关股票的记录。而对于每个A股公司相关的非结构化数据,设置的股票代码标签是否在stock_codes中出现,可以作为一个特征。
[0069] 最后,使用支持向量机分类模型对金融实体进行链接。
[0070] 四、金融关系抽取
[0071] 金融关系是指金融实体之间产生的联系,在图谱中以边的表示形式存在。在本发明中定义的动态金融知识图谱中,金融关系的起始点和终止点均为金融实体,同时由于采集到的数据是具有时间属性,描述图的动态变化,每一条金融关系上都会印有时间戳,代表该关系产生的时间。基于已定义好的8种金融实体,我们一共设计构造了9种金融关系,包括股东关系、高管关系、法人关系、概念所属、行业所属、地点所属、托管关系、管理关系和产品关系。
[0072] 关系抽取是判断一句话中两个实体是否包含关系,并进行关系类别的判定。关系分类是指判断一句话中的两个实体属于哪一种关系,所以可以看做是关系抽取的子任务。在本发明的模型中,将“NA”(Not Available)作为特殊的关系类别,则关系分类任务完全等价于关系抽取任务。
[0073] 关系分类任务的难点同样在于需要大量的标注数据,主流的借鉴方法是远程监督。远程监督是指根据已有的数据库知识,制造对应的训练数据,来进行模型的训练。传统的监督学习会不严谨地假定,所有包含两个实体的语句,都会阐述两个实体之间具有数据库中的某种关系,这种假设势必会为数据引入非常多的噪音。
[0074] 我们构建了基于BERT和强化学习的关系分类算法模型。如图3所示,算法模型由实例选择器(Instance Selector)和关系分类器(Relation Classifier)两部分组成。实例选择器作为一个分类器,会筛选远程监督数据来作为关系分类器的训练数据,而关系分类器则通过分类任务得到的反馈来优化实例选择器。通过强化学习算法,对实例选择器和关系分类器进行优化。本发明基于清华大学的OpenNRE项目,增加了BERT语言表示模块和改进强化学习部分,联合组成本文的金融关系分类模型。
[0075] 最后通过训练好的金融实体识别模型,金融实体链接模型和金融关系抽取模型,对爬取到的海量的非结构化数据识别链接和抽取。对于抽取得到的知识,不断完善本发明的动态金融知识图谱数据库。
[0076] 五、可视化系统
[0077] 知识图谱本质上是一种图结构的知识库,它融合了不同来源的知识单元并通过单元之间的相互连接构建成图。通常情况下,直接观察图谱数据本身并不是一种有效获取知识的手段,而可视化技术将复杂的图结构转化直观的图形形式表现,并通过人机交互手段,帮助人们更为有效地了解和掌握知识图谱。
[0078] 本发明设计实现了支持交互的动态知识图谱可视化系统。系统的界面如图4所示,界面主要包括:(a)知识图谱关系图,(b)时间轴,(c)实体信息展示视图,(d)实体检索框。
[0079] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈