首页 / 专利库 / 地球科学 / / 一种面向金融事件的混合型因果关系发现方法

一种面向金融事件的混合型因果关系发现方法

阅读:600发布:2021-06-15

专利汇可以提供一种面向金融事件的混合型因果关系发现方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种面向金融事件的混合型因果关系发现方法,首先对文本事件因果关系进行 抽取 ;然后结合文本事件所对应的关键词在百度指数上找出事件对应时间序列的关注指数的变化趋势,即搜索指数曲线,并运用传递熵进行时序事件因果关系的推断;最后用最大似然估计方法融合因果关系抽取结果和基于搜索指数曲线的时序数据进行因果关系推断所得的结果,生成一种因果关系发现。本发明方法可以对金融事件对所蕴含的因果关系进行快速的甄别与发现。,下面是一种面向金融事件的混合型因果关系发现方法专利的具体信息内容。

1.一种面向金融事件的混合型因果关系发现方法,其特征在于,包括以下步骤:
S1.获取金融事件文本数据集;
S2.从所述金融事件文本数据集中抽取文本事件因果关系;
S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线;
S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系;
S5.用最大似然估计方法融合步骤S2和S4分别得到的因果关系,从而生成金融事件因果关系发现。
2.根据权利要求1所述的面向金融事件的混合型因果关系发现方法,其特征在于,步骤S2中所述从所述金融事件文本数据集中抽取文本事件因果关系通过以下的文本事件因果关系抽取架构实现:
输入层:利用Stanford Parser对所述金融事件文本数据集进行数据预处理,获取每个文本事件序列的句法标签和词性标签;
序列预测层:构建融合注意机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练,获得每个文本事件序列的双向隐状态编码信息和文本事件的标签信息,作为关系预测层的联合输入;
关系预测层:构建融合多句法结构的Bi-Tree-LSTM网络,对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系;
端到端的训练:将所述关系预测层嵌套在序列预测层之上,利用共享参数进行端到端的训练,通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。
3.根据权利要求2所述的面向金融事件的混合型因果关系发现方法,其特征在于,在所述融合注意力机制的Bi-LSTM-CRF网络中,通过其中的Bi-LSTM获取文本事件序列的双向隐状态编码信息;基于注意力机制进行二次学习来调整所述双向隐状态编码信息在原始文本事件序列上的权重分布;通过其中的CRF层基于BILOU标注模式进行解码,从而预测文本事件的标签信息。
4.根据权利要求3所述的面向金融事件的混合型因果关系发现方法,其特征在于,步骤S4中所述的利用因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系具体为:
所述传递熵的规则定义如下:
两搜索指数曲线对应的文本事件对A,B的传递熵为TEA→B,k次置换检验的传递熵向量为若满足 则A→B的因果关系是显著的;其中α为选定的显
著性平;
因果关系A→B是否显著的检验步骤:
首先定义H0:因果关系A→B不存在;定义H1:因果关系A→B存在;
a.计算统计量TEA→B;
b.随机打乱序列At-1的顺序k次,计算统计量TE′;
c.计算p值:
d.若 成立,则拒绝H0;否则接受H0;
根据:
其中I(·;·|·)为条件互信息,δ,l分别是想要检验的A对B的因果延迟和滞后期数量;Con是条件变量集,包括A的自身影响和其他已知的原因变量;shuffle(·)是洗牌函数,负责将序列随机打乱;
若给定Con的条件下,A→B存在因果延迟为δ、滞后期数量为l的因果关系,则信息传递量等于
5.根据权利要求4所述的面向金融事件的混合型因果关系发现方法,其特征在于,所述步骤S5中采用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量,从而实现两个因果关系的融合。
6.根据权利要求5所述的面向金融事件的混合型因果关系发现方法,其特征在于,对所述最大似然估计方法的似然函数表达式取自然对数进行简化,再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。

说明书全文

一种面向金融事件的混合型因果关系发现方法

技术领域

[0001] 本发明涉及金融事件的因果关系发现技术领域,尤其涉及一种面向金融事件的混合型因果关系发现方法。

背景技术

[0002] 在经济全球化的时代背景下,研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。比如开放自贸区带来的进出口总额的变化对外贸型企业股价存在一定的影响,这种影响可以提炼为金融政策的发布对以出口为导向的企业的发展存在因果关系,即金融政策调整导致企业股价上升。同时随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。

发明内容

[0003] 本发明为解决金融事件中因果关系的无法快速甄别和发现的问题,提供了一种面向金融事件的混合型因果关系发现方法。
[0004] 为实现以上发明目的,而采用的技术手段是:
[0005] 一种面向金融事件的混合型因果关系发现方法,其特征在于,包括以下步骤:
[0006] S1.获取金融事件文本数据集;
[0007] S2.从所述金融事件文本数据集中抽取文本事件因果关系;
[0008] S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线;
[0009] S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系;
[0010] S5.用最大似然估计方法融合步骤S2和S4分别得到的因果关系,从而生成金融事件因果关系发现。
[0011] 优选的,步骤S2中所述从所述金融事件文本数据集中抽取文本事件因果关系通过以下的文本事件因果关系抽取架构实现:
[0012] 输入层:利用Stanford Parser对所述金融事件文本数据集进行数据预处理,获取每个文本事件序列的句法标签和词性标签;
[0013] 序列预测层:构建融合注意机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练,获得每个文本事件序列的双向隐状态编码信息和文本事件的标签信息,作为关系预测层的联合输入;
[0014] 关系预测层:构建融合多句法结构的Bi-Tree-LSTM网络,对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系;
[0015] 端到端的训练:将所述关系预测层嵌套在序列预测层之上,利用共享参数进行端到端的训练,通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。
[0016] 优选的,在所述融合注意力机制的Bi-LSTM-CRF网络中,通过其中的Bi-LSTM获取文本事件序列的双向隐状态编码信息;基于注意力机制进行二次学习来调整所述双向隐状态编码信息在原始文本事件序列上的权重分布;通过其中的CRF层基于BILOU标注模式进行解码,从而预测文本事件的标签信息。
[0017] 优选的,步骤S4中所述的利用因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系具体为:
[0018] 所述传递熵的规则定义如下:
[0019] 两搜索指数曲线对应的文本事件对A,B的传递熵为TEA→B,k次置换检验的传递熵向量为 若满足 则A→B的因果关系是显著的;其中α为选定的显著性
[0020] 因果关系A→B是否显著的检验步骤:
[0021] 首先定义H0:因果关系A→B不存在;定义H1:因果关系A→B存在;
[0022] a.计算统计量TEA→B;
[0023] b.随机打乱序列At-1的顺序k次,计算统计量TE′;
[0024] c.计算p值:
[0025] d.若 成立,则拒绝H0;否则接受H0;
[0026] 根据:
[0027]
[0028] 其中I(·;·|·)为条件互信息,δ,l分别是想要检验的A对B的因果延迟和滞后期数量;Con是条件变量集,包括A的自身影响和其他已知的原因变量;shuffle(·)是洗牌函数,负责将序列随机打乱;
[0029] 若给定Con的条件下,A→B存在因果延迟为δ、滞后期数量为l的因果关系,则信息传递量等于
[0030] 优选的,所述步骤S5中采用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量,从而实现两个因果关系的融合。
[0031] 优选的,对所述最大似然估计方法的似然函数表达式取自然对数进行简化,再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。
[0032] 与现有技术相比,本发明技术方案的有益效果是:
[0033] 本发明面向金融事件的混合型因果关系发现方法,首先对文本事件因果关系进行抽取;然后结合文本事件所对应的关键词在百度指数上找出事件对应时间序列的关注指数的变化趋势,即搜索指数曲线,并运用传递熵进行时序事件因果关系的推断;最后用最大似然估计方法融合因果关系抽取结果和基于搜索指数曲线的时序数据进行因果关系推断所得的结果,生成一种因果关系发现,本发明方法可以对金融事件对所蕴含的因果关系进行快速的甄别与发现。附图说明
[0034] 图1为本发明的总流程图

具体实施方式

[0035] 附图仅用于示例性说明,不能理解为对本专利的限制;
[0036] 为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0037] 对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0038] 下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0039] 一种面向金融事件的混合型因果关系发现方法,包括以下步骤:
[0040] S1.获取金融事件文本数据集;
[0041] S2.从所述金融事件文本数据集中抽取文本事件因果关系;具体通过以下的文本事件因果关系抽取架构实现:
[0042] 输入层:利用Stanford Parser对所述金融事件文本数据集进行数据预处理,获取每个文本事件序列的句法标签和词性标签;
[0043] 序列预测层:构建融合注意力机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练,通过网络中的Bi-LSTM获得每个文本事件序列的双向隐状态编码信息;基于注意力机制进行二次学习来调整双向隐状态编码信息在原始序列上的权重分布;最后,通过网络中的CRF层基于BILOU标注模式进行解码,从而预测文本事件的标签信息。通过文本事件预训练获得的双向隐状态编码信息和文本事件的标签信息,将作为关系预测层的联合输入。
[0044] 关系预测层:构建融合多句法结构的Bi-Tree-LSTM网络,通过将全树、子树和最短路径结构进行加权融合在同一个网络下,分别在自顶向下和自底向上两个方向上充分学习结构信息,对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系;
[0045] 端到端的训练:将所述关系预测层嵌套在序列预测层之上,利用共享参数进行端到端的训练,通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。
[0046] S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线;由于文本事件所对应的关键字信息量有限,而百度指数能在一定程度上将人们对事件关注度随时间的动态变化以曲线的形式直观地表达出来,所以对长期存在关联的事件对,事件之间的关联可通过提取事件关键字在百度指数上转化为随时间动态变化的搜索指数曲线,从而以热度曲线变化趋势的方式间接反映事件对之间的关联程度,这一点可以作为时序数据运用在因果关系发现方向上。
[0047] S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系;
[0048] 传递熵和格兰杰因果关系在高斯的情况下是等价的,前者的思想是消除不确定性,后者从预测的度出发,对候选原因事件进行回归。传递熵的作用是衡量一个事件对另一个事件的信息传递量,即给定原因事件之后,结果事件不确定性的减少程度,以此推断两个事件对的因果关系。信息传递具有不对称性,原因事件对结果事件的信息传递量较大,反之信息传递量接近于0。此外,传递熵具有模型无关、没有数据分布假设等优点。本实施例中将其运用到文本事件因果关系发现上。由于在实际应用中,无因果关系的结点之间传递熵较小,需要给定一个阈值来划分有无因果关系,而这个阈值往往是很难定义的。所以本实施例引入置换检验到传递熵方法中以判断因果关系的显著性;具体如下:
[0049] 传递熵的规则定义如下:
[0050] 两搜索指数曲线对应的文本事件对A,B的传递熵为TEA→B,k次置换检验的传递熵向量为 若满足 则A→B的因果关系是显著的;
[0051] 若A→B的因果关系存在,则原来的序列之间有较大的信息传递量,A的历史能够为预测B提供信息。打乱A的历史序列At-1之后,时序信息被破坏,新的A′t-1与Bt之间的影响不复存在,得到的信息传递量将大大减小,所以有 TE′(i)<TEA→B。若A→B真实不存在,那么置换后的序列与置换前的序列对于B来说都是一列随机且无关的序列,所以置换前后的传递熵值应大致相同。α为选定的显著性水平。
[0052] 因果关系A→B是否显著的检验步骤:
[0053] 首先定义H0:因果关系A→B不存在;定义H1:因果关系A→B存在;
[0054] a.计算统计量TEA→B;
[0055] b.随机打乱序列At-1的顺序k次,计算统计量TE′;
[0056] c.计算p值:
[0057] d.若 成立,则拒绝H0;否则接受H0;
[0058] 根据:
[0059]
[0060] 其中I(·;·|·)为条件互信息,δ,l分别是想要检验的A对B的因果延迟和滞后期数量;Con是条件变量集,包括A的自身影响和其他已知的原因变量;shuffle(·)是洗牌函数,负责将序列随机打乱;
[0061] 若给定Con的条件下,A→B存在因果延迟为δ、滞后期数量为l的因果关系,则信息传递量等于
[0062] S5.用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量,从而实现两个因果关系的融合,生成金融事件因果关系发现。由于自然对数是一个单调函数,可以确保概率的最大对数值出现在与原始概率函数相同的点上,因此对最大似然估计方法的似然函数表达式取自然对数进行简化,再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。
[0063] 附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0064] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈