专利汇可以提供基于深度强化学习的金融市场最优交易方法专利检索,专利查询,专利分析的服务。并且本 发明 属于金融 大数据 挖掘技术领域,具体为一种基于深度 强化学习 的金融市场最优交易方法。本发明充分利用市场的信息,设计独特的特征提取网络:将量和价组成的四通道矩阵作多层卷积;对当前综合市场组成的向量作全连接,最后拼接特征,全连接后再输出抽象的综合特征。本发明采用深度强化学习对最优交易策略问题进行研究,包括将一个历史窗口的价/量组成的矩阵和当前市场的综合信息作为状态,将离散化的定价作为动作,设计基于相对收益的奖励函数,基于深度确定性策略梯度 算法 ,解决最优交易问题。本发明方法具高实用性、强鲁棒性和高准确度的优点,可适用于股票、 证券 和期货等领域的高频交易。,下面是基于深度强化学习的金融市场最优交易方法专利的具体信息内容。
1.一种基于深度强化学习的金融市场最优交易方法,记为DDPG;关于最优交易策略问
题的数学表示,具体为:
整个交易过程基于限价指令簿机制;每次交易,交易者需要确定自己想要交易的量和
价,这里,交易是指或买或卖;称卖方为ask side,称买方为bid side,限价指令是指价和量都预先被确定的订单,某一方的订单可以被执行仅当匹配到另外一方已经提交的订单或者
新到达的订单;市场指令是指交易者只需预先确定要交易的量,价格则自动匹配另外一方
中最优价格,即如果是买方,自动匹配卖方中的最高价;如果是卖方,自动匹配买方中的最低价;
考虑一个持续H分钟的交易,称之为一个episode,在这个episode内要卖出V股的股票;
首先,将H分钟等分成L个时间槽;在第i个时间槽的开始,交易者确定要交易的量和对应每股的单价后,提交限价指令;在第i个时间槽结束时候,假设交易者成交了hi股,获得总量为ri的交易额;在L个时间槽过后,也就是当前episode结束时,如果V股还未全部卖出,则将剩余的量提交一个市场指令,假设市场指令完成rf的成交额;那么整个episode的总成交额为OTE问题的目标就是最大化总的成交额;
其特征在于,采用off-policy的方式学习Q函数的同时学习策略;采用表演者评论者网
络架构,其中,表演者负责与环境交互,在线获得当前状态、采取的动作、从环境获得的奖励以及下一个状态,形成四元组存入一个经验缓冲区中;训练时,每次从经验缓冲区中取出一批元组数据来训练表演者和评论者网络;
总框架包含四个网络:表演者评估网络(AEN)、评论者评估网络(CEN)、表演者目标网络
(ATN)和评论者目标网络(CTN);表演者网络以状态作为输入,经过特征提取模块,输出它目前认为的“最佳”动作,评论者网络以状态和动作作为输入,输出它目前认为的该状态下执行当前动作的“价值”;表演者评估网络和评论者评估网络对应的目标网络结构完全相同;
表演者评估网络:输入状态信息,经特征提取模块(FEN),特征提取模块输出抽象的特
征,然后将抽象特征输入到一个全连接层(FC),最后经过两层softmax层,输出动作;这里采用两层softmax来模拟“离散化”的效果;
评论者评估网络:输入包括状态和动作,同样地,状态先经过FEN,FEN输出抽象的特征,
动作先经过第一层全连接层,然后将两者的输出作加和,最后再经过一次全连接层,输出Q值;这里;评论者网络的特征提取模块和表演者网络的特征提取模块内部结构完全相同,但是两者完全独立;
表演者目标网络和评论者目标网络都是不可训的,各自通过指数加权平均法被对应的
评估网络“软更新”;这意味着目标网络每次只缓慢地改变;
将历史信息和当前时间点综合市场信息组合作为状态;状态包括两个部分,第一部分
是一个三维的数字矩阵,形状为(c,k,w),其中,c=4表示通道数,4个通道分别对应ask的价、ask的量、bid的价、bid的量的滑动历史窗口数据;k和w分别表示滑动窗口的高和宽,设置k=5,表示使用前5的价和量,包括ask和bid,ask根据价格降序,bid根据价格升序;w=10表示滑动窗口的大小,表示从当前点t开始往前,t-1,...,t-9;称该数字矩阵为价/量矩阵;
第二部分是一个包含市场具体综合信息的向量,具体包括:当前时间点即第几个时间槽、剩余未交易的量(RV)、 当前的mid-price(MP)、平均成交价(AP)、上个时间槽开
始提交的价格(LAP)以及在order book上排名(LR);利用PV tensor来捕捉市场随时间变化
的特征、量与价之间的特征价/量顺序特征,向量则提供当前市场的综合信息;通过利用每个通道中对应top-1的价和量分别作归一化,以利于算法的收敛;
将动作定义为每次提交限价指令时确定的单价,并把剩余所有的量投入,这里可以把
之前未完成的限价指令撤回,并提交新的价和量的限价指令;其中的价格基于 由于
单价的最小基准为0.01,将动作以 为基准,离散化为-0.05,…-0.01,0,0.01,…,
0.05,即Action=a对应价格ask1+a;如果a是负数,意味着将定价穿过mid-price,偏向买家,容易成交,但是收益少;反之,一个正数的a意味着高收益的同时成交概率降低;
由于市场是动态变化的,不同时期价格、成交额完全不同,如果每次只单纯地把成交额
作为奖励,算法将很难收敛;基于此,将奖励函数定义如下:
rewardt=rt-ht*MP0
其中,MP0是表示在整个episode之初的mid-price,作为一个基准单价,在一个时间槽t
结束之时,总共卖ht股股票,完成成交额rt,奖惩函数就是完成的实际成交额与以基准单价卖出完成量的差值;由于,在t个时间槽之后,对未完成的量需要提交一个市场指令,设未完成量为hf,则有 最后,一个episode的总的reward,标记为
Implementation Reward(IR);将每股平均的reward标记为averaged IR(AIR);根据以上定义,有:
AIR=IR/V;
所述特征抽取网络(FEN)包括两个分支结构,分别对应两个独立的输入;
FEN中一个分支结构包括三层卷积层,以状态的价/量矩阵部分作为输入;第一层卷积
采用两个3×3的滤波,得到2个相应的特征映射,用于提取出ask与bid之间、量与价之间以
及随时间变化的特征;第二层卷积采用32个1×8的滤波器,得到32个特征映射,用于得到更加多样性、更加抽象的特征;第三层卷积采用1×1的滤波器,用于压缩通道,凝聚特征;
FEN中另外一个分支结构包括两个全连接层,以状态的向量信息部分作为输入;两个全
连接层用于提取出市场综合信息的抽象特征;
最后,两个分支通过拼接得到一个向量;最后一层全连接层,用于是揉和两个分支的抽
象特征,得到综合的抽象特征;最终输出整个状态综合的抽象特征向量。
2.根据权利要求1所述的基于深度强化学习的金融市场最优交易方法,其特征在于,建
立目标函数,进行网络训练,具体流程为:
将表演者评估网络表示为μ(s|θμ),评论者评估网络表示为Q(s,a|θQ),表演者目标网络表示为μ′(s|θμ′),评论者目标网络表示为Q′(s,a|θQ′);其中,θμ、θQ、θμ′和θQ′是对应网络的参数;
训练表演者评估网络的所用的目标函数为:
μ μ Q
J(θ)=max(Eπ[Q(st,μ(st|θ)|θ)])
目标函数以状态作为表演者评估网络的输入,输出相应的动作,然后将状态和动作输
入到评论者评估网络,最后输出Q值;通过最大化Q值来训练表演者评估网络,在此同时,将评论者评估网络的参数固定;
训练评论者评估网络所用的目标函数为:
其中,yt=rewardt+γQ′(st+1,μ′(st+1|θμ′)|θQ′);
该目标函数以在t时刻的状态和动作作为评论者评估网络输入,得到在t时刻对应的Q
值;与此同时,将下一个状态st+1输入到表演者目标网络,得到下一个对应动作,最后将下一个时刻状态和下一个时刻动作输入到评论者目标网络,得到下一个状态和动作对应的Q
值;其中的γ表示对奖惩的折扣因子,rewardf是在时间槽t结束时获得奖励值,式子中的差被称为TD error;通过最小化TD error的平方来训练评论者评估网络。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种企业管理系统 | 2020-05-13 | 628 |
交易以外币计价的证券的方法和系统 | 2020-05-25 | 216 |
一种基于互联网的一站式区域医用耗材招采供管理系统 | 2020-05-08 | 821 |
数字资产交易所盘面监测方法、装置及系统 | 2020-05-11 | 79 |
Method and apparatus for monitoring and evaluating limit order trading | 2020-05-20 | 440 |
金融商品取引管理装置、プログラム | 2020-05-14 | 405 |
金融商品取引管理装置、プログラム | 2020-05-17 | 1022 |
IDEAL LATENCY FLOOR | 2020-05-13 | 801 |
SYSTEMS AND METHODS FOR OBTAINING AND EXECUTING COMPUTER CODE SPECIFIED BY CODE ORDERS IN AN ELECTRONIC TRADING VENUE | 2020-05-15 | 742 |
IDEAL LATENCY FLOOR | 2020-05-16 | 121 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。