首页 / 专利库 / 数学与统计 / 解析法 / 文本分析 / 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法

结合财经新闻挖掘和金融历史数据的金融品种价格预测方法

阅读:1发布:2022-03-07

专利汇可以提供结合财经新闻挖掘和金融历史数据的金融品种价格预测方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及结合财经新闻挖掘和金融历史数据的金融品种价格预测方法。将爬取过来的新闻进行分类,为每篇新闻进行特征词词频统计,形成每篇新闻的词频向量,计算出每篇新闻的情感值,从而计算出当天财经新闻对某金融品种未来发展的情感倾向值。本发明最终结 合金 融品种每一日的情感倾向值和金融品种历史价格,利用多元线性回归和ARIMA相结合的组合 预测模型 ,对金融市场未来价格趋势进行预测,体现现代市场的多元影响因素,获得良好的预测效果。,下面是结合财经新闻挖掘和金融历史数据的金融品种价格预测方法专利的具体信息内容。

1.结合财经新闻挖掘和金融历史数据的金融品种价格预测方法,使用网络爬取技术获得财经新闻信息,使用词频向量的形式对获取到的新闻进行处理,其特征在于,首先对指定的影响度、知名度高的金融财经网站,确定相关新闻板,使用爬虫对财经新闻进行爬取,获取相关财经新闻信息数据,并按照不同的金融品种进行分类,同时对新闻信息的转载现象进行识别,防止转载造成新闻信息重复出现的状况,先将获取到的每一篇财经新闻信息转化为词频向量的形式,每个向量与一篇新闻一一对应,定义每个词频向量包含的信息为:新闻标题,发布时间,所属分类及情感特征词词频;
定义新闻情感倾向值衡量公式:
, (1)
其中,积极词汇词频为 ,消极词汇词频为 , 代表新闻文本的情感倾
向, 越大,则表示该金融新闻信息较看好未来金融市场的发展趋势,反之,则表示对未来金融市场看跌的程度;
获得每篇新闻的情感倾向后,我们针对某一金融品种,依据下列公式获取当日情感倾向值信息:
,
其中, 表示一天中所有的新闻信息在整体上对未来金融市场的发展趋势的看好程度, 表示一天中各大财经新闻网站所发表的新闻数量, 则是一天中所有新闻情感倾向值的累加值,最终,计算获得当日财经新闻信息对未来金融市场发展趋势的看好度,以此作为依据应用到金融市场的发展趋势预测中;
预测过程使用所得的情感倾向数据,结合金融市场历史价格数据,使用组合模型建立包含多元影响因素的预测,预测技术实现过程包含新闻采集模块、新闻处理模块、情感倾向值计算模块、数据预测模块、验证模块五个部分,
所述新闻采集模块式主要用于获取相关财经新闻信息,同时对新闻进行去重处理,所述分类模块根据所设定的金融品种,将采集所得新闻进行分类,
所述新闻处理模块负责将新闻处理为预测过程易于使用的词频向量,然后计算每一篇新闻的情感倾向值,继而计算每一日的新闻对未来金融市场发展趋势的情感倾向值,所述数据预测模块负责依据所建立的模型对未来价格进行预测,
所述验证模块负责对预测过程产生的模型和预测所得数据进行验证。
2.根据权利要求1所述的结合财经新闻挖掘和金融历史数据的金融品种价格预测方法,其特征在于,所述组合模型建立包含多元影响因素的预测,具体包括:
使用多元线性回归模型和自回归差分滑动平均模型相结合的组合模型进行预测,首先使用每一日的情感倾向值序列,结合金融市场历史数据,使用多元线性回归模型进行初步预测,获得初步预测结果和初步预测残差,然后使用自回归差分滑动平均模型对初步预测残差进行拟合预测,获得最终预测残差,初步预测结果和最终预测残差结合,获得最终预测结果。
3.根据权利要求2所述的结合财经新闻挖掘和金融历史数据的金融品种价格预测方法,其特征在于,所述多元线性回归模型公式定义为:

其中,输入的 是特征词序列数据和历史价格数据,而输出的是金融品种的预测价格,也就是我们的模型所模拟的价格;则是我们的模型所涉及到的所有特征数量, 代表白噪声序列,在给定 个独立的观测后,可以得到线性回归的统计模型:
其中 为常数项, , ,… , 为回归系数, 为各影响因子序列, 为 为拟合值序列,也就是预测值,
线性回归模型的矩阵表示为:
,
式中 , , , 。
4.根据权利要求2所述的结合财经新闻挖掘和金融历史数据的金融品种价格预测方法,其特征在于,所述自回归差分滑动平均模型公式定义为:
其中 , , 依次代表的是时间数列中的自回归项数、时间序列成为平稳时所做的差分次数和移动平均项数, 为 时的实际值, 为该模型的自回归系数, 为时间数列模型在 时的偏差, 为时间数列在 时的预测值, 为该模型的移动平均系数。
5.根据权利要求1所述的结合财经新闻挖掘和金融历史数据的金融品种价格预测方法,其特征在于,所述验证模块使用R语言对每一日的情感倾向值和金融市场历史价格数据进行相关性分析,使用历史数据和预测数据的拟合图察看预测效果,使用实际值和预测值得相对残差折线图观察预测效果。

说明书全文

结合财经新闻挖掘和金融历史数据的金融品种价格预测方

技术领域

[0001] 本发明涉及基于新闻文本信息挖掘和金融品种历史数据相结合,对金融品种价格趋势进行预测的方法。

背景技术

[0002] 金融预测(Financial Forecasting)是指以金融理论及当前数据为基础,综合运用各种技术手段与分析方法,对金融经营管理活动中难以确定的未来发展趋势和规律进行研究,做预见性的判断与推测。良好的预测可以使公司收益最大化,为国家经济和金融决策制定科学有效的宏观政策提供有的依据。
[0003] 当前金融预测模型主要是定量的模型,这很大程度上依赖于数字。在较早的预测研究中,很多的预测方法也大多是依据历史数据来进行的,如自回归差分滑动平均模型(ARIMA)、灰色模型、神经网络模型或者是其组合模型等,均是从统计学的度,选取历史的价格数据序列作为预测依据,在目前各方面的论文、文献中我们也可以看出,各学者们在这方面做了相当多的研究,也利用这些模型做出较好的预测,并且能达到较高的精度,为市场做出不错的指导作用,取得了一定的成果。
[0004] 而在文本信息挖掘方面,国内外也做了一定的研究。如国内关于基于文本信息预测金融市场价格趋势走向,主要体现在金融市场中股票市场收益率方面的预测。比如最早在2006年,北大计算所与斯坦福大学管理学院联合,研究了互联网股市信息变动对股市变动的连带反映,并基于网络抓取的信息,借助神经网络对股市进行了预测。徐海鹏(2009)对其研究进行了完善,从关联规则挖掘技术人手,引入主观兴趣度约束和客观兴趣度约束,挖掘股票收益率信息,实现对股价趋势的预测。同时对比实际股票数据结果,测试挖掘规则的准确率。近期,基于挖掘文本信息情感的预测也应用到金融市场预测中,如国内庞磊已经开始涉足将自然语言处理技术应用于对微博平台上股票投资者未来情感倾向的识别。同时佩琨等人也发出关于个人投资者情绪是否能预测市场收益等方面的探讨,并获得肯定的结果。
[0005] 文本数据与纯数字数据相比,含有更丰富的预测信息。尤其是在当今网络发展迅速,网络上充斥大量新闻评论等信息数据的时代,仅仅利用历史数据对金融市场趋势进行预测,则忽略了当前大数据时代,网络金融信息等对市场产生的影响。当然,现在也有些预测考虑挖掘网络情感信息对于金融市场产生的影响,但目前这方面的研究,大多集中在研究方向大多集中在考虑单一因素。基于此,本发明结合金融品种相关新闻信息和金融市场历史数据,对金融市场的价格趋势进行预测,并取得一定的效果。

发明内容

[0006] 本发明所要解决的技术问题是,针对目前所存在的金融市场价格趋势预测方法中仅仅使用单一历史数据,不能很好反映经济系统中多元时间序列影响因素的问题,将财经新闻信息对金融市场的影响引入金融预测的过程,实现基于财经新闻信息和历史数据相结合的金融预测方法。利用数据爬取技术获取各大财经网站的新闻,使用基于词频的方法获得各新闻信息的情感倾向指数,结合金融市场价格历史数据,使用多元线性回归和自回归差分滑动平均模型(ARIMA)相结合的组合模型预测方法,预测获得金融市场价格发展趋势。
[0007] 本发明中,使用现有的爬取技术获得财经新闻信息,使用词频向量的形式对获取到的新闻进行处理。首先对指定的影响度、知名度高的金融财经网站,确定相关新闻板,使用爬虫对财经新闻进行爬取,获取相关财经新闻信息数据,并按照不同的金融品种进行分类,同时对新闻信息的转载现象进行识别,防止转载造成新闻信息重复出现的状况。获取到的财经新闻信息由于是文本信息,直接用于预测过程相当困难,需要先将其转化为易于使用的形式,在此,我们将每一篇财经新闻信息转化为词频向量的形式,每个向量与一篇新闻一一对应,定义每个词频向量包含的信息为:新闻标题,发布时间,所属分类及情感特征词词频。
[0008] 在本发明中,我们自定义存储于上文中词频向量的情感特征词。对于文本信息,我们应用于预测中的数据主要是文章的情感信息,发明中使用词频向量中存储的情感特征词来进行词频的计算。对于情感特征词的定义,主要使用以下几部分:1、《学生褒贬义词典》提供的褒贬义情感词语,通过去重作为基础情感词典。
[0009] 2、证券操作词汇表,提取具有情感倾向的词语进行人工筛选。
[0010] 对于本文使用的情感词库,由于较多词语只有在金融领域才被使用,且具有情感倾向,如“涨停”、“利多”;还有一些极性词在不同的领域修饰不同的特征时会表现出不同的情感,例如“升高”在描述工资收入时是褒义的,而在描述利率时,对金融市场就是不利消息,可看成是贬义。本发明中利用常用的证券操作词汇表,提取具有情感倾向的词语进行人工筛选,构建了一部股票投资领域的情感词典。此外,为了提高情感分析的准确性,还选取一些在新闻评论中的一些网络词汇,也加入词典。
[0011] 与其他文本信息处理不同的是,本发明使用自定义的情感倾向值公式,获得每一篇财经新闻信息和每一天的情感倾向值信息。对于每一篇财经新闻信息的情感倾向,本文使用情感特征词的词频来进行衡量,定义新闻情感倾向值衡量公式:, (1)
其中,积极词汇词频为 ,消极词汇词频为 , 代表新闻文本的情感倾
向。很显然,若 越大,则表示该金融新闻信息较看好未来金融市场的发展趋势,反之,则表示其对未来金融市场看跌的程度。
[0012] 获得每篇新闻的情感倾向值后,我们针对某一金融品种,依据下列公式获取当日情感倾向值信息:,
其中, 表示一天中所有的新闻信息在整体上对未来金融市场的发展趋势的看好程度, 表示一天中各大财经新闻网站所发表的新闻数量, 则是一天中所有
新闻情感倾向值的累加值。最终,计算获得当日财经新闻信息对未来金融市场发展趋势的看好度,以此作为依据应用到金融市场的发展趋势预测中。
[0013] 预测过程使用挖掘财经新闻信息所得的情感倾向数据,结合金融市场历史价格数据,使用组合模型建立包含多元影响因素的预测,预测技术实现过程包含新闻采集模块、新闻处理模块、情感倾向值计算模块、数据预测模块、验证模块五个部分,所述新闻采集模块根据预选的知名度、可信度高的财经网站,按照网页特点,调校好的采集规则,每一日定时对网页相关新闻进行采集,包括新闻标题、发布时间、新闻来源、新闻内容等基本信息,采集的同时,通过匹配标题的方式,对新闻进行去重处理;
所述分类模块根据所设定的金融品种,将采集所得新闻进行分类,
所述新闻处理模块包括新闻分类、词频向量生成两个过程,新闻分类是将采集过来的新闻,根据所设定的16个金融品种,按照新闻标题关键词匹配的方式,将新闻进行分类存储,词频向量则首先根据情感特征词词库对新闻进行词频统计,获取该新闻内每个情感特征词所存在的数量,并生成词频向量,词频向量包含的内容有:新闻标题、新闻发布时间、新闻所属金融品种、各情感特征词的词频统计;
所述数据预测模块负责依据所建立的模型对未来价格进行预测,
所述验证模块负责对预测过程产生的模型和预测所得数据进行验证,验证模块使用R语言对每一日的情感倾向值和金融市场历史价格数据进行相关性分析,使用历史数据和预测数据的拟合图察看预测效果,使用实际值和预测值得相对残差折线图观察预测效果。
[0014] 本发明使用多元线性回归模型和自回归差分滑动平均模型(ARIMA)相结合的组合模型进行预测。在以往的预测实现中,多元线性回归模型和ARIMA模型均被广泛使用,并取得不错的效果。本发明中,使用多元线性回归对多元影响序列进行数据处理,得到初步预测结果,在初步预测结果中,我们获得初步预测值和初步预测的残差,然后,使用ARIMA模型对初步预测所获得的残差进行处理拟合,获得预测残差序列,初步预测值和最终预测残差序列相加,得到最终的金融品种未来价格序列,经验证,该组合模型预测方法可以更为有效的减小残差,比单独使用一类预测模型有更为精确的结果。
[0015] 定义多元线性回归模型结构式如下:, (3)
在该模型中,输入的 是特征词序列数据和历史价格数据,而输出的是金融品种的预测价格,也就是我们的模型所模拟的价格;则是我们的模型所涉及到的所有特征数量(特征词的词频统计和金融品种的历史价格数据),代表白噪声序列。
[0016] 在给定 个独立的观测后,可以得到线性回归的统计模型:其中 为常数项, , ,… , 为回归系数, 为各影响因子序列, 为误差项,为拟合值序列,也就是预测值。线性回归模型的矩阵表示为:
,
式中 , , ,
ARIMA 模型方法的基本思想是把预测对象随着时间的推移进而形成的数据序列看作一个随机序列,然后再把这个随机序列用一定的数学模型来近似的描述出来。其模型类型分为ARIMA( , , )自回归差分移动平均模型、AR( )自回归模型和MA( )移动平均模型。
[0017] 其模型基本公式为:,
其中 , , 依次代表的是时间数列中的自回归项数、时间序列成为平稳时所做的差分次数和移动平均项数, 为 时的实际值, 为该模型的自回归系数, 为时间数列模型在 时的偏差, 为时间数列在 时的预测值, 为该模型的移动平均系数。
使用本发明的预测方法进行预测,改变以往仅仅依靠历史数据进行市场预测的状况,将金融相关新闻信息和历史价格相结合,并通过组合模型预测的方法获取最终预测结果,进行了金融市场价格的短期趋势预测,较于单独使用历史价格预测的方法相比,显示出较好的效果。
附图说明
[0018] 图1是本发明预测流程图;图2是本发明中每一篇新闻的情感特征词词频统计;
图3是本发明预测模型实现流程图;
图4是本发明中情感倾向值与金融品种各历史数据相关性分析;
图5是本发明预测结果的相对误差折线图。

具体实施方式

[0019] 以下结合附图对本发明做进一步详细说明。
[0020] 如图1所示,在整个预测过程中,我们定义五个模块,首先是新闻采集模块,需要从各大财经新闻网站爬取所需要的金融相关新闻信息;然后是新闻处理模块,针对某一分类后的金融品种所对应的新闻,依据自定义的带有金融类特征词的情感特征词库,将每一篇新闻转化为所需要的词频向量的形式;然后是情感值计算模块,根据发明中自定义的文章情感倾向值公式和当日情感倾向值公式依次计算,获得当日情感倾向值;之后是预测模块,结合金融市场历史价格,使用多元线性回归和自回归滑动平均模型相结合的组合模型进行预测;最后是验证模块,依据相关性分析、模型拟合、残差计算等方式,对预测过程进行评估。
[0021] 图2是我们为了计算新闻情感倾向值所使用的词频向量形式。金融新闻信息直接进行使用是很困难的,因此我们将每篇新闻表示为利于应用的词频向量,向量中包含新闻的发布时间、新闻标题、新闻所属金融品种、各金融情感词汇在该篇新闻文章中的词频统计,如表中所示,每一篇新闻都有一个词频向量与之一一对应,根据发布时间我们可以获得某一天我们爬取到的所有相关新闻,其中,各个特征词的词频统计,也使得我们在后续的情感倾向值计算中,使用起来更加方便。
[0022] 图3是本发明使用的预测模型的实现流程。如图所示,在最初的预测中,我们有每一天的新闻对未来市场的情感倾向值和金融品种历史价格。我们选定价格为因变量,训练集则使用我们所拥有数据序列的70%作为训练集,剩余30%则作为预测集。首先,使用多元线性回归模型,针对已有数据进行模型构建,得到初步预测结果和初步预测残差,然后使用ARIMA模型对初步预测残差进行建模拟合,得到最终结果残差,将最终结果残差和初步预测结果相加,也就得到我们所需要的最终预测结果。
[0023] 图4是使用上述的方法获得新闻情感倾向值和金融品种的开盘价、最高价、最低价、收盘价的相关性分析,这关系到我们的情感倾向值是否有效。由图中可以看到,计算获得的情感倾向值和各个价格序列都有一定的相关性,特别是与收盘价的相关性为0.184>0.01,在0.01平显著相关,这说明我们使用该方法获得情感倾向值的方法是正确的。
[0024] 图5显示出的是预测价格的相对误差。通过计算实际值和预测值之间的相对误差,得到其相对误差折线图(图5)。由图5我们可以观察到大多数预测数据与实际数据吻合(误差在0.015%内),并且通过计算平均误差率,可以知道,整体的平均误差率,也达到较小的水平(平均误差率为0.027%)。由此说明,我们所选模型可以适用于实际数据的预测。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈