首页 / 专利库 / 银行与财务事项 / 市场指令 / 一种用于计算资讯关联股票的方法和装置

一种用于计算资讯关联股票的方法和装置

阅读:683发布:2020-05-14

专利汇可以提供一种用于计算资讯关联股票的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 属于信息处理技术领域,具体涉及一种用于计算资讯关联股票的方法和装置,方法包括:根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词;对于每篇资讯,通过对本篇资讯的各关键词进行模型训练,计算得到本篇资讯中各关键词对应的关键词向量;对于每篇资讯,基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票。本发明可根据用户需求获取海量资讯,并计算得到每篇资讯的关键词,再通过计算关键词与市场上各股票词之间的相似度,快速分析得到与资讯相关联的股票并呈现给用户,协助用户进行股票投资交易,为用户投资提供有效参考。,下面是一种用于计算资讯关联股票的方法和装置专利的具体信息内容。

1.一种用于计算资讯关联股票的方法,其特征在于,包括:
根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词;
对于每篇资讯,通过对本篇资讯的各关键词进行模型训练,计算得到本篇资讯中各关键词对应的关键词向量;
对于每篇资讯,基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票。
2.根据权利要求1所述的用于计算资讯关联股票的方法,其特征在于,所述确定与本篇资讯相关的一个或多个股票之后,所述方法还包括:
按照预设排序的方式,将所述一个或多个股票展现给用户;其中,所述预设排序为各股票词的关联度排序、对应资讯的发布时间排序或对应关键词的数量排序。
3.根据权利要求1所述的用于计算资讯关联股票的方法,其特征在于,所述根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词,具体包括:
根据用户输入的检索条件,获取相关的多篇资讯;其中,所述检索条件包括资讯标题、资讯内容和资讯关键词中的一项或多项;
对各资讯进行数据清洗,去除资讯中的无用标签和脏数据;
对各资讯中的文本进行分词操作,去除无效词后在剩下的词汇中选取一个或多个作为本篇资讯的关键词,并计算各关键词的权重。
4.根据权利要求3所述的用于计算资讯关联股票的方法,其特征在于,对于每篇资讯,所述在剩下的词汇中选取一个或多个作为本篇资讯的关键词,具体为:
对于剩下的每个词汇,将该词汇在全资讯中出现的概率和在本篇新闻资讯中出现的概率进行比较;如果该词汇在本篇新闻资讯中出现的概率高于在全资讯中出现的概率,则将该词汇作为本篇资讯的一个关键词。
5.根据权利要求3所述的用于计算资讯关联股票的方法,其特征在于,所述无效词包括停用词、脏词和噪音词中的一项或多项。
6.根据权利要求1所述的用于计算资讯关联股票的方法,其特征在于,在进行关键词训练时,选择cbow模型进行训练,最终得到的关键词向量为1*256维矢量。
7.根据权利要求1所述的用于计算资讯关联股票的方法,其特征在于,对于每篇资讯,所述基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票,具体为:
遍历计算本篇资讯的关键词向量与市场各股票词向量的夹余弦的距离,并乘以对应的权重,得到本篇资讯关键词与对应股票词的关联度;
每次计算后,将得到的关联度与预设阈值进行比较,如果关联度高于预设阈值,则将对应的股票词和关联度值保存在股票字典中;
遍历计算完成后,基于所述股票字典中保存的一个或多个股票词,确定与本篇资讯相关的一个或多个股票。
8.根据权利要求7所述的用于计算资讯关联股票的方法,其特征在于,所述基于所述股票字典中保存的一个或多个股票词,确定与本篇资讯相关的一个或多个股票之后,所述方法还包括:
将股票字典中的股票词按照对应关联度值从大到小的顺序进行排序,并将排名靠前的n个股票组成有序的关联股票数组;其中,n≥1;
将所述关联股票数组按照排序的方式展现给用户,以便用户进行基于资讯关联的股票投资。
9.根据权利要求1-8任一所述的用于计算资讯关联股票的方法,其特征在于,所述多篇资讯是从一个或多个资讯平台获取,则在所述获取多篇资讯后,所述方法还包括:
对所述多篇资讯分别进行性质分析,从中筛选出一篇或多篇预估性资讯,并记录每篇预估性资讯对应的资讯平台和预估结果;
通过大数据爬虫分析和/或对国家基准资讯平台进行访问,获取与每篇预估性资讯相对应的关联结果;
将每篇预估性资讯的预估结果与对应关联结果进行匹配,得到每篇预估性资讯的准确度,进而得到对应资讯平台的可信度;
则在下一次计算资讯关联股票时,所述获取多篇资讯具体为:从可信度高于预设基准值的一个或多个资讯平台处获取多篇资讯。
10.一种用于计算资讯关联股票的装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9任一所述的用于计算资讯关联股票的方法。

说明书全文

一种用于计算资讯关联股票的方法和装置

【技术领域】

[0001] 本发明涉及信息处理技术领域,具体涉及一种用于计算资讯关联股票的方法和装置。【背景技术】
[0002] 随着互联网和国内证券市场的快速发展,互联网资讯更新更加频繁,市场上往往会在短时间内爆发出非常多的资讯信息,而过多的资讯信息使得投资者应接不暇,如何在后台的海量资讯集合中准确快速地获取到相关联的股票信息并及时展现给用户,变得非常困难。
[0003] 目前通常是采用人工配置资讯的方式,面对海量实时资讯,通过大量的人工手动挑选若干与资讯相关的股票并展现给用户,协助用户进行股票投资交易。但是,由于资讯的更新频繁,人工配置代价比较高,主观性强、准确性低,而且单纯使用人来分析资讯的过程相对缓慢,不足以在短时间内得到很好的效果,达不到及时将关联股票触达用户的速度性要求,也就无法及时为用户投资提供有效参考。
[0004] 鉴于此,克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。【发明内容】
[0005] 本发明需要解决的技术问题是:
[0006] 目前互联网资讯更新频繁,单纯采用人力分析获取资讯相关股票会导致配置代价较高,主观性强、准确性低,而且配置过程缓慢,无法及时筛选出资讯相关的股票并呈现给用户,也就无法为用户投资提供有效参考。
[0007] 本发明通过如下技术方案达到上述目的:
[0008] 第一方面,本发明提供了一种用于计算资讯关联股票的方法,包括:
[0009] 根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词;
[0010] 对于每篇资讯,通过对本篇资讯的各关键词进行模型训练,计算得到本篇资讯中各关键词对应的关键词向量;
[0011] 对于每篇资讯,基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票。
[0012] 优选的,所述确定与本篇资讯相关的一个或多个股票之后,所述方法还包括:
[0013] 按照预设排序的方式,将所述一个或多个股票展现给用户;其中,所述预设排序为各股票词的关联度排序、对应资讯的发布时间排序或对应关键词的数量排序。
[0014] 优选的,所述根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词,具体包括:
[0015] 根据用户输入的检索条件,获取相关的多篇资讯;其中,所述检索条件包括资讯标题、资讯内容和资讯关键词中的一项或多项;
[0016] 对各资讯进行数据清洗,去除资讯中的无用标签和脏数据;
[0017] 对各资讯中的文本进行分词操作,去除无效词后在剩下的词汇中选取一个或多个作为本篇资讯的关键词,并计算各关键词的权重。
[0018] 优选的,对于每篇资讯,所述在剩下的词汇中选取一个或多个作为本篇资讯的关键词,具体为:
[0019] 对于剩下的每个词汇,将该词汇在全资讯中出现的概率和在本篇新闻资讯中出现的概率进行比较;如果该词汇在本篇新闻资讯中出现的概率高于在全资讯中出现的概率,则将该词汇作为本篇资讯的一个关键词。
[0020] 优选的,所述无效词包括停用词、脏词和噪音词中的一项或多项。
[0021] 优选的,在进行关键词训练时,选择cbow模型进行训练,最终得到的关键词向量为1*256维矢量。
[0022] 优选的,对于每篇资讯,所述基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票,具体为:
[0023] 遍历计算本篇资讯的关键词向量与市场各股票词向量的夹余弦的距离,并乘以对应的权重,得到本篇资讯关键词与对应股票词的关联度;
[0024] 每次计算后,将得到的关联度与预设阈值进行比较,如果关联度高于预设阈值,则将对应的股票词和关联度值保存在股票字典中;
[0025] 遍历计算完成后,基于所述股票字典中保存的一个或多个股票词,确定与本篇资讯相关的一个或多个股票。
[0026] 优选的,所述基于所述股票字典中保存的一个或多个股票词,确定与本篇资讯相关的一个或多个股票之后,所述方法还包括:
[0027] 将股票字典中的股票词按照对应关联度值从大到小的顺序进行排序,并将排名靠前的n个股票组成有序的关联股票数组;其中,n≥1;
[0028] 将所述关联股票数组按照排序的方式展现给用户,以便用户进行基于资讯关联的股票投资。
[0029] 优选的,所述多篇资讯是从一个或多个资讯平台获取,则在所述获取多篇资讯后,所述方法还包括:
[0030] 对所述多篇资讯分别进行性质分析,从中筛选出一篇或多篇预估性资讯,并记录每篇预估性资讯对应的资讯平台和预估结果;
[0031] 通过大数据爬虫分析和/或对国家基准资讯平台进行访问,获取与每篇预估性资讯相对应的关联结果;
[0032] 将每篇预估性资讯的预估结果与对应关联结果进行匹配,得到每篇预估性资讯的准确度,进而得到对应资讯平台的可信度;
[0033] 则在下一次计算资讯关联股票时,所述获取多篇资讯具体为:从可信度高于预设基准值的一个或多个资讯平台处获取多篇资讯。
[0034] 第二方面,本发明提供了一种用于计算资讯关联股票的装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成第一方面所述的用于计算资讯关联股票的方法。
[0035] 本发明的有益效果是:
[0036] 本发明提供的用于计算资讯关联股票的方法中,可根据用户需求获取海量资讯,并计算得到每篇资讯的关键词,再通过计算每篇资讯的关键词与市场上各股票词之间的相似度,快速分析得到与资讯相关联的股票并呈现给用户,可帮助用户快速定位当前资讯对应的股票,协助用户进行股票投资交易,为用户增加了选择股票的机会,增强投资者投资能力,为用户投资提供有效参考。【附图说明】
[0037] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038] 图1为本发明实施例提供的一种用于计算资讯关联股票的方法流程图
[0039] 图2为本发明实施例提供的一种用于计算资讯中关键词的方法流程图;
[0040] 图3为本发明实施例提供的一种基于相似度相似度确定资讯相关股票的方法流程图;
[0041] 图4为本发明实施例提供的一种资讯和相关股票的页面显示图;
[0042] 图5为本发明实施例提供的另一种资讯和相关股票的页面显示图;
[0043] 图6为本发明实施例提供的一种资讯新闻的页面显示图;
[0044] 图7为本发明实施例提供的一种对资讯平台进行可信度评估的方法流程图;
[0045] 图8为本发明实施例提供的一种用于计算资讯关联股票的系统组成图;
[0046] 图9为本发明实施例提供的一种算法处理模的结构组成图;
[0047] 图10为本发明实施例提供的一种用于计算资讯关联股票的装置架构图。【具体实施方式】
[0048] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0049] 在本发明各实施例中,符号“/”表示同时具有两种功能的含义,而对于符号“A和/或B”则表明由该符号连接的前后对象之间的组合包括“A”、“B”、“A和B”三种情况。
[0050] 本发明各实施方式的智能终端可以多种形式存在,该智能终端包括但不限于:
[0051] (1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
[0052] (2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
[0053] (3)便携式娱乐设备:这类设备可以显示和播放视频内容,一般也具备移动上网特性。该类设备包括:视频播放器,掌上游戏机,以及智能玩具和便携式车载导航设备。
[0054] (4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
[0055] 此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。
[0056] 实施例1:
[0057] 本发明实施例提供了一种用于计算资讯关联股票的方法,可以快速发现资讯中关联的股票,为用户增加选择股票的机会。如图1所示,本发明实施例提供的方法主要包括以下步骤:
[0058] 步骤10,根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词。
[0059] 用户利用本发明的系统来获取资讯相关联的股票时,通常会先根据自身关注的资讯输入信息,作为获取资讯关联股票标签的检索条件;其中,所述检索条件具体可以是资讯标题、资讯内容和资讯关键词中的一项或多项。根据用户输入的检索条件,系统可从资讯平台自动获取全量的个股资讯新闻信息,将获取的所有资讯汇总后,通过计算即可得到每篇资讯新闻的关键词以及各关键词的权重(即关键词在本篇资讯新闻中的重要程度);其中,每篇资讯新闻可以有一个或多个关键词,以传达本篇资讯新闻的主要信息。对于每篇资讯新闻,需要通过对资讯进行数据清洗、分词、计算词频tf(即词汇在本篇资讯中出现的概率)和逆文本频率指数idf(即词汇在全资讯中出现的概率)并比较等一系列步骤,获取对应的关键词;具体方法将在后续展开介绍,在此不做赘述。
[0060] 步骤20,对于每篇资讯,通过对本篇资讯的各关键词进行模型训练,计算得到本篇资讯中各关键词对应的关键词向量。
[0061] 在进行关键词的模型训练时,具体可采用word2vec、Glove等工具,选择cbow模型进行训练,最终得到的关键词向量为1*256维矢量。例如,在一个具体的实施例中,所述cbow模型的训练窗口大小可设置为8,使用Hierarchical Softmax,抽样阈值设置为1e-4,学习率设置为0.025,最低频率设置为5,线程设置为20,获取关键词的1*256维向量。
[0062] 步骤30,对于每篇资讯,基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票。
[0063] 在本发明实施例中,通过余弦相似度法来遍历计算全市场各股票词与资讯关键词之间的相似度,再乘以对应关键词的权重便得到了关联度,关联度的值越高,证明关键词与对应股票词之间的关联度也就越高。因此,基于关联度的计算结果即可确定与本篇资讯相关的一个或多个股票,具体过程将在后续展开介绍,在此不做赘述。
[0064] 通常,在步骤30之后,即确定与本篇资讯相关的一个或多个股票之后,所述方法还包括:
[0065] 按照预设排序的方式,将所述一个或多个股票展现给用户,以便用户及时获取资讯相关联的股票信息,并可进行基于资讯关联的股票投资。其中,所述预设排序具体可以是各股票词的关联度排序、对应资讯的发布时间排序或对应关键词的数量排序等等;当然,显示界面上可直接给出相应的排序选择方式,则用户可根据需求在显示界面上自行选择想要的排序方法,系统根据用户选择的排序方式将所述一个或多个股票有序地展现给用户,从而可最大限度地满足用户的使用需求。
[0066] 本发明实施例提供的上述方法中,可根据用户需求获取海量资讯,并计算得到每篇资讯的关键词,再通过计算每篇资讯的关键词与市场上各股票词之间的相似度,快速分析得到与资讯相关联的股票并呈现给用户,可帮助用户快速定位当前资讯对应的股票,协助用户进行股票投资交易,为用户增加了选择股票的机会,为用户投资提供有效参考。
[0067] 进一步参考图2,所述根据用户输入的检索条件获取多篇资讯,并通过计算得到每篇资讯的一个或多个关键词,即步骤10,具体包括以下步骤:
[0068] 步骤101,根据用户输入的检索条件,获取相关的多篇资讯;其中,所述检索条件包括资讯标题、资讯内容和资讯关键词中的一项或多项。
[0069] 由前述可知,用户根据自身关注的资讯输入检索条件后,系统即可根据检索条件从资讯平台自动获取全量的历史个股资讯新闻信息,并将获取的所有资讯进行汇总。通常,时间越近的资讯所反应的信息越新,所具有的参考价值也就越大,因此系统可直接获取最近预设时间段内(例如最近一个月)的资讯,如此一来,不仅需要处理的资讯总数量减少,减少处理压力,而且也不会对后续计算关联股票造成大的影响。另外,由于此处获取资讯新闻主要是获取关联股票信息,为投资提供参考,因此所述资讯平台通常是某些主要用于提供财经方面资讯的特定平台,例如财经类、政策类的资讯平台。
[0070] 步骤102,对各资讯进行数据清洗,去除资讯中的无用标签和脏数据。
[0071] 系统从上述特定的资讯平台获取资讯并汇总后,先对各资讯进行一轮数据清洗,去除无用标签和脏数据。其中,所述无用标签是指在获取的资讯新闻中会有一些html的页面格式信息,例如

等,这些和资讯的正文是无关的,也就是无用标签,需要去除;所述脏数据指的是资讯新闻文本中的一些干扰性词汇,例如,停用词“的”、“地”以及一些敏感的脏话类词汇。
[0072] 步骤103,对各资讯中的文本进行分词操作,去除无效词后在剩下的词汇中选取一个或多个作为本篇资讯的关键词,并计算各关键词的权重。
[0073] 对于每篇资讯,首先对资讯中的文本进行分词操作,得到本篇资讯对应的多个词汇,然后从这些词汇中去除停用词、脏词和噪音词等无效词,再在剩下的词汇中选取一个或多个词汇作为本篇资讯新闻的关键词;所述关键词主要是金融词汇或涉及人物、机构等方面的词汇。其中,选取关键词的过程具体为:对于剩下的每个词汇,分别计算该词汇在本篇新闻资讯中出现的概率和在全资讯中出现的概率,并将计算得到的两个概率值进行比较;如果该词汇在本篇新闻资讯中出现的概率高于在全资讯中出现的概率,则将该词汇作为本篇资讯的一个关键词;按照此方法,可在剩下的词汇中选取若干个词汇作为本篇资讯新闻的关键词。
[0074] 继续参考图3,对于每篇资讯,所述基于关键词向量计算本篇资讯的关键词与市场各股票词之间的关联度,进而确定与本篇资讯相关的一个或多个股票,即步骤30,具体又包括以下步骤:
[0075] 步骤301,遍历计算本篇资讯的关键词向量与市场各股票词向量的夹角余弦的距离,并乘以对应的权重,得到本篇资讯关键词与对应股票词的关联度。
[0076] 由前述可知,本发明实施例通过余弦相似度法来计算相似度,而余弦相似度法计算的是两向量间的相似度,关键词对应的关键词向量已经在前述步骤20中计算得到,市场上各股票词对应的股票词向量也可通过相同的方法计算得到,在此不做赘述。因此,对于每篇资讯的每个关键词,可先将该关键词向量标记到高维空间中,再遍历计算该关键词向量与市场各股票词向量的夹角余弦的距离,得到本篇资讯的该关键词与市场各股票词之间的相似度;其中,两向量之间的余弦相似性范围从0到1,越趋近于1表明两个向量之间的相似度越高。再将相似度值乘以该关键词对应的权重后,即可得到本篇资讯的该关键词与各股票词之间的关联度。
[0077] 步骤302,每次计算后,将得到的关联度与预设阈值进行比较,如果关联度高于预设阈值,则将对应的股票词和关联度值保存在股票字典中。
[0078] 显然,每次计算后,得到的关联度值越高,本篇资讯的关键词与对应股票词之间的关联度也就越高。在这里可根据大量人工经验样本来设置预设阈值,如果得到的关联度值高于该预设阈值,可认为对应股票词与本篇资讯具有较高的相关性,因此可将对应的股票词和关联度值均保存在股票字典中。
[0079] 步骤303,遍历计算完成后,基于所述股票字典中保存的一个或多个股票词,确定与本篇资讯相关的一个或多个股票。
[0080] 遍历计算完成后,所述股票字典中可能已经保存有一个或多个股票词,每个股票词对应的股票即可认为是与本篇资讯相关联的一个股票,由此确定与本篇资讯相关的一个或多个股票,并将这些股票展现给用户。
[0081] 进一步地,在确定与本篇资讯相关的一个或多个股票之后,还可将股票字典中的股票词按照对应关联度值从大到小的顺序进行排序,并将排名靠前的n个股票组成有序的关联股票数组(n≥1);其中,所述关联股票数组对应着与本篇资讯最相关的n个股票,在逻辑上表示本篇资讯的股票标签。得到本篇资讯关联股票数组后,即可将所述关联股票数组按照排序的方式展现给用户,以便用户进行基于资讯关联的股票投资。
[0082] 如图4-图6所示,用户在智能终端输入检索条件后,智能终端的显示界面上即可显示相关的资讯新闻以及资讯相关股票。根据显示结果,用户可快速获取资讯中的关联股票,为用户投资提供了有效参考。
[0083] 在图4对应的具体实施例中,用户可能希望获取中国市资讯相关的股票,因此输入的检索信息可能为“牛市”、“牛股”等,系统根据检索条件自动获取相关的多篇资讯,图4中页面上部分展现的为其中一篇牛市相关的采访新闻资讯。通过本发明提供的方法计算后,可得到该资讯的四个相关股票,即页面底部显示的迈瑞医疗、迈瑞、华致酒行和聚隆科技,同时在智能终端展现给用户。其中,在该具体的实施例中,资讯新闻以及相关股票可显示在同一页面上。
[0084] 在图5和图6对应的具体实施例中,用户可能希望获取猪肉价格资讯相关的股票,因此输入的检索信息可能为“猪肉”、“猪”、“猪肉价格”等,系统根据检索条件自动获取相关的多篇资讯,图5中页面上部分展现的即为相关的多篇资讯新闻。通过本发明提供的方法计算后,可得到这些资讯的两个相关股票,即图5中页面底部展现的牧原股份和温氏股份。当点击多篇资讯新闻中的某一资讯新闻时,还可获取具体的资讯信息,并显示在界面上,如图6所示,展现的为其中一篇猪肉价格相关的新闻资讯。
[0085] 进一步地,由前述可知,在步骤10中,所述多篇资讯是从一个或多个资讯平台获取,而所述资讯平台通常是指某些主要用于提供财经方面资讯新闻的特定平台。在从这些资讯平台获取到的多篇资讯新闻中,难免会存在一些带有预估性质的资讯新闻,而这部分资讯新闻中的预估结果是否准确无法得知,对应资讯平台的可信度也无法得知。假设某一资讯平台的可信度较差,其提供的资讯新闻的准确度也较差,那根据这部分资讯新闻进行关联股票计算可能会带来一定的误差,影响结果的准确性。
[0086] 为解决上述问题,在步骤10中,获取多篇资讯后,参考图7,所述方法还可进一步包括:
[0087] 步骤401,对所述多篇资讯分别进行性质分析,从中筛选出一篇或多篇预估性资讯,并记录每篇预估性资讯对应的资讯平台和预估结果。
[0088] 此处具体可通过检测每篇资讯新闻中是否有预估性词汇,来确定各资讯新闻是否属于预估性资讯。其中,所述预估性词汇包括但不限于“可能”、“预计”、“预测”、“估计”、“预估”、“大约”等等,如果出现这类词语,则可判断该篇资讯新闻属于预估性资讯。
[0089] 步骤402,通过大数据爬虫分析和/或对国家基准资讯平台进行访问,获取与每篇预估性资讯相对应的关联结果。
[0090] 记录下每篇预估性资讯对应的预估结果后,后期可周期性地(例如每天、每周)基于各网络数据进行大数据爬虫分析,和/或对国家基准资讯平台进行数据访问,获取与每篇预估性资讯的内容相对应的关联结果。其中,所述国家基准资讯平台是指具有一定权威性的、可信度较高(通常可高达100%)的权威资讯平台,如人民网、中国证券网。通过大数据分析或权威资讯平台得到的关联结果通常可认为准确度是较高的,因此所述关联结果即可作为标准结果。
[0091] 步骤403,将每篇预估性资讯的预估结果与对应关联结果进行匹配,得到每篇预估性资讯的准确度,进而得到对应资讯平台的可信度。
[0092] 通过将预估结果与对应的标准结果进行匹配,可获取预估结果与对应标准结果之间的相似度,相似度越高,该篇预估性资讯的准确度就越高,则对应资讯平台的可信度就越高;反之,相似度越低,该篇预估性资讯的准确度就越低,则对应资讯平台的可信度就越低。之后系统可根据自身需求从中筛选出可信度高于预设基准值的资讯平台,由于这部分资讯平台的可信度较高,对应提供的资讯新闻的准确度也较高,因此后续可继续作为数据源;而其余可信度低于预设基准值的资讯平台,由于这部分资讯平台提供的资讯新闻的准确度较低,因此后续可不再作为数据源。
[0093] 由此,在下一次计算资讯关联股票时,步骤10中的所述获取多篇资讯具体为:从可信度高于预设基准值的一个或多个资讯平台处获取多篇资讯。如此一来,通过在数据源处保证资讯新闻的准确性,可进一步保证最终关联结果的准确性,提高用户体验。
[0094] 其中,在将资讯关联股票呈现给用户时,各资讯对应的资讯来源(即资讯平台)、各资讯来源的可信度、资讯新闻数量、资讯发布时间等信息也可一并呈现给用户,以便用户获取更全面、细致的信息,用户体验更佳。
[0095] 实施例2:
[0096] 在上述实施例1的基础上,本发明实施例提供了一种用于计算资讯关联股票的系统,如图8所示,主要包括:
[0097] 用户输入模块,用于用户在系统输入检索条件,例如资讯标题、资讯内容和资讯关键词等;
[0098] 算法处理模块,用于根据用户检索条件获取多篇资讯,计算分析后得到资讯相关的一个或多个股票;
[0099] 用户输出模块,用于将资讯相关的一个或多个股票按照预设排序展现给用户,以便用户及时获取资讯相关联的股票信息,并进行投资。
[0100] 进一步参考图9,所述算法处理模块具体可包括:
[0101] 资讯获取模块,用于根据用户输入的检索条件,从一个或多个资讯平台获取相关的多篇资讯,并将所述多篇资讯进行汇总。
[0102] 关键词计算模块,用于通过计算得到每篇资讯的一个或多个关键词,具体为:对各资讯进行数据清洗,去除无用标签和脏数据;对各资讯中的文本进行分词操作,去除无效词后在剩下的词汇中选取一个或多个作为本篇资讯的关键词,并计算各关键词的权重。
[0103] 关键词向量计算模块,用于对每篇资讯新闻对应的一个或多个关键词进行模型训练,计算得到本篇资讯中各关键词对应的关键词向量。其中,具体可采用word2vec、Glove等工具,选择cbow模型进行训练,最终得到的关键词向量为1*256维矢量。
[0104] 关联度计算模块,用于通过余弦相似度法遍历计算资讯的关键词与市场各股票词之间的关联度,并将关联度值高于预设阈值的股票词和对应关联度值均保存在股票字典中,确定与本篇资讯相关的一个或多个股票。
[0105] 股票排序模块,用于将股票字典中的股票词按照对应关联度值从大到小的顺序进行排序,并将排名靠前的n个股票组成有序的关联股票数组(n≥1),对应与本篇资讯最相关的n个股票,在逻辑上表示本篇资讯的股票标签,以便将所述关联股票数组按照排序的方式展现给用户。
[0106] 实施例3:
[0107] 在上述实施例1提供的用于计算资讯关联股票的方法的基础上,本发明还提供了一种可用于实现上述方法的用于计算资讯关联股票的装置,如图10所示,是本发明实施例的装置架构示意图。本实施例的用于计算资讯关联股票的装置包括一个或多个处理器21以及存储器22。其中,图10中以一个处理器21为例。
[0108] 所述处理器21和所述存储器22可以通过总线或者其他方式连接,图10中以通过总线连接为例。
[0109] 所述存储器22作为一种用于计算资讯关联股票的方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的用于计算资讯关联股票的方法。所述处理器21通过运行存储在所述存储器22中的非易失性软件程序、指令以及模块,从而执行用于计算资讯关联股票的装置的各种功能应用以及数据处理,即实现实施例1的用于计算资讯关联股票的方法。
[0110] 所述存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,所述存储器22可选包括相对于所述处理器21远程设置的存储器,这些远程存储器可以通过网络连接至所述处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0111] 所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的用于计算资讯关联股票的方法,例如,执行以上描述的图1-图3所示的各个步骤。
[0112] 本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
[0113] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈