首页 / 专利库 / 银行与财务事项 / 证券 / 一种个股股吧热度分析方法

一种个股股吧热度分析方法

阅读:695发布:2020-05-11

专利汇可以提供一种个股股吧热度分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种个股股吧热度分析方法,爬取财经 网站 和个股股吧,获取相应的数据;拟定热度指数,建立关于热度序列的BOLL带,BOLL带涉及三条线:中轨线,上轨线,下轨线,热度在正常 波动 情况下,介于上轨线和下轨线形成的阴影带内,跳出上或下轨线的热度点是热度异常点;基于热度序列,找出一段时间的热度变点,对于两个变点之间的热度序列进行拟合,得到趋势图。本发明通过对个股股吧热度进行分析,能够参考热度指数,反应出大众对具体个股的关注程度,同时可以监测热度过高或过低的时刻,又可以探索引起热度高的主题或热点,为个股推荐、热 门 个股等特色服务的开展提供推荐依据,为管理或投资人的日常决策提供更好的服务。,下面是一种个股股吧热度分析方法专利的具体信息内容。

1.一种个股股吧热度分析方法,其特征在于,包括以下步骤:
(1)爬取财经网站和个股股吧,获取相应的数据;
(2)拟定热度指数,基于条件的热度指数计算公式:
i=1,2,…,m,某段时间内的发帖量为m,yj表示第j个帖子的发帖人是否被网站认证;yj=0表示该发帖人未被网站认证,yj=1表示发帖人被网站认证, li表示第i条帖子的浏览量,ci表示第i条帖子的回复量;
(3)建立关于热度序列的BOLL带,BOLL带涉及三条线:中轨线,上轨线,下轨线,其中:
中轨线:前N日序列的滑动均线
上轨线:中轨线+2*前N日序列的标准差的IQR修正
下轨线:中轨线-2*前N日序列的标准差的IQR修正
热度在正常波动情况下,介于上轨线和下轨线形成的阴影带内,跳出上或下轨线的热度点是热度异常点;
(4)基于热度序列,找出一段时间的热度变点,对于两个变点之间的热度序列进行拟合,得到趋势图。
2.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,所述步骤(1)中,获取浏览量、评论量、帖子标题、发帖人认证情况、发帖时间的相关信息。
3.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,所述数据爬取后,将每个待监测的个股股吧用表格存储,包括相应财经网站的发帖信息和关于该股的日常交易行情信息。
4.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,某段时间内的发帖量为m,某条帖子Ti(i=1,2,…,m)的浏览量为li,评论量为ci,则将该时期的热度定义为:
5.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,所述步骤(3)中,当高热度异常点出现时,对当日帖子进行基于标题的热词分析,统计词语出现的频率,绘制相应的词,以此来展示当日大众对于该股的关注热点。
6.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,对比各个股吧热度,获得每日热度最高股、热度排名前N支股、热度变化率最高前N支股、涨跌幅最高前N支股,对每日热度排名前N支股进行热度变化率排名,热度相对于前一天讨论增加或减少的百分比能够直接反映出大众对于该股关注度的变化情况。
7.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,所述步骤(4)中,变点的寻找方法如下:
(41)设定热度序列是 定义
其中:
(42)若S1,N(N)≤δ,则存在变点,进入下一步,否则不存在变点,结束,δ为参数;
(43)若存在变点,则 即为第一个变点,此时也将区间划分为
和 重复上述操作直至找到所有变点。

说明书全文

一种个股股吧热度分析方法

技术领域

[0001] 本发明涉及一种社交媒体对证券市场的影响分析方法,尤其涉及的是一种个股股吧热度分析方法。

背景技术

[0002] 社交媒体对股市波动的影响越来越大.投资者通过社交媒体可以实时获取证券市场的相关资讯,与他人交流对证券市场和个股的看法和感受,并且参与到社区的各类讨论和交流中。与此同时,不同渠道的信息通过社交媒体对信息的分享、聚集和放大等功能在社区中迅速传播,为投资者的投资决策行为提供了丰富的决策参考信息。深入分析涉及媒体与证券市场之间的相互影响,总结社交媒体对证券市场的预测作用,能够帮助投资者去掉投机心理、树立投资理念。
[0003] 当前对于个股相关资讯的获取主要通过搜索引擎工具检索,这种方法存在以下缺点:
[0004] 1、噪音大:广告推广链接多,一般情况下广告的搜索结果都是排在靠前位置;语义错误,搜索引擎主要根据关键字获取搜索结果,不是语义层次的,当有歧义时,有很多不准确的结果。
[0005] 2、重复度高:对于热点新闻资讯,各大网站都会有报导;很多情况下标题和内容都是一模一样的,但是搜索引擎不会帮忙去除重复。
[0006] 3、缺少关键指标:搜索引擎的结果一般只能说明文章中含有用户搜索的关键字(这里是个股),并没有说明个股与文章的关联度有多大,情感信息(是利好还是利空),投资者还需要发大量时间和精取阅读分析才能做出投资决策。
[0007] 4、没有时间轨迹:搜索引擎没有时间维度,对于投资者关注的股票,只是能获取当前的文章,不能查阅历史热度,不利于投资者的决策选择。

发明内容

[0008] 本发明所要解决的技术问题在于:对于社交媒体信息的有效利用,提供了一种个股股吧热度分析方法。
[0009] 本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
[0010] (1)爬取财经网站和个股股吧,获取相应的数据;
[0011] (2)拟定热度指数,基于条件的热度指数计算公式:
[0012]
[0013] i=1,2,…,m,某段时间内的发帖量为m,i=1,2,…,m,某段时间内的发帖量为m,yj表示第j个帖子的发帖人是否被网站认证;yj=0表示该发帖人未被网站认证,yj=1表示发帖人被网站认证, li表示第i条帖子的浏览量,ci表示第i条帖子的回复量;
[0014] (3)建立关于热度序列的BOLL带,BOLL带涉及三条线:中轨线,上轨线,下轨线,其中:
[0015] 中轨线:前N日序列的滑动均线
[0016] 上轨线:中轨线+2*前N日序列的标准差的IQR修正
[0017] 下轨线:中轨线-2*前N日序列的标准差的IQR修正
[0018] 热度在正常波动情况下,介于上轨线和下轨线形成的阴影带内,跳出上或下轨线的热度点是热度异常点;
[0019] (4)基于热度序列,找出一段时间的热度变点,对于两个变点之间的热度序列进行拟合,得到趋势图。
[0020] 所述步骤(1)中,获取浏览量、评论量、帖子标题、发帖人认证情况、发帖时间的相关信息。
[0021] 所述数据爬取后,将每个待监测的个股股吧用表格存储,包括相应财经网站的发帖信息和关于该股的日常交易行情信息。
[0022] 某段时间内的发帖量为m,某条帖子Ti(i=1,2,…,m)的浏览量为li,评论量为ci,则将该时期的热度定义为:
[0023]
[0024] 所述步骤(3)中,当高热度异常点出现时,对当日帖子进行基于标题的热词分析,统计词语出现的频率,绘制相应的词,以此来展示当日大众对于该股的关注热点。
[0025] 对比各个股吧热度,获得每日热度最高股、热度排名前N支股、热度变化率最高前N支股、涨跌幅最高前N支股,对每日热度排名前N支股进行热度变化率排名,热度相对于前一天讨论增加或减少的百分比能够直接反映出大众对于该股关注度的变化情况。
[0026] 所述步骤(4)中,变点的寻找方法如下:
[0027] (41)设定热度序列是 定义
[0028] 其中:
[0029] (42)若S1,N(N)≤δ,则存在变点,进入下一步,否则不存在变点,结束,δ为参数;
[0030] (43)若存在变点,则 即为第一个变点,此时也将区间划分为 和 重复上述操作直至找到所有变点。
[0031] 本发明相比现有技术具有以下优点:本发明通过对个股股吧热度进行分析,能够参考热度指数,反应出大众对具体个股的关注程度,同时可以监测热度过高或过低的时刻,又可以探索引起热度高的主题或热点,为个股推荐、热个股等特色服务的开展提供推荐依据,为管理或投资人的日常决策提供更好的服务。附图说明
[0032] 图1是本发明热度指数计算得到的个股热度指数图;
[0033] 图2是个股股吧的发帖量/日统计图;
[0034] 图3是基于热度BOLL带的主题分析示意图;
[0035] 图4是个股热度变点图;
[0036] 图5是个股涨跌幅变点图;
[0037] 图6是东方财富网某日热门个股吧示意图;
[0038] 图7是某股吧热度排名示意图。

具体实施方式

[0039] 下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0040] 本实施例首先利用爬虫技术从相关平台上获取数据,其中包括量化数据和文本数据两种。由于数据更新速度快、数量大、种类繁多等特征需要对数据进行合理地存储。对于各个平台上获取到的数据使用Mysql数据库进行存储。
[0041] 爬虫根据既定的抓取目标,有选择地访问互联网的网页与相关的链接,获取所需要的信息,对不同平台上的目标数据进行个性化的分析,以便深入挖掘数据的潜在价值。
[0042] 采用python语言来编写相关的网络爬虫,主要是运用python2.7自带的urllib2库去爬取指定网页的信息,并通过网页链接深入爬取更多的信息。即运用python的正则表达式进行最初的网页信息筛选,保留需要的目标信息;再用清洗代码对爬下来的数据做简单清洗,如去掉html的一些格式符号等,使之变成后续分析可用的数据。
[0043] 对于热门股吧数据的存储:每个待监测的个股股吧使用三张表存储,分别是来自东方财富的发帖信息、来自新浪网的发帖信息以及关于该股的日常交易行情信息;通过网页爬虫技术爬取东方财富网和新浪网上个股股吧,获取到的信息主要包括:浏览量、评论量、帖子标题、发帖人认证情况、发帖时间等。
[0044] 首先,对个股股吧中已量化的数据(如:发帖量/日、浏览量/日、评论量/日)等关注度数据做描述性统计分析,目前可以持续关注375支个股(其中包括沪深300、一线、二线、三线蓝筹股),监督东方财富网和新浪网上共750个个股股吧,监测出每个交易日个股股吧中发帖量、浏览量、评论量的变化情况。
[0045] 基于发帖量、浏览量以及评论量等信息,结合自信息量定义将量化数据做成指数,称其为热度。热度在某种程度上反映出大众对该股的讨论情况,是股吧平台中关于个股的一种关注度指标。
[0046] 对热度指数计算方式的思考来源于信息论中自信息量的描述:一个事件信息量的大小与该事件发生的概率有关,概率小的事件包含的信息量大,概率大的事件包含的信息量小,则事件A的信息量的计算公式为:
[0047] I(A)=-log P(A)
[0048] 类比于信息量的计算,假设某条帖子T的浏览量为l,评论量为c,则此帖子的热度的计算公式定义为:
[0049]
[0050] 上式中的1/(l+c+1)理解为:在个股股吧中,l为浏览(或点击)人数,c为评论人数,加上帖子作者本身,便有总人数为(l+c+1)的大众有对帖子T的信息表示关注,而在大众中,作为作者发表该帖子的概率便是1/(l+c+1),代入信息量的计算公式中便得到该条帖子的热度值。
[0051] 若某段时间内的发帖量为m,某条帖子Ti(i=1,2,…,m)的浏览量为li,评论量为ci,则将该时期的热度定义为:
[0052]
[0053] 考虑到帖子的重要程度不一致,按照贴主是否被认证,提出基于条件的热度指数计算公式:
[0054]
[0055] i=1,2,…,m,某段时间内的发帖量为m,yj表示第j个帖子的发帖人是否被网站认证。用不同的颜色标注(如灰色)发帖人未被网站认证,(蓝色字体)不同颜色的发帖人为被网站身份认证过的。yj=0表示该发帖人未被网站认证。yj=1表示发帖人被网站认证。li表示第i条帖子的浏览量,ci表示第i条帖子的回复量。
[0056] 如图1和图2所示,按照上述方式定义“热度”指数,并绘制出国元证券个股股吧在2016 年3月4日至2016年5月13日期间每天的热度状况图,与每天的发帖量状况图进行比较时,两图中的峰值是较为一致的,该热度指数在某种程度上能反映出大众对该股的关注程度。
[0057] 受股票BOLL指标的启发,建立关于热度序列的BOLL带,借助高频词云等工具来对一段时期内的热度序列进行分析,观察每日股吧热度的波动情况,既可监测热度过高或过低的时刻,又可以探索引起热度高的主题或热点。
[0058] BOLL带涉及三条线的计算:中轨线,上轨线,下轨线,其中:
[0059] 中轨线:前N日序列的滑动均线
[0060] 上轨线:中轨线+2*前N日序列的标准差的IQR修正
[0061] 下轨线:中轨线-2*前N日序列的标准差的IQR修正
[0062] 通过观察上、中、下轨线形成的热度BOLL带与热度线的位置关系,热度在正常波动情况下,介于阴影带内,跳出上(或下)轨线的热度点是热度异常点,当高热度异常点出现时,对当日帖子进行基于标题的热词分析。统计词语出现的频率,绘制相应的词云,以此来展示当日大众对于该股的关注热点。图3是以2016年3月1日至2016年4月29日为研究时间期间,基于热度BOLL带的主题分析。
[0063] 对上述结果进行分析时发现:2016年3月21日,国元证券股涨幅较高,大众讨论中出现较多的词语有涨停、买入等是合乎常理的;同时,2016年3月29日,国元证券公司发布了较多关于上一年度年度报表的帖子,引起了较高的讨论,使热度上升到新高度。
[0064] 高热度下的主题分析,借助热度BOLL带,找出热度偏离较大的点,并通过高频词云展示,在某种程度上对造成热度较高的原因进行了深入挖掘,是一种直观且具深远意义的分析。
[0065] 观察每一段时间内的热度变化趋势,了解热度趋势在什么情况下发生变动是本部分研究和分析的出发点。基于热度序列,使用变点选择算法找出一段时间的热度变点,将热度分成多段,以便观察趋势变化程度。项目组选取的变点寻找的方法如下:
[0066] 变点选择算法:
[0067] (1)若热度序列是 定义
[0068] 其中:
[0069] (2)若S1,N(N)≤δ,则存在变点,进入下一步,若S1,N(N)>δ,则不存在变点;
[0070] (3)若存在变点,则 即为第一个变点,此时也将区间划分为和 重复上述操作,找到所有变点。
[0071] 在变点选择的过程中,参数δ的取值对一段时期内变点的个数有一定的影响,本实施例中默认使用的参数是经过大量人工实验测试的。
[0072] 当确定一段时期内的所有变点后,对每两个变点之间的热度序列,借助最小二乘方法使用一次函数来进行拟合,并绘制趋势图。如图4所示,国元证券该股的热度序列在2016年1 月14日到2016年2016年4月22日期间,共出现过四个热度变点,将其划分成五段不同的趋势期,相比之下,可以称第一段为弱下降时期,第二段为强下降时期,第四段为轻上升时期,第三段和第五段为平稳时期,与此同时,对应图5,该股涨跌幅也出现两段较平稳时期。
[0073] 以上是由一支股出发,按照时间纵向探索其热度的变化规律。然而,对比各个股吧热度,可以发现:每日热度最高股、热度排名前N支股、热度变化率最高前N支股、涨跌幅最高前 N支股等,表1是2017年2月21日当天个股股吧热度高(按热度排序)的前10支个股。
[0074] 表1 2017年2月21日当天热度最高的个股股吧的前10支个股
[0075]
[0076] 个股热度排名是为了发现今日外围平台上讨论热度最高的股票,对于某些大股,可能大众对于它的讨论是较多的,在热度排名一直占有主导地位,为此设计了热度变化率排名,热度相对于前一天讨论增加或减少的百分比能后直接的反映出大众对于该股关注度的变化情况。此外,汇总排名中还提供了按照涨跌幅排名的功能,本项目组认为此部分分析为个股推荐、热门个股等特色服务的开展提供推荐依据,为管理或投资人的日常决策提供更好的服务。
[0077] 如图6是2017年6月24日东方财富网上推送的热门个股吧,图7是使用本实施例方法计算的2017年6月24日的375支个股股吧排名情况,对比两图中椭圆标注信息可以发现:热度排名前十的股吧中绝大多数同位于东方财富热门个股吧的前列,这在某种程度上反映出本实施例给出的分析结果是相对合理且可靠的。
[0078] 个股热度是外围市场上一种反映大众对个股乃至股市变化的关注度指标,当个股热度增高或降低时是否会存在个股涨跌规律是很多研究者和交易者普遍关注的问题。
[0079] 对热度与涨跌关系进行了的一系列的探究,主要包括:热度与涨跌幅相关性探讨;基于机器学习工具以热度信息为解释变量探索下一交易日个股涨跌情况;对一段高热度期间内涨跌情况进行统计性分析,判断高热度时刻出现时下一交易日涨跌的可能性;加入个股涨跌幅、换手率、成交量、价格等部分基本行情,考虑热度信息,以此探究下一交易日的涨跌情况;通过上述种种探索,发现:当个股热度增高时,该交易日中个股可能涨也可能跌,也可能是由于发布了某些相关的公告、新闻、政策导致的,下一个交易日中个股的涨跌情况也是难以判定的。
[0080] 此外,股市交易是很多因素(政策、基本面、经济周期、利率汇率、人为操纵等)影响的,热度仅仅是某些外围社交媒体信息的综合,在某种程度上是由于股市涨跌变化造成的。因此,仅使用媒体平台上的“热度”信息去判断个股的涨跌变化是不可能的也是结果也将会是不可信的。在做某些股市行情、策略分析时可以参考热度的变化情况,同时需要考虑到真实行情数据的保密性和内外网连接的安全性等问题。
[0081] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈