首页 / 专利库 / 银行与财务事项 / 证券 / 一种财经博客文本分析方法

一种财经博客文本分析方法

阅读:839发布:2020-05-11

专利汇可以提供一种财经博客文本分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种财经博客 文本分析 方法,爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。本发明能够对财经博客的前几名的博主进行有效排序,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,一定程度上减少投资者的投资失误。,下面是一种财经博客文本分析方法专利的具体信息内容。

1.一种财经博客文本分析方法,其特征在于,包括以下步骤:
(1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
(2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
(3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。
2.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(1)中,包括以下步骤:(11)首先用第一类分类器将未来句子提取出来;
(12)再用第二类分类器对提取出来的未来句子进行切词;
(13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
(14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平。
3.根据权利要求2所述的一种财经博客文本分析方法,其特征在于,所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
4.根据权利要求2所述的一种财经博客文本分析方法,其特征在于,对于一篇博文的N个词权重向量为:s=(s1,s2,…,sN),N个词的对应词得分λ=(λ1,λ2,…,λN),计算每篇博文的得分:
5.根据权利要求2所述的一种财经博客文本分析方法,其特征在于,所述涨跌词典为:
博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若ScoreScorehigh,则博文看涨。
6.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若UpdownUpdownhigh,则股市涨。
7.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
8.根据权利要求7所述的一种财经博客文本分析方法,其特征在于,对博主根据看涨看跌和看平进行分类排序,公式如下:
分类标签为看涨的公式:
分类标签为看跌的公式:
分类标签为看平的公式:
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。

说明书全文

一种财经博客文本分析方法

技术领域

[0001] 本发明涉及一种社交媒体对证券市场的影响分析方法,尤其涉及的是一种财经博客文本分析方法。

背景技术

[0002] 社交媒体对股市波动的影响越来越大.投资者通过社交媒体可以实时获取证券市场的相关资讯,与他人交流对证券市场和个股的看法和感受,并且参与到社区的各类讨论和交流中。与此同时,不同渠道的信息通过社交媒体对信息的分享、聚集和放大等功能在社区中迅速传播,为投资者的投资决策行为提供了丰富的决策参考信息。深入分析涉及媒体与证券市场之间的相互影响,总结社交媒体对证券市场的预测作用,能够帮助投资者去掉投机心理、树立投资理念。
[0003] 博客作为网民表达思想感情的平台,对于部分财经类博客,从初步统计情况看来,大部分博文字数在2000字左右,相对于股吧和微博平台文本数据,博文结构较完整、观点更明朗、言语表达更加权威和官方,为文本分析提供了强有的便捷。
[0004] 据不完全统计,目前中国博客数量已经超过2000万,其中财经博主大约占六分之一,在繁杂的博客中,发现权威博主,减少无意义的分析是必要的,有针对性的分析权威博主,提高效率的同时增加说服力。

发明内容

[0005] 本发明所要解决的技术问题在于:如何利用社交媒体的信息对投资者提供辅助参考,提供了一种财经博客文本分析方法。
[0006] 本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
[0007] (1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
[0008] (2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
[0009] (3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。
[0010] 所述步骤(1)中,包括以下步骤:(11)首先用第一类分类器将未来句子提取出来;
[0011] (12)再用第二类分类器对提取出来的未来句子进行切词;
[0012] (13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
[0013] (14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平。
[0014] 所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
[0015] 对于一篇博文的N个词权重向量为:s=(s1,s2,…,sN),N个词的对应词得分λ=(λ1,λ2,…,λN),计算每篇博文的得分:
[0016] 所述涨跌词典为:
[0017]
[0018] 博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若ScoreScorehigh,则博文看涨。
[0019] 所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若UpdownUpdownhigh,则股市涨。
[0020] 所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
[0021]
[0022] 计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
[0023] 对博主根据看涨看跌和看平进行分类排序,公式如下:
[0024] 分类标签为看涨的公式:
[0025] 分类标签为看跌的公式:
[0026] 分类标签为看平的公式:
[0027] 其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
[0028] 本发明相比现有技术具有以下优点:本发明能够对财经博客的前几名的博主进行有效排序,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,一定程度上减少投资者的投资失误。附图说明
[0029] 图1是本发明的博文分类的流程图
[0030] 图2是博主月准确率排名。

具体实施方式

[0031] 下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0032] 本实施例首先爬取新浪和东方财富网上排名靠前的130多位博主的博客数据,主要包括:博文标题、博主昵称、发帖日期、博主人气、博文网址、博文内容等。
[0033] 如图1所示,对于使用两类分类器,第一类分类器先将过去的句子剔除掉,仅仅保留未来的句子,避免了过去行情描述的句子对未来股市趋势判断造成不必要的影响。再使用第二类分类器基于未来句子对博文进行涨跌平分类。
[0034] 通过对句子分词,匹配未来、过去词典来实现第一类分类器的判断,第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,这里的未来是指那些表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。第二类分类器为涨跌平分类器,对于第一类分类器提取出来的未来句子,通过词频、TF-IDF、Text-Rank等方法进行切词,并得到每个词语的一个重要性权重。
[0035] 某篇博文的N个词权重向量为:s=(s1,s2,…,sN),对于这N个词匹配看涨、看跌词典得到这些词对应的词得分λ=(λ1,λ2,…,λN),计算每篇博文的得分: 其中第二类分类器的涨跌词典为:
[0036]
[0037] 由于博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若ScoreScorehigh,则博文看涨。
[0038] 为了衡量分类效果,本实施例选取宏大数据网首页上已分类的148篇博文,以申请人单位(国元)的评判类别为依据,对比宏大数据网和本实施例的分类效果,统计情况如表1所示:
[0039] 表1分类结果对比表
[0040]
[0041] 若定义衡量评判误差准则,则
[0042]
[0043]
[0044] 宏大数据和本实施例的博文分类效果相当的,由此可见,本实施例的博文分类结果可信度较高。
[0045] 本实施例同时定义权威博主:看盘准确率高的财经博主。
[0046] 通过将一段时期内博主所有博文的分类情况与其对应的接下来三个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性。类似地定义股市的涨跌平,设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若UpdownUpdownhigh,则股市涨。
[0047] 若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误。用numhigh,numlow,numave,num1,num-1,num0来分别表示看涨/跌/平正确的数量与看涨/跌/平的总数量。进一步观察,发现大多数文章都属于看平,为了加强体现博主鲜明的看涨看跌观点,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
[0048]
[0049] 计算一段时间内博主所有博文的准确率,然后根据准确率的高低可以对博主进行排序,考虑到博主看盘准确率的数值较低,按照将其划分不同的区间,对博主给予等级评定,如图2所示。
[0050] 从一段时期内博主排名结果来看,持续在前几名的博主是较权威的,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,降低投资失误的险。
[0051] 可以对客户展示看涨、看跌、看平加权得分最高的十篇博文,其中排序公式如下:
[0052] 分类标签为1(看涨)的公式:
[0053] 分类标签为-1(看跌)的公式:
[0054] 分类标签为0(看平)的公式:
[0055] 其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
[0056] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈