首页 / 专利库 / 人工智能 / 社交媒体挖掘 / 一种基于社交媒体的经济金融行为分析系统模型

一种基于社交媒体的经济金融行为分析系统模型

阅读:369发布:2020-07-17

专利汇可以提供一种基于社交媒体的经济金融行为分析系统模型专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于社交媒体的经济金融行为分析系统模型,其特征在于,系统包括三大类模 块 :爬虫、 数据库 及索引和分析器,爬虫主要负责 数据采集 ,数据库分为两部分,结构化数据和非结构化数据,根据采集的数据信息,在建立索引时,对每个用户和每条微博设定一个全局ID,以此来对不同数据库中的信息进行对齐和检索,分析器是系统的核心,包括6个子模块,分别是:话题分析、实体识别、动作识别、消息 跟踪 、 情感分析 和社区 聚类分析 。本发明所述的一种基于社交媒体的经济金融行为分析系统模型能够有效、准确地收集到用户信息,从而对用户数据进行较为完整的归档、 整理 ,建立用户信息库,根据用户的信息库给用户提供用户关注的消息推送。,下面是一种基于社交媒体的经济金融行为分析系统模型专利的具体信息内容。

1.一种基于社交媒体的经济金融行为分析系统模型,其特征在于,系统包括三大类模:爬虫、数据库及索引和分析器,爬虫主要负责数据采集,数据库分为两部分,结构化数据和非结构化数据,根据采集的数据信息,在建立索引时,对每个用户和每条微博设定一个全局ID,以此来对不同数据库中的信息进行对齐和检索,分析器是系统的核心,包括6个子模块,分别是:话题分析、实体识别、动作识别、消息跟踪情感分析和社区聚类分析
2.根据权利要求1所述的基于社交媒体的经济金融行为分析系统模型,其特征在于,对具有相同ID的微博检测各种域的信息:
话题:话题使用标号来建立索引,对于整体微博数据,我们给出固定的若干大类信息,对于每条微博数据,我们标注其类别信息,另外,微博可以属于多类,因此对于话题域,我们需要建立一对多的映射;
实体:实体包括人名、地名、机构名等以及一些常用语中的固定名词短语,对于实体,我们需要标注实体的类别和实体名称,并记录用户ID和微博ID;
行动:对于行动,我们需要标注三元组信息,即主体,动作,目标,并记录用户ID和微博ID;
消息:如果是转载的讯息,我们需要存储其被转载的用户ID,微博ID等;
根据以上信息,在建立索引时,我们对每个用户和每条微博设定一个全局ID,以此来对不同数据库中的信息进行对齐和检索。
3.根据权利要求1所述的基于社交媒体的经济金融行为分析系统模型,其特征在于,所述系统还包括基于分析出来的数据提供的系统中的数据服务和专家系统,用于为用户提供了更为专业的知识和信息推送。
4.根据权利要求3所述的基于社交媒体的经济金融行为分析系统模型,其特征在于,数据服务包括以下几个方面的内容:
市场情绪指数:通过对每天所有跟社会经济活动相关的微博进行情感分析,得到一个市场情绪指数,并每天进行公布,以提高影响
关键事件检测:对微博中关键事件,尤其是突发事件进行检测,为用户第一时间提供预警和提醒;
人物活跃度、关键人物挖掘:基于对话题和事件的挖掘对其中讨论中最活跃的人进行挖掘,通过发文统计,文章被转载和回复热度等频率的统计来给出热点人物的排名;
用户信息统计和预测:年龄、性别、兴趣、位置:对于在话题中出现的所有人进行不同侧面属性的统计,有些信息我们可以通过开放平台中的接口获得,有些属性我们可以通过每个用户的发文内容进行挖掘和预测;
时间序列相关性分析:对于话题、实体、动作和消息,以及他们相应的情感指数,建立一个时间序列,这些时间序列和重要的经济指标、股票及其指数之间可以挖掘出一些相关性,提供给用户指数或者某只股票最相关的文本时间序列以供分析;
网络演化分析:对于不同话题,给出不同的网络演化分析,这些网络演化结果也可以用来帮助用户对互联网的社会经济行为分析时有效获取到有用的信息。
5.根据权利要求3所述的基于社交媒体的经济金融行为分析系统模型,其特征在于,专家系统是集合了所有分析技术给出的一系列建议和解决方案,包括:
股市多空判断:通过对历史数据的统计,得到那些关键的实体、行动、消息以及他们相关的情感会和股市的运动产生相关性;
盘后实事自动分析:对于当天收盘以后的结果进行分析,通过挖掘历史数据,找到有可能影响当天走势的关键事件;
网络热议分析:对于网络热议的话题进行分析和预测。

说明书全文

一种基于社交媒体的经济金融行为分析系统模型

技术领域

[0001] 本发明涉及一种基于社交媒体的经济金融行为分析系统模型,所属计算机软件应用领域。

背景技术

[0002] 随着Web2.0的发展,越来越多的人们希望能够在互联网上自由的表达自己的观点。这些观点可以是发表或转载一条消息或新闻,或者对某一条新闻的评论,也可以是自己的某种情绪的宣泄。传统的讨论版、BBS、博客渐渐无法满足高速信息的冲击。在此背景下,微博作为一种新型社交媒体,越来越多的吸引互联网上的用户的关注,形成了极大的使用粘性和覆盖率。由此,这些海量具有时效性的数据带来了巨大的机会和挑战。
[0003] 首先,大数据中蕴含大机会。华尔街Derwent Capital Markets公司Paul Hawtin利用电脑程序分析全球3.4亿Twitter账户留言,进而判断民众情绪,依据分析结果决定如何处理手中数以百万美元计的股票。此外,对冲基金依据购物网站顾客评论分析企业产品销售状况;行根据求职网站岗位数量推断就业率;投资机构搜集并分析上市企业声明寻找破产原因。美国总统Obama的竞选团队也依据选情比较关键的各州选民的Twitter留言,实时分析选民对总统竞选人的喜好;研究人员也试图通过机器学习的手段来预测Twitter上的某个用户是民主党还是共和党派。Google与美国疾病控制和预防中心等机构合作,依据网民搜索内容分析全球范围内流感等病疫传播状况。联合国机构依据拉丁美洲超市发布在互联网的促销广告,判断通货膨胀走势等等。互联网社交媒体中蕴含着大量具有价值的信息和资源,能够自动从中识别发现这些资源将会带来大量的新的产业和机会。
[0004] 第二,海量数据以及由于微博的发表字数限制和时效性,对数据分析和处理提出了很大的挑战。Twitter,Facebook,Google和Bing每天都产生数百至数千Terabyte的数据,如何有效的处理这些数据对数据分析提出了巨大的挑战。大量的信息通过文本、图像、声音被记录下来,因此有效的分析和翻译并形成机器能够读懂的内容成为了计算机科学家最关注的问题之一。特别的,互联网中的信息有80%都来自于文本。因此,机器阅读和理解越来越为人们所关注。例如,CMU机器学习系的创始人Tom Mitchell教授于2010年1月发起了一个机器阅读的项目:Never ending language learning(NELL),其目的就在于从互联网上大量的文本中自动抽取有用的知识。
[0005] 对于微博中发表的短文本,相对于传统的长文分析更加困难。短文本的写法更加随意和模糊。因此如何从短文本中抽取有用的信息和知识,甚至用户的情感、观点则更为困难。同时,更具有时效性,我们不能保存所有的信息。因此,必要的信息抽取和整合可以带来更有效的存储和检索效率。

发明内容

[0006] 发明目的:本发明的目的是为了解决目前数据分析系统的不足,提供一种基于社交媒体的经济金融行为分析系统模型。
[0007] 技术方案:本发明所述的基于社交媒体的经济金融行为分析系统模型,其目的是这样实现的,
[0008] 一种基于社交媒体的经济金融行为分析系统模型,系统主要由三大类模组成:爬虫(Crawler)、数据库及索引(Database/Indexer)、分析器(Analyzer)。
[0009] 爬虫主要负责数据采集。数据源分为两部分。第一部分为经济指标和时间序列。经济指标包括国家、地方和公司的财务数据。国家每月每季度都会公布关键经济数据,这些经济数据可以用来配合人们的评论在分析社会经济行为。相关时间序列包括市场主要股票、商品、债券、汇率等金融指数,具体公司的股价等。国外主要数据源为彭博社(Bloomberg)、道琼斯(Dow Jones)和汤森路透(Thomson Reuters)等公司;国内包括新浪财经、大智慧和同花顺等。
[0010] 第二部分为微博数据。微博提供API方便用户进行定向抓取。为此,我们需要保持一个定向抓取列表,包括关键的用户(及其好友),主要的上市公司,相关产品,以及经济活动相关的关键词等等。对于微博,还有一类重要的信息,就是用户、标签(hashtag)和转载之间的链接信息。因此,对于抓取下来的数据,相关的链接和转载也要包括进来。
[0011] 数据库分为两部分,结构化数据和非结构化数据。结构化数据包括重要经济指标、时间序列、财务报表等。这些数据使用MySQL存储。非结构化数据包括微博文本、以及标注的话题、实体等等。这部分信息可以通过Lucene配合MySQL来实现索引。Lucene擅长对文本简历倒排表索引,可以让我们很容易的检索到那个微博发表了对某个关键词的信息和评论。MySQL用来对标注的话题、实体、行动和消息进行检索。因此我们可以对具有相同ID的微博检测各种域的信息:
[0012] 话题:话题使用标号来建立索引。对于整体微博数据,我们给出固定的若干大类信息。对于每条微博数据,我们标注其类别信息。另外,微博可以属于多类,因此对于话题域,我们需要建立一对多的映射。
[0013] 实体:实体包括人名、地名、机构名等以及一些常用语中的固定名词短语。对于实体,我们需要标注实体的类别和实体名称,并记录用户ID和微博ID。
[0014] 行动:对于行动,我们需要标注三元组信息,即<主体,动作,目标>,并记录用户ID和微博ID。
[0015] 消息:如果是转载的讯息,我们需要存储其被转载的用户ID,微博ID等。
[0016] 根据以上信息,在建立索引时,我们对每个用户和每条微博设定一个全局ID,以此来对不同数据库中的信息进行对齐和检索。
[0017] 分析器是系统的核心,包括6个子模块,分别是:话题分析、实体识别、动作识别、消息跟踪情感分析和社区聚类分析
[0018] 话题分析是上层较为粗糙的语义分析。话题是多度多层次的多标签的分类问题。我们可以将微博数据分类成经济、政治、体育、娱乐、教育等;也可以将新闻消息分为国内或国外新闻。据此可以将与经济社会活动相关的微博筛选出来。我们可以将经济类微博数据进一步分类成宏观经济分析评论、股票分析、公司评论等等。另外,我们还可以对某一个特定的话题进行划分,例如找出三聚氰胺事件、日本海啸事件相关的微博等等。
[0019] 实体分析和行动分析是较为细的一种语义分析。我们对每条微博进行实体和语义分析,检测实体的同义词以及动作的聚类。在此基础上我们可以给出相应实体和动作的的频率组成的时间序列,这些时间序列构成我们未来数据服务和专家系统的基础。
[0020] 对于不停转载的消息,我们首先可以把消息转载的次数组织成时间序列;其次,我们将不停转载这个消息的用户构成的带有时序的子图存储起来,便于未来分析互联网中兴趣的迁移和演化。
[0021] 情感分析用来识别语言中的带有情感的词汇,我们可以把这个模块输出的结果和其他模块组合起来,实现具有聚集意义的情感分析。
[0022] 社区聚类分析提供用户聚类。聚类可根据不同的语义和语境,也可以根据用户之间的好友连接和转载连接进行分析。不同的聚类给予人们对数据认识的不同侧面。我们的聚类模块将很容组装和拆卸。
[0023] 我们不仅提供上述数据抓取、分析的技术,而且会基于这些分析出来的数据提供一些服务。我们的系统中的数据服务和专家系统为用户提供了更为专业的知识和信息推送。我们在此详细介绍这部分的具体功能。
[0024] 数据服务包括以下几个方面的内容。
[0025] 市场情绪指数:我们通过对每天所有跟社会经济活动相关的微博进行情感分析,得到一个市场情绪指数,并每天进行公布,以提高影响
[0026] 关键事件检测:对微博中关键事件,尤其是突发事件进行检测,为用户第一时间提供预警和提醒。
[0027] 人物活跃度、关键人物挖掘:基于对话题和事件的挖掘对其中讨论中最活跃的人进行挖掘。通过发文统计,文章被转载和回复热度等频率的统计来给出热点人物的排名。
[0028] 用户信息统计和预测:年龄、性别、兴趣、位置:对于在话题中出现的所有人进行不同侧面属性的统计。有些信息我们可以通过开放平台中的接口获得,有些属性我们可以通过每个用户的发文内容进行挖掘和预测。
[0029] 时间序列相关性分析:对于话题、实体、动作和消息,以及他们相应的情感指数,我们都可以建立一个时间序列。这些时间序列和重要的经济指标、股票及其指数之间可以挖掘出一些相关性。我们提供用户指数或者某只股票最相关的文本时间序列以供分析。
[0030] 网络演化分析:对于不同话题,我们给出不同的网络演化分析,例如网络大小,结构的统计特性等等。这些网络演化结果也可以用来帮助用户对互联网的社会经济行为分析时有效获取到有用的信息。
[0031] 专家系统是集合了我们所有分析技术给出的一系列建议和解决方案。在此,我们给出三个具体的例子。
[0032] 股市多空判断:我们通过对历史数据的统计,可以得到那些关键的实体、行动、消息以及他们相关的情感会和股市的运动产生相关性。比如,股票指数本身代表了市场的情绪,微博上人们发文的情绪在某种意义上也反映了大众对市场的态度。因此如果很多人在微博上看多大市,那么股市有多大的概率上涨可以通过历史数据计算出来,进而可以给用户一些投资建议。
[0033] 盘后实事自动分析:对于当天收盘以后的结果进行分析,通过挖掘历史数据,找到有可能影响当天走势的关键事件。例如“苹果换CEO”以及人们对新CEO的评价;又如“日本发生海啸”以及相应的情感指数等等,都可以作为总结当天走势的事件供用户分析。
[0034] 网络热议分析:对于网络热议的话题进行分析和预测。例如双方争论某个热点问题,进而判断双方的情感指数、哪方会赢的预测等等。例如:对“小米手机发布”事件进行分析,预测双方论点以及小米手机是否会成功。
[0035] 专家系统是集合了我们所有分析技术给出的一系列建议和解决方案。在此,我们给出三个具体的例子。
[0036] 股市多空判断:我们通过对历史数据的统计,可以得到那些关键的实体、行动、消息以及他们相关的情感会和股市的运动产生相关性。比如,股票指数本身代表了市场的情绪,微博上人们发文的情绪在某种意义上也反映了大众对市场的态度。因此如果很多人在微博上看多大市,那么股市有多大的概率上涨可以通过历史数据计算出来,进而可以给用户一些投资建议。
[0037] 盘后实事自动分析:对于当天收盘以后的结果进行分析,通过挖掘历史数据,找到有可能影响当天走势的关键事件。例如“苹果换CEO”以及人们对新CEO的评价;又如“日本发生海啸”以及相应的情感指数等等,都可以作为总结当天走势的事件供用户分析。
[0038] 网络热议分析:对于网络热议的话题进行分析和预测。例如双方争论某个热点问题,进而判断双方的情感指数、哪方会赢的预测等等。例如:对“小米手机发布”事件进行分析,预测双方论点以及小米手机是否会成功。
[0039] 有益效果:本发明所述的一种基于社交媒体的经济金融行为分析系统模型能够有效、准确地收集到用户信息,从而对用户数据进行较为完整的归档、整理,建立用户信息库,根据用户的信息库给用户提供用户关注的消息推送。

具体实施方式

[0040] 为了加深对本发明的理解,下面将结合实施例对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
[0041] 本发明所述的基于社交媒体的经济金融行为分析系统模型,系统主要由三大类模块组成:爬虫(Crawler)、数据库及索引(Database/Indexer)、分析器(Analyzer)。
[0042] 爬虫主要负责数据采集。数据源分为两部分。第一部分为经济指标和时间序列。经济指标包括国家、地方和公司的财务数据。国家每月每季度都会公布关键经济数据,这些经济数据可以用来配合人们的评论在分析社会经济行为。相关时间序列包括市场主要股票、商品、债券、汇率等金融指数,具体公司的股价等。国外主要数据源为彭博社(Bloomberg)、道琼斯(Dow Jones)和汤森路透(Thomson Reuters)等公司;国内包括新浪财经、大智慧和同花顺等。
[0043] 第二部分为微博数据。微博提供API方便用户进行定向抓取。为此,我们需要保持一个定向抓取列表,包括关键的用户(及其好友),主要的上市公司,相关产品,以及经济活动相关的关键词等等。对于微博,还有一类重要的信息,就是用户、标签(hashtag)和转载之间的链接信息。因此,对于抓取下来的数据,相关的链接和转载也要包括进来。
[0044] 数据库分为两部分,结构化数据和非结构化数据。结构化数据包括重要经济指标、时间序列、财务报表等。这些数据使用MySQL存储。非结构化数据包括微博文本、以及标注的话题、实体等等。这部分信息可以通过Lucene配合MySQL来实现索引。Lucene擅长对文本简历倒排表索引,可以让我们很容易的检索到那个微博发表了对某个关键词的信息和评论。MySQL用来对标注的话题、实体、行动和消息进行检索。因此我们可以对具有相同ID的微博检测各种域的信息:
[0045] 话题:话题使用标号来建立索引。对于整体微博数据,我们给出固定的若干大类信息。对于每条微博数据,我们标注其类别信息。另外,微博可以属于多类,因此对于话题域,我们需要建立一对多的映射。
[0046] 实体:实体包括人名、地名、机构名等以及一些常用语中的固定名词短语。对于实体,我们需要标注实体的类别和实体名称,并记录用户ID和微博ID。
[0047] 行动:对于行动,我们需要标注三元组信息,即<主体,动作,目标>,并记录用户ID和微博ID。
[0048] 消息:如果是转载的讯息,我们需要存储其被转载的用户ID,微博ID等。
[0049] 根据以上信息,在建立索引时,我们对每个用户和每条微博设定一个全局ID,以此来对不同数据库中的信息进行对齐和检索。
[0050] 分析器是系统的核心,包括6个子模块,分别是:话题分析、实体识别、动作识别、消息跟踪、情感分析和社区聚类分析。
[0051] 话题分析是上层较为粗糙的语义分析。话题是多角度多层次的多标签的分类问题。我们可以将微博数据分类成经济、政治、体育、娱乐、教育等;也可以将新闻消息分为国内或国外新闻。据此可以将与经济社会活动相关的微博筛选出来。我们可以将经济类微博数据进一步分类成宏观经济分析评论、股票分析、公司评论等等。另外,我们还可以对某一个特定的话题进行划分,例如找出三聚氰胺事件、日本海啸事件相关的微博等等。
[0052] 实体分析和行动分析是较为细的一种语义分析。我们对每条微博进行实体和语义分析,检测实体的同义词以及动作的聚类。在此基础上我们可以给出相应实体和动作的的频率组成的时间序列,这些时间序列构成我们未来数据服务和专家系统的基础。
[0053] 对于不停转载的消息,我们首先可以把消息转载的次数组织成时间序列;其次,我们将不停转载这个消息的用户构成的带有时序的子图存储起来,便于未来分析互联网中兴趣的迁移和演化。
[0054] 情感分析用来识别语言中的带有情感的词汇,我们可以把这个模块输出的结果和其他模块组合起来,实现具有聚集意义的情感分析。
[0055] 社区聚类分析提供用户聚类。聚类可根据不同的语义和语境,也可以根据用户之间的好友连接和转载连接进行分析。不同的聚类给予人们对数据认识的不同侧面。我们的聚类模块将很容组装和拆卸。
[0056] 我们不仅提供上述数据抓取、分析的技术,而且会基于这些分析出来的数据提供一些服务。我们的系统中的数据服务和专家系统为用户提供了更为专业的知识和信息推送。我们在此详细介绍这部分的具体功能。
[0057] 数据服务包括以下几个方面的内容。
[0058] 市场情绪指数:我们通过对每天所有跟社会经济活动相关的微博进行情感分析,得到一个市场情绪指数,并每天进行公布,以提高影响力。
[0059] 关键事件检测:对微博中关键事件,尤其是突发事件进行检测,为用户第一时间提供预警和提醒。
[0060] 人物活跃度、关键人物挖掘:基于对话题和事件的挖掘对其中讨论中最活跃的人进行挖掘。通过发文统计,文章被转载和回复热度等频率的统计来给出热点人物的排名。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈