首页 / 专利库 / 地基 / 基础 / 一种高校网络舆情风险评估方法

一种高校网络舆情险评估方法

阅读:55发布:2021-09-19

专利汇可以提供一种高校网络舆情险评估方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种高校网络舆情 风 险评估方法,在专业的 网站 流量分析工具对高校网站进行实时监测 基础 之上,有针对性地基于主题网络在线爬虫技术,收集舆情多媒体信息和关键字外,还有高校实地调研的舆情数据,构建高校网络舆情风险评估知识图谱。本发明的知识图谱采用自底向上方案构建,每个知识单元的真实数据存放于数据层,再通过三元组存放于图 数据库 中;在数据层之上是模式层,通过本体库的途径进而实现对知识图谱的管理;从开放链接数据中提取出实体,选择其中 置信度 较高的加入到 知识库 ,再构建顶层的本 体模 式。本发明不涉及科技行业媒体数据,也不对微博文本进行处理。本发明通过从高校网络、高校实地调研获取实体数据。,下面是一种高校网络舆情险评估方法专利的具体信息内容。

1.一种高校网络舆情险评估方法,其特征在于:其包括以下步骤:
步骤1,利用主题网络在线爬虫技术收集高校网站的目标舆情关键字信息,同时爬取媒体信息共同形成网络舆情信息;
步骤2,将网络舆情信息中的非文本信息转化或提取为文本信息;
步骤3,对收集的非结构化和半结构化的数据进行知识抽取得到知识图谱所需结构化数据信息,并存储到知识图谱的数据层;
步骤4,将结构化的数据与第三方数据库进行数据整合,并将经过知识抽取得到的数据进行实体对齐后,再运用质量评估以及本体抽取完成知识融合;
步骤5,分析知识融合后数据的逻辑关系形成知识图谱的本体模型,
步骤6,判断该本体模型符合实际逻辑是否符合实际逻辑;是则,用于构建知识图谱;否则,返回步骤4重新进行知识融合;
步骤7,利用可视化的工具对己有的挖掘结果进行优化生成数据综合立方体,并创建各种文档的多维视图以揭示各种空间映射关系,形成网络舆情监控分析报告;
步骤8,根据网络舆情监控分析报告向决策者实时推送排序前列的舆情。
2. 根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤1中用Python Spider爬取媒体信息,且重点收集短视频。
3.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤1中收集高校网站的目标舆情关键字信息具体步骤为:
步骤1-1,利用主题网络在线爬虫技术收集指定目标主题关键字并表示为指定目标主题关键字的向量;
步骤1-2,依据内容与主题关键字的相关度计算出相应网页内容与目标主题关键字的相互关联程度,
步骤1-3,结合超链接分析网页的相关度评价,下载程序代码将根据相关度评价结果与设置的阈值的比较结果选择下载收集对应网页的超链接。
4.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤2中将声音和视频转化为文本,并获取表情包的文本标签以用于构建舆情风险知识图谱。
5.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤3的具体包括以下步骤:
步骤3-1,将文本信息进行规范化的预热处理,通过格式化将获取的HTML文档进行结构和语义上的重新处理;
步骤3-2,运用自然语言处理技术对已经形成的半结构数据进行特征提取确认文本实体之间的关系类别并形成结构化的数据。
6.根据权利要求5所述的一种高校网络舆情风险评估方法,其特征在于:步骤3-2中关系类别包括同义关系、反义关系、主从关系。
7.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤3中知识抽取包括实体抽取、关系抽取和事件抽取。
8.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤3中知识抽取采用隐尔可夫模型进行实体抽取,在实体识别的基础上确定无结构舆情文本中实体之间的关系类别并形成结构化的数据以便存储和取用。
9.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤3中知识提取时针对数据量庞大的网络文本,在必要的时候进行降维处理,保留权值高的词条并排除有倾向性的感情敏感字眼。
10.根据权利要求1所述的一种高校网络舆情风险评估方法,其特征在于:步骤7中利用CiteSpace文本可视化分析软件,或通过百分点DeepFinder系统平台,绘制高校网络舆情风险评估知识图谱。

说明书全文

一种高校网络舆情险评估方法

技术领域

[0001] 本发明涉及数据处理技术,尤其涉及一种高校网络舆情风险评估方法。

背景技术

[0002] 几乎所有高校的师生都已成为互联网群体的一份子。网络承载着众多人的思想碰撞、情感交流、信息互换和压宣泄,这样的复杂性容易导致高校网络舆情充满正反两面的不同冲击。正面网络舆论可以鼓舞师生奋发向上,扩大高校的影响力,提升高校形象,负面的标签化传播容易影响人们的态度、观点或行为,煽动人们负面情绪,给舆情处置和弥合撕裂造成难度,甚至产生舆情危机,威胁到社会的安定团结。
[0003] 近年来,国内已经有许多学者开始研究网络舆情指标体系,并希望通过该体系的建立对舆情进行监测、评估或者预警。2016年宋余超等根据数据立方体和花型模式,从舆情主题、舆情传播和舆情受众3个维度构建监测指标体系;2017年王静茹等通过相关性分析和主成分分析相结合的方法对指标进行筛选并基于BP神经网络设定各级指标权重来建立危机监测指标体系;2018年覃玉等提出运用层次分析方法构建网络舆情评估指标体系。
[0004] 发明专利申请201910277297  .9,公布了一种企业网络舆情潜在风险的评估方法及系统,该方法包括基于企业的网络正面评价得到正面网络舆情值,基于企业的网络负面评价得到负面网络舆情值;基于正面网络舆情值和负面网络舆情值预测企业的网络声誉破产违约距离,并基于网络声誉破产违约距离得到企业的网络声誉破产概率,根据网络声誉破产概率得到企业网络声誉潜在风险值。
[0005] 发明专利申请201711241476.4,公布了一种网络舆情风险评估方法及装置,该方法包括:根据网络资源库中的网络资源进行数据采集,得到网络舆情数据;提取所述网络舆情数据的要素信息,根据要素信息对所述网络舆情进行数据分析,得到分析结果;根据所述分析结果和关键词字典中的关键词,对所述网络舆情数据进行风险评估。它是根据网络资源库中的网络资源的属性调用对应的网络爬虫进行周期性数据采集,并对采集的数据进行去重和归一化处理,得到网络舆情数据。
[0006] 发明专利申请201710169810.3,公布了一种知识图谱构建方法及装置,它是针对科技行业的媒体数据构建知识图谱。媒体数据存在大量的实体和关系,为了有效挖掘科技创新项目潜在价值、预警潜在投资风险,帮助一级市场金融投资行业的各项业务提升效率而构建知识图谱。知识图谱的构建方法是,基于科技行业媒体原始数据的舆情判断节点的价值,有效识别出最有价值的节点。没有采用人工干预的方式。
[0007] 发明专利申请201710827984.4,公布了一种基于热点事件的舆情知识图谱构建方法,它是针对微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性:识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。
[0008] 在互联网舆论生态、媒体格局、传播方式都发生深刻变化的今天,以往的舆情风险评估指标已不合适,现有的网络舆情评估系统还没有发现从构建原则、安全网络产品硬件设备和软件算法模型等多方面构建的,也没有发现针对高校的网络舆情风险评估系统。

发明内容

[0009] 本发明的目的在于提供一种高校网络舆情风险评估方法。
[0010] 本发明采用的技术方案是:一种高校网络舆情风险评估方法,其包括以下步骤:
步骤1,利用主题网络在线爬虫技术收集高校网站的目标舆情关键字信息,同时爬取媒体信息共同形成网络舆情信息;
步骤2,将网络舆情信息中的非文本信息转化或提取为文本信息;
步骤3,对收集的非结构化和半结构化的数据进行知识抽取得到知识图谱所需结构化数据信息,并存储到知识图谱的数据层;
步骤4,将结构化的数据与第三方数据库进行数据整合,并将经过知识抽取得到的数据进行实体对齐后,再运用质量评估以及本体抽取完成知识融合;
步骤5,分析知识融合后数据的逻辑关系形成知识图谱的本体模型;
步骤6,判断该本体模型符合实际逻辑是否符合实际逻辑;是则,用于构建知识图谱;否则,返回步骤4重新进行知识融合;
步骤7,利用可视化的工具对己有的挖掘结果进行优化生成数据综合立方体,并创建各种文档的多维视图以揭示各种空间映射关系,从而能够在确保可信度和有效性的前提下完成网络舆情监控分析报告;
步骤8,将网络舆情按态势由高至低排序后向决策者实时推送排序前列的舆情。
[0011] 进一步地,步骤1中用Python Spider爬取媒体信息,且重点收集短视频。
[0012] 进一步地,步骤1中收集高校网站的目标舆情关键字信息具体步骤为:步骤1-1,利用主题网络在线爬虫技术收集指定目标主题关键字并表示为指定目标主题关键字的向量;
步骤1-2,依据内容与主题关键字的相关度计算出相应网页内容与目标主题关键字的相互关联程度,
步骤1-3,结合超链接分析网页的相关度评价,下载程序代码将根据相关度评价结果与设置的阈值的比较结果选择下载收集对应网页的超链接。
[0013] 可见,在实际应用中采用这技术进行采集时并不需要程序采集全部的网页,因此,对比普通网络在线爬虫,该技术所需要保存的网页页面相对较少,能够节约很多相关的运行设备或网络存储资源,同时,可以有效满足使用者对查找指定关键字这一主题的相关需求。
[0014] 进一步地,步骤2中将声音和视频转化为文本,并获取表情包的文本标签,用于构建舆情风险知识图谱。
[0015] 进一步地,步骤3中知识抽取采用隐尔可夫模型进行实体抽取,在实体识别的基础上确定无结构舆情文本中实体之间的关系类别并形成结构化的数据,以便存储和取用。实体抽取的质量决定了高校网络舆情风险知识图谱的深度与广度。
[0016] 进一步地,步骤3中知识抽取包括实体抽取、关系抽取和事件抽取。
[0017] 进一步地,步骤3中知识提取时针对数据量庞大的网络文本,在必要的时候进行降维处理,保留权值高的词条,并排除有倾向性的感情敏感字眼。
[0018] 进一步地,步骤3的具体包括以下步骤:步骤3-1,将文本信息进行规范化的预热处理,通过格式化将获取的HTML文档进行结构和语义上的重新处理;
步骤3-2,运用自然语言处理技术对已经形成的半结构数据进行特征提取确认文本实体之间的关系类别并形成结构化的数据。
[0019] 进一步地,步骤3-2中关系类别包括同义关系、反义关系、主从关系。
[0020] 进一步地,步骤7中利用CiteSpace文本可视化分析软件,或通过百分点DeepFinder系统平台,绘制高校网络舆情风险评估知识图谱。
[0021] 本发明采用以上技术方案,本发明充分利用现有软件自动获取一段时间的网络热点新闻和突发事件,并形成关键词予以反馈;通过从互联网与高校实地调研获取实体数据实现统一聚合,形成舆情风险评估知识图谱逻辑架构。利用现有软件自动获取一段时间的网络热点新闻和突发事件。本发明除了在专业的网站流量分析工具对高校网站进行实时监测基础之上,有针对性地基于主题网络在线爬虫技术,收集舆情多媒体信息和关键字外,还有高校实地调研的舆情数据,构建高校网络舆情风险评估知识图谱。本发明的知识图谱采用自底向上方案构建,每个知识单元的真实数据存放于数据层,再通过三元组存放于图数据库中;在数据层之上是模式层,通过本体库的途径进而实现对知识图谱的管理;从开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。本发明不涉及科技行业媒体数据,也不对微博文本进行处理。本发明通过从高校网络、高校实地调研获取实体数据。附图说明
[0022] 以下结合附图和具体实施方式对本发明做进一步详细说明;图1为本发明一种高校网络舆情风险评估方法的流程示意图。

具体实施方式

[0023] 如图1所示,本发明公开了一种高校网络舆情风险评估方法,其包括以下步骤:步骤1,利用主题网络在线爬虫技术收集高校网站的目标舆情关键字信息,同时爬取媒体信息共同形成网络舆情信息;
具体地,步骤1中收集高校网站的目标舆情关键字信息具体步骤为:
步骤1-1,利用主题网络在线爬虫技术收集指定目标主题关键字并表示为指定目标主题关键字的向量;
步骤1-2,依据内容与主题关键字的相关度计算出相应网页内容与目标主题关键字的相互关联程度;
步骤1-3,结合超链接分析网页的相关度评价,下载程序代码将根据相关度评价结果与设置的阈值的比较结果选择下载收集对应网页的超链接。
[0024] 步骤2,将网络舆情信息中的非文本信息转化或提取为文本信息;具体地,将声音和视频转化为文本,并获取表情包的文本标签,用于构建舆情风险知识图谱;步骤3,对收集的非结构化和半结构化的数据进行知识抽取得到知识图谱所需结构化数据信息,并存储到知识图谱的数据层。
[0025] 进一步地,步骤3中知识抽取采用隐马尔可夫模型进行实体抽取,在实体识别的基础上确定无结构舆情文本中实体之间的关系类别并形成结构化的数据,以便存储和取用。
[0026] 进一步地,步骤3中知识抽取包括实体抽取、关系抽取和事件抽取。实体抽取的质量决定了高校网络舆情风险知识图谱的深度与广度。
[0027] 进一步地,步骤3中知识提取时针对数据量庞大的网络文本,在必要的时候进行降维处理,保留权值高的词条,并排除有倾向性的感情敏感字眼。
[0028] 进一步地,步骤3的具体包括以下步骤:步骤3-1,将文本信息进行规范化的预热处理,通过格式化将获取的HTML文档进行结构和语义上的重新处理;
步骤3-2,运用自然语言处理技术对已经形成的半结构数据进行特征提取确认文本实体之间的关系类别并形成结构化的数据。关系类别包括同义关系、反义关系、主从关系。
[0029] 步骤4,将结构化的数据与第三方数据库进行数据整合,并将经过知识抽取得到的数据进行实体对齐后,再运用质量评估以及本体抽取完成知识融合;步骤5,分析知识融合后数据的逻辑关系形成知识图谱的本体模型;
步骤6,判断该本体模型符合实际逻辑是否符合实际逻辑;是则,用于构建知识图谱;否则,返回步骤4重新进行知识融合;
步骤7,利用可视化的工具对己有的挖掘结果进行优化生成数据综合立方体,并创建各种文档的多维视图以揭示各种空间映射关系,从而能够在确保可信度和有效性的前提下完成网络舆情监控分析报告;具体地作为较优实施方式,步骤7中利用CiteSpace文本可视化分析软件,或通过百分点DeepFinder系统平台,绘制高校网络舆情风险评估知识图谱;
步骤8,将网络舆情按态势由高至低排序后向决策者实时推送排序前列的舆情。
[0030] 下面就本发明的具体原理做详细说明:学校通过信息安全评估标准验证服务器、路由器、防火墙、个人电脑、手机等网络产品是直接面向高校各部和个体用户的基础资源的信息安全质量,在一定程度上发现产品的潜在风险,防止有安全威胁的设备投入使用;同时通过校园网认证上网的网络产品可以长期、有效地对其安全质量进行监测、跟踪。能快速定位风险漏洞,及时发现风险热点话题,为学校监管部门的决策行动提供情报支持。
[0031] 本发明利用专业的网站流量分析工具对高校网站进行实时监测,有针对性地收集网络舆情信息。实时监测高校在线社交网络平台的热点事件、热门话题等重点关注信息,提高舆情早发现的实时性和全面性。本发明具体而言包括如下部分:1、网络舆情信息的提取收集:
利用主题网络在线爬虫技术,收集舆情关键字信息,利用Python Spider爬取媒体信息,重点收集短视频;
利用主题网络在线爬虫技术收集指定目标主题关键字,针对指定的目标主题关键字(或者是关键字列表)完成向量表示,并依据内容与主题关键字的相关度有效计算出相应网页内容与主题的相互关联程度,同时根据设置的阈值结合超链接分析来完成对网页的相关度评价,下载程序代码将根据这一评价结果,决定选择下载哪个队列里的超链接。在实际应用中采用这技术进行采集时并不需要程序采集全部的网页,因此,对比普通网络在线爬虫,该技术所需要保存的网页页面相对较少,能够节约很多相关的运行设备或网络存储资源,同时,可以有效满足使用者对查找指定关键字这一主题的相关需求;
当前高校学生热衷上传短视频传播热点社会事件。一个带摄像头的手机可以让普通人成为视频的发布者和议题的发起者,完成媒体记者出镜、采访、剪辑、发布等复杂的新闻采集任务。由于短视频比文字、图片更具真实感,增强了观众的信任感和参与感,已成为触发舆论关注的重要载体,成为移动互联网时代更为便捷的内容形式及舆情信息传播的新路径。
[0032] 2、网络舆情风险评估知识图谱构建与分析:知识图谱的每个知识单元的真实数据存放于数据层,再通过三元组,存放于图数据库中;在数据层之上是模式层,通过本体库的途径进而实现对知识图谱的管理。
[0033] 本发明针对收集的文本、表情包、声音和视频进行分析挖掘。可将声音和视频转化为文本,并获取表情包的文本标签,构建舆情风险知识图谱,进行舆情信息挖掘。
[0034] 本发明充分利用现有软件自动获取一段时间的网络热点新闻和突发事件,并形成关键词予以反馈。通过从互联网与高校实地调研获取实体数据,实现统一聚合,形成舆情风险评估知识图谱逻辑架构。
[0035] 本发明采用自底向上方案构建高校网络舆情风险评估知识图谱,从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
[0036] 具体地,构建知识图谱包括如下几个方面.2-1、知识抽取:从非结构化和半结构化的数据中抽取知识图谱所需结构化数据信息,并将这些数据信息存储到知识图谱的数据层之中;
文本信息首先进行规范化的预热处理,通过格式化将获取的HTML文档进行结构和语义上的重新处理。然后运用自然语言处理技术等方法对已经形成的半结构数据进行特征提取,发现其中的同义关系等。网络文本的数据量庞大,在必要的时候可以进行降维处理,只保留权值较高的词条。而对于还有倾向性明显的感情敏感字眼,应予以排除;
知识抽取包括实体抽取、关系抽取和事件抽取。我们采用隐马尔可夫模型进行实体抽取,在实体识别的基础上确定无结构舆情文本中实体之间的关系类别,并形成结构化的数据,以便存储和取用。实体抽取的质量决定了高校网络舆情风险知识图谱的深度与广度。
[0037] 2-2、知识融合:通过第三方数据库和结构化的数据进行数据整合,并将经过知识抽取而得到的数据进行实体对齐,之后运用质量评估和本体抽取,完成知识融合工作;2-3、知识图谱构建:通过知识融合处理得到的数据,分析其中的逻辑关系,形成知识图谱的本体模型,然后对其进行判定,将其中符合实际逻辑的情况用于构建知识图谱,反之则返回知识推理,重新进行知识融合;
2-4、分析阶段:利用CiteSpace文本可视化分析软件,或通过百分点DeepFinder系统平台,绘制高校网络舆情风险评估知识图谱,利用可视化的工作对己有的挖掘结果进行优化,生成数据综合立方体,创建各种文档的多维视图,全面揭示各种空间映射关系,从而能够在确保可信度和有效性的前提下完成网络舆情监控分析报告。对互联网信息进行多维统计分析,计算高校各院系机构的情绪、热词等舆情指数,为舆情研判提供支持。通过分析舆情事件的言论观点、发展趋势、传播源头、传播路径、校内院系机构分布等,便于掌握事件的发展历程、关键节点和传播影响,做出针对性响应措施。
[0038] 本发明的方法便于学校及时预警与便捷响应:高校网络舆情风险评估方法用词图、地图、热力图、仪表盘、雷达图和动态曲线等方式展现舆情态势实时变化,帮助决策者快速把握舆情态势。进一步,本发明的方法可及时将关注的信息通过桌面提醒、QQ、微信、邮件或短信等方式通知用户,保障线上、线下预警方式的有效性。
[0039] 本发明的方法实时推送高校各院系机构的热门事件、重点博主动态、最新敏感舆情,确保决策者及时掌握重点舆情;实时播报高校各院系机构的突发事件,通过弹窗预警,让决策者及时了解、快速决策,防止舆情事态蔓延扩大。此外,本发明的方法允许通过授权,进行快捷互动,以便于网络舆情的事实澄清或诉求回应。
[0040] 本发明采用以上技术方案,充分利用现有软件自动获取一段时间的网络热点新闻和突发事件,并形成关键词予以反馈;通过从互联网与高校实地调研获取实体数据实现统一聚合,形成舆情风险评估知识图谱逻辑架构。利用现有软件自动获取一段时间的网络热点新闻和突发事件。本发明除了在专业的网站流量分析工具对高校网站进行实时监测基础之上,有针对性地基于主题网络在线爬虫技术,收集舆情多媒体信息和关键字外,还有高校实地调研的舆情数据,构建高校网络舆情风险评估知识图谱。本发明的知识图谱采用自底向上方案构建,每个知识单元的真实数据存放于数据层,再通过三元组存放于图数据库中;在数据层之上是模式层,通过本体库的途径进而实现对知识图谱的管理;从开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。本发明不涉及科技行业媒体数据,也不对微博文本进行处理。本发明通过从高校网络、高校实地调研获取实体数据。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈