首页 / 专利库 / 自然灾害的预防与保护 / 震中 / 一种基于社交媒体的地震灾害影响范围的探测方法

一种基于社交媒体的地震灾害影响范围的探测方法

阅读:817发布:2020-05-15

专利汇可以提供一种基于社交媒体的地震灾害影响范围的探测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于社交媒体的 地震 灾害影响范围的探测方法,首先,根据设置的 信噪比 确定时间周期,从采集的面向地震灾害的社交媒体数据中提取出社交媒体传感 信号 数据,然后,根据提取出的社交媒体传感信号数据,结合人口数据进行空间统计,构建数据空间逻辑增长模型;最后,利用所述数据空间逻辑增长模型对地震灾害影响范围进行探测。本发明提出的社交媒体传感信号空间分布增长模型,可以揭示数据空间分布与受灾区域的映射机理,解决了受灾范围估计受制于社交媒体数据量依赖和响应时间长的问题,从而实现快速、定量、探测受灾区域。为管理者了解受灾区域提供指导,有助于灾害应急决策。,下面是一种基于社交媒体的地震灾害影响范围的探测方法专利的具体信息内容。

1.一种基于社交媒体的地震灾害影响范围的探测方法,其特征在于,包括:
步骤S1:根据设置的信噪比确定时间周期,从采集的面向地震灾害的社交媒体数据中提取出社交媒体传感信号数据,其中,信噪比为一个时间周期内受事件影响区域的推文数量与该时间周期内推文总数的比值;
步骤S2:根据提取出的社交媒体传感信号数据,结合人口数据进行空间统计,构建数据空间逻辑增长模型;
步骤S3:利用所述数据空间逻辑增长模型对地震灾害影响范围进行探测。
2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
步骤S1.1:采集面向地震灾害的社交媒体数据;
步骤S1.2:将采集的社交媒体数据进行格式转换,转化为内部预设的格式;
步骤S1.3:基于关键字对格式转换后的社交媒体数据进行过滤;
步骤S1.4:对过滤后的社交媒体数据进行预处理;
步骤S1.5:训练机器学习分类器,对进行预处理后的社交媒体数据进行实时分类,提取出与地震相关数据;
步骤S1.6:根据信噪比确定时间周期,从步骤S1.5中获取的与地震相关数据中筛选出对应时间周期的社交媒体传感信号数据。
3.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:确定空间统计距离间隔,计算距离地震中心c不同距离间隔的环形缓冲区中社交媒体传感信号数量和人口数量;
步骤S2.2:利用计算出的距离地震中心c不同距离间隔的环形缓冲区中人口数量对社交媒体信号数据进行标准化,获得单位人口发布传感信号数量;
步骤S2.3:统计距离地震中心距离r范围内的标准化后单位人口发布传感信号数据的数量MPr与r之间的数值关系,采用经典的逻辑增长函数的结构模拟S型公民传感器数据增长曲线,构建空间逻辑增长模型SLGM,其中SLGM定义如下:
其中,MP(r)表示距离地震中心r范围内人口标准化社交媒体传感信号累积数量,rm为地震影响区域的距离指标,K为标准化后数量和,l0为最大空间增长率,e为自然常数。
4.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
利用最大似然估计法估计空间逻辑增长模型的参数,求解获得rm为地震灾害影响范围。
5.如权利要求2所述的方法,其特征在于,步骤S1.4具体包括:
对过滤后的社交媒体数据进行分词,并删除其中包含的URL,数字和停用词。
6.如权利要求3所述的方法,其特征在于,步骤S2.1具体包括:
步骤S2.1.1:以震中为中心,生成距离震中不同距离间隔的缓冲区,其中,缓冲区每个距离间隔为1km;
步骤S2.1.2:对相邻缓冲区进行擦除分析,得到环状缓冲区,统计环状缓冲区内的人口数量和社交媒体传感信号数量。

说明书全文

一种基于社交媒体的地震灾害影响范围的探测方法

技术领域

[0001] 本发明涉及社交媒体文本挖掘技术领域,具体涉及一种基于社交媒体的地震灾害影响范围的探测方法。

背景技术

[0002] 逻辑增长模型(Logistic)通常呈现S型曲线,在统计和建模方面有着悠久的历史。是一种最初用来描述生物种群在有限环境条件下连续增长的种群大小与时间关系的最简单的形式。该模型开始主要用于研究物种繁衍,随着调查研究各行业的样本,发现不仅生物种群增长速度存在由慢到快,在快到慢的规律,经济、商业、科技领域等很多事物也符合生物成长过程中的S曲线规律。Logistic模型被广泛的运用到各个研究中。
[0003] 社交媒体数据除了包含图片或视频、文本等形式的数据,还含有位置信息。地震发生后,部分民众和媒体作为灾害事件的目击者和直接参与者,对事件的把握比较准确,实时发布的社交媒体数据能够被视为有灾情信息价值的传感值。灾民们实时发布的社交媒体数据是非常有效的判别标准,能够被看作传感信号,用于监测识别灾害的发生和影响范围。对于地震这种没有预兆性且具有爆发中心类型的灾害而言,距离灾害中心的远近会影响公民对灾害强度的感知及发布灾情信息的意愿,使得社交媒体传感信号在空间上的分布有规律呈现S型曲线规律。集合逻辑增长模型来研究传感信号抽取及数据的空间分布理论与模型能为利用社交媒体感知受灾区域提供理论支撑
[0004] 本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
[0005] 社交媒体蕴含知识通常为非直接化的,现有的方法受限于数据量依赖,难以快速定量探测地震受灾范围的缺陷

发明内容

[0006] 有鉴于此,本发明提供了一种基于社交媒体的地震灾害影响范围的探测方法,用以解决或者至少部分解决现有的方法受限于数据量依赖,难以快速定量探测地震受灾范围的缺陷的技术问题。
[0007] 为了解决上述技术问题,本发明提供了一种基于社交媒体的地震灾害影响范围的探测方法,包括:
[0008] 步骤S1:根据设置的信噪比确定时间周期,从采集的面向地震灾害的社交媒体数据中提取出社交媒体传感信号数据,其中,信噪比为一个时间周期内受事件影响区域的推文数量与该时间周期内推文总数的比值;
[0009] 步骤S2:根据提取出的社交媒体传感信号数据,结合人口数据进行空间统计,构建数据空间逻辑增长模型;
[0010] 步骤S3:利用所述数据空间逻辑增长模型对地震灾害影响范围进行探测。
[0011] 在一种实施方式中,步骤S1具体包括:
[0012] 步骤S1.1:采集面向地震灾害的社交媒体数据;
[0013] 步骤S1.2:将采集的社交媒体数据进行格式转换,转化为内部预设的格式;
[0014] 步骤S1.3:基于关键字对格式转换后的社交媒体数据进行过滤;
[0015] 步骤S1.4:对过滤后的社交媒体数据进行预处理;
[0016] 步骤S1.5:训练机器学习分类器,对进行预处理后的社交媒体数据进行实时分类,提取出与地震相关数据;
[0017] 步骤S1.6:根据信噪比确定时间周期,从步骤S1.5中获取的与地震相关数据中筛选出对应时间周期的社交媒体传感信号数据。
[0018] 在一种实施方式中,步骤S2具体包括:
[0019] 步骤S2.1:确定空间统计距离间隔,计算距离地震中心c不同距离间隔的环形缓冲区中社交媒体传感信号数量和人口数量;
[0020] 步骤S2.2:利用计算出的距离地震中心c不同距离间隔的环形缓冲区中人口数量对社交媒体信号数据进行标准化,获得单位人口发布传感信号数量;
[0021] 步骤S2.3:统计距离地震中心距离r范围内的标准化后单位人口发布传感信号数据的数量MPr与r之间的数值关系,采用经典的逻辑增长函数的结构模拟S型公民传感器数据增长曲线,构建空间逻辑增长模型SLGM,其中SLGM定义如下:
[0022]
[0023] 其中,MP(r)表示距离地震中心r范围内人口标准化社交媒体传感信号累积数量,rm为地震影响区域的距离指标,K为标准化后数量和,l0为最大空间增长率,e为自然常数。
[0024] 在一种实施方式中,步骤S3具体包括:
[0025] 利用最大似然估计法估计空间逻辑增长模型的参数,求解获得rm为地震灾害影响范围。
[0026] 在一种实施方式中,步骤S1.4具体包括:
[0027] 对过滤后的社交媒体数据进行分词,并删除其中包含的URL,数字和停用词。
[0028] 在一种实施方式中,步骤S2.1具体包括:
[0029] 步骤S2.1.1:以震中为中心,生成距离震中不同距离间隔的缓冲区,其中,缓冲区每个距离间隔为1km;
[0030] 步骤S2.1.2:对相邻缓冲区进行擦除分析,得到环状缓冲区,统计环状缓冲区内的人口数量和社交媒体传感信号数量。
[0031] 本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
[0032] 本发明提供的一种基于社交媒体的地震灾害影响范围的探测方法,首先,根据设置的信噪比确定时间周期,从采集的面向地震灾害的社交媒体数据中提取出社交媒体传感信号数据,然后,根据提取出的社交媒体传感信号数据,结合人口数据进行空间统计,构建数据空间逻辑增长模型;再利用构建的数据空间逻辑增长模型对地震灾害影响范围进行探测。
[0033] 由于本发明可以利用社交媒体数据的传感信号特征,结合地震发生后采集到的社交媒体传感信号数据和人口数据,快速统计数据的空间分布特征,构建空间分布增长模型,并揭示数据空间分布与受灾区域的映射机理,解决了传统利用社交媒体数据探测地震受灾范围的方法受制于社交媒体数据量依赖和响应时间长的问题,能够实现在短时间内不需要先验知识的条件下,快速估计地震影响区域,为应急决策提供参考,从而进一步的探测更加精细的受灾范围。本发明对于应急决策有一定的帮助。附图说明
[0034] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035] 图1为本发明一种基于社交媒体的地震灾害影响范围的探测方法的流程示意图;
[0036] 图2为本发明提供的地震灾害影响范围的探测方法的技术路线图;
[0037] 图3为第一种地震案例探测的结果示意图;
[0038] 图4为第二种地震案例探测的结果示意图;
[0039] 图5为第一种地震案例探测的结果与官方对比评估结果示意图;
[0040] 图6为第二种地震案例探测的结果与官方对比评估结果示意图。

具体实施方式

[0041] 本发明的目的在于针对现有技术未考虑社交媒体的传感特征,且受制于数据量依赖,难以快速定量探测地震受灾范围的缺陷,提出一种利用社交媒体快速探测地震影响范围的方法,从而达到快速探测地震影响范围的技术效果。
[0042] 为达到上述技术效果,本发明的主要构思如下:
[0043] 本发明提供的一种合理的利用社交媒体快速探测地震灾害影响范围的方法,包括针对地震发生后的社交媒体传感信号数据的空间分析,发现数据的空间增长趋势与生物种群逻辑增长趋势相似,一个社交媒体传感信号空间逻辑增长模型,用以描述数据的空间增长模式;其次,基于提出的模型,构建了一个利用社交媒体数据快速探测地震影响范围的一个框架,通过结合社交媒体数据和其它辅助数据来估计地震影响范围。本发明提出的社交媒体传感信号空间分布增长模型,可以揭示数据空间分布与受灾区域的映射机理,解决了受灾范围估计受制于社交媒体数据量依赖和响应时间长的问题,从而实现快速、定量、探测受灾区域。为管理者了解受灾区域提供指导,有助于灾害应急决策。
[0044] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0045] 实施例一
[0046] 本实施例提供了一种基于社交媒体的地震灾害影响范围的探测方法,请参见图1,该方法包括:
[0047] 步骤S1:根据设置的信噪比确定时间周期,从采集的面向地震灾害的社交媒体数据中提取出社交媒体传感信号数据,其中,信噪比为一个时间周期内受事件影响区域的推文数量与该时间周期内推文总数的比值。
[0048] 具体来说,本发明实施例可以以推特和新浪微博为数据来源,进行数据的采集。
[0049] 其中,步骤S1具体包括:
[0050] 步骤S1.1:采集面向地震灾害的社交媒体数据;
[0051] 步骤S1.2:将采集的社交媒体数据进行格式转换,转化为内部预设的格式;
[0052] 步骤S1.3:基于关键字对格式转换后的社交媒体数据进行过滤;
[0053] 步骤S1.4:对过滤后的社交媒体数据进行预处理;
[0054] 步骤S1.5:训练机器学习分类器,对进行预处理后的社交媒体数据进行实时分类,提取出与地震相关数据;
[0055] 步骤S1.6:根据信噪比确定时间周期,从步骤S1.5中获取的与地震相关数据中筛选出对应时间周期的社交媒体传感信号数据。
[0056] 具体来说,步骤S1.1可以通过给定纬度/经度的给定半径,采用社交媒体搜索应用程序接口(API)收集相应带地理坐标的社交媒体数据。
[0057] 步骤S1.2中,对每条采集到的社交媒体数据转换为预先设计的内部数据结构,包含用户标识ID号,时间戳t,地理位置(x,y)和文本消息text,形成匿名用户社交媒体数据IDn(t,x,y,text)。具有精确经纬度坐标的社交媒体数据由个人使用移动设备应用程序发布地理定位
[0058] 步骤S1.3可以采用关键字“earthquake”和“地震”对收集到的社交媒体数据进行过滤。
[0059] 步骤S1.4具体包括:
[0060] 对过滤后的社交媒体数据进行分词,并删除其中包含的URL,数字和停用词。
[0061] 通过对原始社交媒体文本进行预处理以减少统计噪声,进行分词,并删除其中包含的URL,数字和停用词。例如使用Natural Language Toolkit(NLTK;http://www.nltk.org/)提供的标准预定义列表删除停用词。
[0062] 步骤S1.5训练机器学习分类器,对采集的社交媒体数据进行实时分类,提取与地震相关数据。可以使用支持向量机(SVM)来构造分类器,使用LIBSVM作为机器学习算法。最终对于每一条采集的社交媒体数据进行分类:1与事件相关,0与事件不相关。分类算法SVM为现有技术,可参见相关文献:Zhang,D.,&Lee,W.S.2003.Question classification using support vector machines.In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval(pp.26-32).ACM。在此不再详述。
[0063] 步骤S1.6,针对地震灾害,在一个时间周期T内可以定义一个信噪比(SNRT),根据信噪比来确定数据采集的时间周期T。信噪比定义如下:
[0064]
[0065] 其中,高SNRT值能保证更有效的活动区域。
[0066] 事件理论影响区域需要进行预先判定。由于地震波是由震源向外传播,地震并非在同一时刻发生在所有受其影响的区域上,美国地质调查局提供了地震在理论上到达距离震中不同距离的地点的时间估计函数(角距离为球面中心角),如下所示:
[0067]
[0068] 其中 和 表示发推位置和震中的纬度,Δλ指其经度差。那么可以利用地震波在不同时间到达的位置来估计地震理论上影响的范围,从而来校正数据。对于不同的时间周期T而言,信噪比SNRT越高,获得的数据越能被视为传感信号。对于数据量而言,时间周期T越长,获得的数据量越大,更有利于实验探测。需要对不同的时间周期T的信噪比SNRT进行计算,根据结果选择合适事件的时间阈值,进行社交媒体传感信号提取。本发明根据历史数据计算得出信噪比在地震发生后10min后为最高的时候。
[0069] 步骤S2:根据提取出的社交媒体传感信号数据,结合人口数据进行空间统计,构建数据空间逻辑增长模型。
[0070] 请参见图2,为本发明提供的地震灾害影响范围的探测方法的技术路线图,主要包括传感信号抽取和空间分布规律建模两个过程。其中,传感信号抽取过程,以社交媒体数据作为输入,进行数据预处理,利用分类器和时间阈值得到传感信号。空间分布规律建模过程,结合人口数据和提取出的传感信号进行空间统计分析、对模型参数与受灾范围进行映射,从而构建空间增长逻辑模型,进而对空间增长逻辑模型进行参数估计,得到最终的探测结果。
[0071] 其中,步骤S2具体包括:
[0072] 步骤S2.1:确定空间统计距离间隔,计算距离地震中心c不同距离间隔的环形缓冲区中社交媒体传感信号数量和人口数量;
[0073] 步骤S2.2:利用计算出的距离地震中心c不同距离间隔的环形缓冲区中人口数量对社交媒体信号数据进行标准化,获得单位人口发布传感信号数量;
[0074] 步骤S2.3:统计距离地震中心距离r范围内的标准化后单位人口发布传感信号数据的数量MPr与r之间的数值关系,采用经典的逻辑增长函数的结构模拟S型公民传感器数据增长曲线,构建空间逻辑增长模型SLGM,其中SLGM定义如下:
[0075]
[0076] 其中,MP(r)表示距离地震中心r范围内人口标准化社交媒体传感信号累积数量,rm为地震影响区域的距离指标,K为标准化后数量和,l0为最大空间增长率,e为自然常数。
[0077] 具体来说,本发明通过大量的实践与研究,确定空间统计距离间隔为1km。然后,计算距离地震中心c不同距离间隔的环形缓冲区(c;ri,ri+1)中社交媒体传感信号数量和人口数量 且步骤1.6中时间周期T定为10min。
[0078] 其中,步骤S2.1具体包括:
[0079] 步骤S2.2.1:以震中为中心,生成距离震中不同距离间隔的缓冲区,其中,缓冲区每个距离间隔为1km;
[0080] 步骤S2.2.2:对相邻缓冲区进行擦除分析,得到环状缓冲区,统计环状缓冲区内的人口数量和社交媒体传感信号数量。
[0081] 步骤S2.2中,利用人口数量对社交媒体信号数据进行标准化。得到单位人口发布传感信号数量 其中,人口数据采用2012年美国LandScan提供的1km*1km的人口数据。LandScan全球人口动态统计分析数据库是全球最为准确、可靠、具有分布模型及最佳分辨率的全球人口动态统计分析数据,具体可以参见网址(http://web.ornl.gov/sci/landscan/)。
[0082] 步骤S2.3构建的空间逻辑增长模型SLGM中,在距离地震中心位置未到达rm时,数据空间增长率增加;在距离地震中心位置到达rm后,空间增长率开始下降,数据累积量MP不断增加,直到到达K。地震造成人员伤亡和财产损失的区域位于rm左侧,安全区域位于rm右侧。
[0083] 在构建空间逻辑增长模型SLGM,则执行步骤S3:利用所述数据空间逻辑增长模型对地震灾害影响范围进行探测。
[0084] 本发明关键的改进点是在于提出:
[0085] (1)采将基于时间的理论的分析方法引入到空间分析中,构建地震后公民传感器数据的空间逻辑增长模型,来丰富空间数据挖掘的能。使用经典的逻辑增长函数的简单结构来模拟S型公民传感器数据增长曲线。
[0086] (2)根据信噪比删选出地震发生后对应时间周期内的与地震相关的社交媒体数据为社交媒体传感信号数据,从而保证更有效的活动区域。
[0087] (3)空间统计距离间隔按照人口数据的分辨率,计算距离地震中心不同距离间隔的人口数据和社交媒体传感信号数据,为模型的构建提供基础
[0088] (4)以横轴为震中距,纵轴为累积标准化单位人口社交媒体传感信号数据绘制数据空间增长曲线。利用提出的空间逻辑增长模型进行拟合,并根据最大似然法求解参数,从而达到对地震影响范围的快速探测。
[0089] 具体地,步骤S3具体包括:
[0090] 利用最大似然估计法估计空间逻辑增长模型的参数,求解获得rm为地震灾害影响范围。
[0091] 具体来说,本发明还利用美国地质调查局USGS发布的shakeMap(http://earthquake.usgs.gov/shakemap)官方数据,构建了三个指标,对本发明提出的方法进行了验证。具体评估指标如下:
[0092] X,探测结果精确率
[0093]
[0094] Y,探测结果召回率
[0095]
[0096] Z-measure,探测结果与官方数据吻合程度
[0097]
[0098] 检测结果越准确,Z-measure值越接近1。
[0099] 其中,探测结果区域面积是指利用本发明的方法计算出的造成人员伤亡和财产损失的地震灾害影响范围。ShakeMap烈度≥V的区域,为官方探测到会造成人员伤亡和财产损失的范围。探测结果区域与ShakeMap烈度为利用本发明计算出的范围与官方范围的求交运算,得到的相交的区域面积除以本发明计算出的范围的面积,相当于一个探测结果的精确度(类似于文本分类的精确率和召回率)。
[0100] 本发明利用社交媒体数据的传感信号特征,基于逻辑增长模型,提出了一种地震发生后社交媒体社交媒体传感信号空间逻辑增长模型,并基于此模型构建了一种利用社交媒体快速探测地震影响范围的方案。以2014年尼泊尔地震和2017年九寨沟地震为例,使用的社交媒体数据分别为推特和微博,利用不同的地震以及不同的社交媒体来证明提出的方法的无偏性。
[0101] 请参见图3~图6,通过对两个地震案例进行研究,发现本发明提出的模型能够有效、定量地表达地震后社交媒体传感信号数据的空间增长过程,并有效快速估算出地震影响范围。图3和图4展示了两个地震案例探测的结果。图5和图6分别为与官方对比评估结果。对于尼泊尔地震,探测的Z-measure为71.74%。使用SLGM检测到的52.37%的区域对应ShakeMap中地震强度大于或等于V的区域(X=52.37%;91.11%的ShakeMap中地震强度大于或等于V的区域被SLGM检测到(Y=91.11%)。对于九寨沟地震,如图4所示,ShakeMap中地震强度大于或等于V的区域与SLGM检测到的区域十分吻合(X=98.81%,Y=87.36%,Z-measure=93.11%)。
[0102] 总体来说,本发明的技术方案与现有技术相比,具有如下优点和有益效果:
[0103] 本发明利用社交媒体数据的传感信号特征,结合地震发生后采集到的社交媒体传感信号数据和人口数据,快速统计数据的空间分布特征,构建空间分布增长模型,并揭示数据空间分布与受灾区域的映射机理,解决了传统利用社交媒体数据探测地震受灾范围的方法受制于社交媒体数据量依赖和响应时间长的问题,能够在短时间内不需要先验知识的条件下,快速估计地震影响区域,为应急决策提供参考,从而进一步的探测更加精细的受灾范围。本发明对于应急决策有一定的帮助。
[0104] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0105] 显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈