首页 / 专利库 / 人工智能 / 词性标注 / 一种基于强鲁棒性特征选择的社交媒体自残行为检测方法

一种基于强鲁棒性特征选择的社交媒体自残行为检测方法

阅读:855发布:2020-05-16

专利汇可以提供一种基于强鲁棒性特征选择的社交媒体自残行为检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,1)从网络社交媒体 网站 进行多维度的异质信息获取;2)对数据从文本、用户、时间和图片四个方面进行特征提取,构造自残内容数据集和正常内容数据集;3)通过l_2,1范数的loss函数和正则化项,构建基于强鲁棒性特征选择的有监督自残检测模型;4)对待检测的目标数据进行特征 抽取 ,使用构建的检测模型进行自残检测。本发明所公开的面向社交媒体的自残检测方法,较传统的自残检测相比,可以更广泛的 接触 到自残主体、更深度的发掘自残主体的行为模式、更高效及时的发现自残行为,具有实际应用的优势。,下面是一种基于强鲁棒性特征选择的社交媒体自残行为检测方法专利的具体信息内容。

1.一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,包括以下步骤:
步骤1,社交媒体数据采集:以网络社交媒体网站历史数据为数据源,获取自残相关帖子和非自残帖子的文本信息、用户行为信息、时间信息和图片信息,得到由若干个帖子组成的帖子集合;记由n个帖子组成的帖子集合
步骤2,数据特征提取及数据集构建:对从数据采集中得到的帖子pi(i=1,2,…,n)提取其4个异质信息源的特征,得到帖子特征向量fi={wi,ui,ti,pi},其中,wi表示文本特征,ui表示用户行为特征,ti表示帖子的时间特征,pi表示帖子的图片特征,由此分别构建自残帖子数据集和正常帖子数据集;
步骤3,自残检测模型建立:从步骤2所构建的数据集中抽取训练样本,基于强鲁棒性特征选择的目标函数,构建和训练有监督的自残检测模型;
步骤4,自残内容检测:对需要检测的目标帖子p,根据步骤2中特征提取方法构建其特征向量f,再将其特征向量f输入到步骤3所训练得到的检测模型中进行特征选择,同时判断其是否为自残相关帖子。
2.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤1社交媒体数据采集中,通过不同社交媒体帖子的标签信息,利用网络爬虫或社交媒体提供的应用程序接口进行自残相关和非自残帖子的主题爬取,对每条帖子获取的主要内容包括:
(1)文本信息:获取帖子的标题、主题标签词列表、正文文本和其所含的所有评论文本;
(2)用户行为信息:获取发帖用户的总发帖量、用户加入该社交媒体平台的时间、该用户的关注数和粉丝数;
(3)时间信息:获取帖子的发布时间和帖子中图片的拍摄时间;
(4)图片信息:获取帖子中所附的所有图片。
3.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤2特征提取及数据集构建中,主要包括:
(1)文本特征:文本词性分布特征,计算每条帖子文本内容中不同词性所占比例;可读性特征,利用语言学中的可读性计算公式,对文本的可读性指数进行计算;情感倾向特征,利用文本情感分析判断帖子的情感倾向为积极、中性或消极;文本的词向量表示,利用深度模型为每条帖子的文本计算其向量表示;以上的特征表示为w={wling,wread,wsent,wvec};
(2)用户行为特征:根据用户的总发帖量和使用该社交平台的时间,计算该用户的平均发帖量;利用用户的帖子总量和存在回复的帖子的数量,计算该用户帖子的平均回复率;再加上该用户的关注数和粉丝数,其特征可表示为u={upost,urep,ufol,ufan};
(3)时间特征:将每天按小时划分为24个时间段,统计该帖子发布时间和所附图片的拍摄时间所在时间段,其特征可表示为t={tpost,tpic};
(4)图片特征:对图片中的色彩模式进行表征,同时利用色彩信息对图片的情感维度进行定量分析;根据图像处理中的算法对图片的局部特征进行提取并用神经网络对图片表征,其特征可表示为p={pcol,psent,plocal,pnet}。
4.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤3自残检测模型建立中,使用了强鲁棒性的高效且稳健的特征选择方法:
首先,使用 来表示训练数据中可用的标注信息,其中,对 中帖子pi,当{Yi1=1,Yi2=0}时,该帖子为自残内容帖子,反之,当{Yi1=0,Yi2=1}时,该帖子为正常帖子;
然后,使用 表示训练数据的数据矩阵,其中li为第i个异质信息源所抽取的特征数量;
最后,通过使用l2,1范数的loss函数和正则化项达到强鲁棒性特征选择的目的;所构建的监督模型为训练一个系数矩阵 将数据矩阵X映射到标注信息矩阵Y,训练方式为:
其中, 为正则化项的参数,具体的训练过程为:
(1)构建矩阵 其中, 为单位矩阵, 同时,初
始化矩阵 为单位矩阵,并设置训练过程收敛的终止阈值为∈;
(2)计算
(3)更新对矩阵D,对角元素为dii=1/(2‖ui‖2),其中,ui为U第i行;
(4)构造W=(u1,u2,…,um-n),并判断目标函数下降幅度小于∈是否成立,若不成立,则返回过程(2)继续训练;否则,退出训练保存系数矩阵W。
5.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤4自残内容检测中,对待检测的目标帖子p,通过学得的系数矩阵W可映射得到其指示向量y∈R^2,当y_1>y_2时,则判定该帖子为自残内容;否则,判定该帖子为正常内容,正常内容即为非自残内容。

说明书全文

一种基于强鲁棒性特征选择的社交媒体自残行为检测方法

技术领域

[0001] 本发明属于社交媒体数据挖掘领域,特别涉及一种基于强鲁棒性特征选择的社交媒体自残行为检测方法。

背景技术

[0002] 近年来,自残行为逐渐成为社会公共卫生领域的一大挑战。能够及时有效的发现社会中的自残行为,是应对该挑战的现实需要。由于现有的基于自残主体自身及其家人朋友的传统自残发现策略,存在着执行困难、效率低下等缺陷,所以急需一种新的自残检测策略。随着网络社交媒体的普及,越来越多的人倾向于在社交媒体上发表想法和记录生活,因而使得利用社交媒体进行自残行为检测成为可能。相较传统的自残检测方法,利用社交媒体进行自残行为检测可以更高效的发现更多的自残行为。
[0003] 现在已经存在了大量利用社交媒体为主的各种网络数据来进行网络用户健康状况研究的工作。现有技术提出了一种基于心率和社交媒体微博的心理压检测方法,来对目标个体的压力区间和压力源事件进行发现,其主要包括:首先,对个体的心率异常进行检测,来反映测试周期内个体的神经系统的紧张程度;然后,对个体微博的异常区间进行检测,来发现测试周期内用户发布积极微博频率的异常情况;最后,将心率异常和微博发布异常进行匹配,从而对压力区间进行确定,并通过微博数据进行压力源事件的发现。
[0004] 现有技术提出了一种社交媒体用户心理危机的预警方法,方法主要包括:首先,获取社交媒体上用户发布的文本数据,并对该数据进行预处理得到词语构成的数据集;然后,通过对负面词汇的词频统计来对文本进行量化的情感分析计算,得到用户发布文本的情感特征向量;最后,将得到的特征向量输入到神经网络中得到用户的负向情感强度,并对用户的心理状态进行评级。
[0005] 上述基于社交媒体的数据分析方法,都只选择使用了同质信息源,没有充分利用社交媒体上丰富的异质信息源来进行全面的数据挖掘。同时,以上方法的数据挖掘算法都过于简单,不能充分挖掘媒体数据中有价值的信息及适应实际应用中充满噪音的复杂数据。

发明内容

[0006] 本发明的目的在于提供一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,以解决上述问题。
[0007] 为实现上述目的,本发明采用以下技术方案:
[0008] 一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,包括以下步骤:
[0009] 步骤1,社交媒体数据采集:以网络社交媒体网站历史数据为数据源,获取自残相关帖子和非自残帖子的文本信息、用户行为信息、时间信息和图片信息,得到由若干个帖子组成的帖子集合;记由n个帖子组成的帖子集合
[0010] 步骤2,数据特征提取及数据集构建:对从数据采集中得到的帖子pi(i=1,2,…,n)提取其4个异质信息源的特征,得到帖子特征向量fii={wi,ui,ti,pi},其中,wi表示文本特征,ui表示用户行为特征,ti表示帖子的时间特征,pi表示帖子的图片特征,由此分别构建自残帖子数据集和正常帖子数据集;
[0011] 步骤3,自残检测模型建立:从步骤2所构建的数据集中抽取训练样本,基于强鲁棒性特征选择的目标函数,构建和训练有监督的自残检测模型;
[0012] 步骤4,自残内容检测:对需要检测的目标帖子p,根据步骤2中特征提取方法构建其特征向量f,再将其特征向量f输入到步骤3所训练得到的检测模型中进行特征选择,同时判断其是否为自残相关帖子。
[0013] 进一步的,步骤1社交媒体数据采集中,通过不同社交媒体帖子的标签信息,利用网络爬虫或社交媒体提供的应用程序接口进行自残相关和非自残帖子的主题爬取,对每条帖子获取的主要内容包括:
[0014] (1)文本信息:获取帖子的标题、主题标签词列表、正文文本和其所含的所有评论文本;
[0015] (2)用户行为信息:获取发帖用户的总发帖量、用户加入该社交媒体平台的时间、该用户的关注数和粉丝数;
[0016] (3)时间信息:获取帖子的发布时间和帖子中图片的拍摄时间;
[0017] (4)图片信息:获取帖子中所附的所有图片。
[0018] 进一步的,步骤2特征提取及数据集构建中,主要包括:
[0019] (1)文本特征:文本词性分布特征,计算每条帖子文本内容中不同词性所占比例;可读性特征,利用语言学中的可读性计算公式,对文本的可读性指数进行计算;情感倾向特征,利用文本情感分析判断帖子的情感倾向为积极、中性或消极;文本的词向量表示,利用深度模型为每条帖子的文本计算其向量表示;以上的特征表示为w={wling,wread,wsent,wvec};
[0020] (2)用户行为特征:根据用户的总发帖量和使用该社交平台的时间,计算该用户的平均发帖量;利用用户的帖子总量和存在回复的帖子的数量,计算该用户帖子的平均回复率;再加上该用户的关注数和粉丝数,其特征可表示为u={upost,urep,ufol,ufan};
[0021] (3)时间特征:将每天按小时划分为24个时间段,统计该帖子发布时间和所附图片的拍摄时间所在时间段,其特征可表示为t={tpost,tpic};
[0022] (4)图片特征:对图片中的色彩模式进行表征,同时利用色彩信息对图片的情感维度进行定量分析;根据图像处理中的算法对图片的局部特征进行提取并用神经网络对图片表征,其特征可表示为p={pcol,psent,plocal,pnet}。
[0023] 进一步的,步骤3自残检测模型建立中,使用了强鲁棒性的高效且稳健的特征选择方法:首先,使用 来表示训练数据中可用的标注信息,其中,对 中帖子pi,当{Yi1=1,Yi2=0}时,该帖子为自残内容帖子,反之,当{Yi1=0,Yi2=1}时,该帖子为正常帖子;
[0024] 然后,使用 表示训练数据的数据矩阵,其中li为第i个异质信息源所抽取的特征数量;
[0025] 最后,通过使用l2,1范数的loss函数和正则化项达到强鲁棒性特征选择的目的;所构建的监督模型为训练一个系数矩阵 将数据矩阵X映射到标注信息矩阵Y,训练方式为:
[0026]
[0027] 其中, 为正则化项的参数,具体的训练过程为:
[0028] (1)构建矩阵 其中, 为单位矩阵, 同时,初始化矩阵 为单位矩阵,并设置训练过程收敛的终止阈值为∈;
[0029] (2)计算U=D-1AT(AD-1AT)-1Y;
[0030] (3)更新对矩阵D,对角元素为dii=1/(2‖ui‖2),其中,ui为U第i行;
[0031] (4)构造W=(u1,u2,…,um-n),并判断目标函数下降幅度小于∈是否成立,若不成立,则返回过程(2)继续训练;否则,退出训练保存系数矩阵W。
[0032] 进一步的,步骤4自残内容检测中,对待检测的目标帖子p,通过学得的系数矩阵W可映射得到其指示向量y∈R^2,当y_1>y_2时,则判定该帖子为自残内容;否则,判定该帖子为正常内容,正常内容即为非自残内容。
[0033] 与现有技术相比,本发明有以下技术效果:
[0034] (1)自残主体由于信任问题在物理世界很难寻得可靠的求助对象,因而更倾向于将倾诉求助放于具有相对匿名性的社交媒体上,使得本发明可以更广泛地接触到自残主体;
[0035] (2)传统的自残行为研究存在样本少、跟踪观察周期长等不足,而社交媒体极大普及所积累的大量社交数据中包含大量的自残案例,使得本发明可以更深发掘和理解自残主体行为模式;
[0036] (3)由于自残行为的隐蔽性,传统基于自残主体亲朋的发现方式困难且滞后,而基于社交媒体数据所构建的自残检测数学模型,使得本发明可以更及时和有效地发现自残行为。

附图说明

[0037] 图1是本发明基于强鲁棒性特征选择的社交媒体自残行为检测方法框图
[0038] 图2是数据采集过程的流程图
[0039] 图3是特征分析过程的流程图。
[0040] 图4是检测模型训练过程流程图。
[0041] 图5是自残检测过程的流程图。
[0042] 图6是社交媒体上自残相关帖子实例。

具体实施方式

[0043] 以下结合附图及实施例对本发明的实施方式进行详细说明。需要说明的是,此处描述的实施例只用以解释本发明,并不用于限定本发明。此外,在不冲突的情况下,本发明中的实施例涉及的技术特征可以相互结合。
[0044] 本发明的具体实施过程包括数据采集过程、特征分析过程、模型建立过程、自残检测过程。图1是本发明基于强鲁棒性特征选择的社交媒体自残行为检测方法框图。
[0045] 1.数据采集过程
[0046] 图6为网络社交媒体数据实例。数据获取的具体过程如下:
[0047] (1)通过爬虫技术,根据社交媒体每条数据帖子的标签进行主题爬取。在爬取自残相关内容时,可使用如“selfharm”、“selfinjury”、“suicide”等自残相关标签进行爬取;在爬取正常帖子时,可无主题对目标网页进行超需求量的饱和爬取;
[0048] (2)对自残相关帖子,考虑到不同标签返回的帖子集合可能存在重叠的部分,故对自残相关的帖子进行去重处理。之后,为了防止非自残用户偶然发布自残相关内容的情况,除去自残帖子所属的用户集合中帖子数少于5个的用户及其相关帖子;
[0049] (3)对正常内容帖子,通过标签进行过滤,除去带有自残相关标签的帖子。之后,根据正常帖子的需求量进行随机采样使用。
[0050] 以上的步骤流程如图2所示,从而得到帖子集合 其中,爬取的内容信息如图6所示,包括:
[0051] (1)文本信息:获取帖子的标题、主题标签词列表、正文文本和其所含的所有评论文本;
[0052] (2)用户行为信息:获取发帖用户的总发帖量、用户加入该社交媒体平台的时间、该用户的关注数和粉丝数;
[0053] (3)时间信息:获取帖子的发布时间和帖子中图片的拍摄时间;
[0054] (4)图片信息:获取帖子中所附的所有图片。
[0055] 2.特征分析过程
[0056] 对从数据采集过程中得到的帖子进特征分析和提取。从帖子pi(i=1,2,…,n)提取其4个异质信息源的特征,得到帖子特征向量fi={wi,ui,ti,pi}。其主要过程包括:
[0057] (1)文本特征提取:文本词性分布特征,计算每条帖子文本内容中名词、动词、形容词和副词所占的比例,可使用如CMUTweetTagger这种面向社交媒体的文本分析工具进行计算;可读性特征,利用语言学中的可读性计算公式,对文本的可读性指数进行计算,例如Flesch可读性计算公式、Linsear Write可读性计算公式、Fog可读性计算公式和Dale-Chall可读性计算公式;情感倾向特征,利用文本情感分析判断帖子的情感倾向为积极、中性或消极,可使用语料库MPQA进行计算;文本的词向量表示,利用word2vec模型为每条帖子的文本计算其向量表示。以上的特征表示为wi={wling,wread,wsent,wvec};
[0058] (2)用户行为特征提取:根据用户的总发帖量和使用该社交平台的时间,计算该用户的平均发帖量;利用用户的帖子总量和存在回复的帖子的数量,计算该用户帖子的平均回复率;再加上该用户的关注数和粉丝数,其特征可表示为ui={upost,urep,ufol,ufan};
[0059] (3)时间特征提取:将每天按小时划分为24个时间段,统计该帖子发布时间和所附24
图片的拍摄时间所在时间段,可使用{0,1} 的向量进行表征,其特征可表示为ti={tpost,tpic};
[0060] (4)图片特征提取:对图片中的色彩模式里利用柱坐标色彩空间HSV进行表征,得到图片的色度(Hue)、色饱和度(Saturation)和亮度(Brightness)。同时,利用色彩信息对图片的情感维度进行定量分析,计算公式为:
[0061]
[0062] 此外,使用图像处理中的SURF算法、LBP算法和GIST算法来对图片的局部特征进行提取,并用使用在ImageNet数据集上已预训练完成的AlexNet神经网络来对图片进行特征抽取。其特征可表示为pi={pcol,psent,plocal,pnet}。
[0063] 该过程的流程图如图3所示。此后,可分别构建自残帖子数据集和正常帖子数据集。
[0064] 3.模型建立过程
[0065] 定义训练数据集中的自残内容标注信息为 其中,对 中帖子pi,当{Yi1=1,Yi2=0}时,该帖子为自残内容帖子;反之,当{Yi1=0,Yi2=1}时,该帖子为正常帖子。使用训练数据的特征向量组成的数据矩阵 (li为第i个异质信息源所抽取的特征数量),所构建的基于强鲁棒性特征选择的有监督模型为训练一个系数矩阵
将数据矩阵X映射到标注信息矩阵Y,训练方式为:
[0066]
[0067] 其中, 为正则化项参数,具体的训练过程为:
[0068] (1)构建矩阵 其中, 为单位矩阵, 同时,初始化矩阵 为单位矩阵,并设置训练收敛的终止条件为(‖XW-Y‖2,1+αW2,1<∈;
[0069] (2)计算U=D-1AT(AD-1AT)-1Y;
[0070] (3)更新对角矩阵D,对角元素为dii=1/(2‖ui‖2),其中,ui为U第i行;
[0071] (4)构造W=(u1,u2,…,um-n),并判断终止条件是否成立,若不成立,则返回过程(2)继续训练;否则,退出训练保存系数矩阵W。
[0072] 以上有监督模型的训练过程流程图如图4所示。
[0073] 4.自残检测过程
[0074] 对需要检测的目标帖子p,根据特征分析中特征提取方法构建其特征向量f,再将其特征向量f输入到模型建立过程中训练得到的检测模型中,判断其是否为自残相关帖子。通过有监督的自残检测模型系数矩阵W的映射,可得到目标帖子p的指示向量 当y1>y2时,则判定该帖子为自残内容;否则,判定该帖子为正常内容。该检测过程流程图如图5所示。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈