专利汇可以提供一种基于强鲁棒性特征选择的社交媒体自残行为检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,1)从网络社交媒体 网站 进行多维度的异质信息获取;2)对数据从文本、用户、时间和图片四个方面进行特征提取,构造自残内容数据集和正常内容数据集;3)通过l_2,1范数的loss函数和正则化项,构建基于强鲁棒性特征选择的有监督自残检测模型;4)对待检测的目标数据进行特征 抽取 ,使用构建的检测模型进行自残检测。本发明所公开的面向社交媒体的自残检测方法,较传统的自残检测相比,可以更广泛的 接触 到自残主体、更深度的发掘自残主体的行为模式、更高效及时的发现自残行为,具有实际应用的优势。,下面是一种基于强鲁棒性特征选择的社交媒体自残行为检测方法专利的具体信息内容。
1.一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,包括以下步骤:
步骤1,社交媒体数据采集:以网络社交媒体网站历史数据为数据源,获取自残相关帖子和非自残帖子的文本信息、用户行为信息、时间信息和图片信息,得到由若干个帖子组成的帖子集合;记由n个帖子组成的帖子集合
步骤2,数据特征提取及数据集构建:对从数据采集中得到的帖子pi(i=1,2,…,n)提取其4个异质信息源的特征,得到帖子特征向量fi={wi,ui,ti,pi},其中,wi表示文本特征,ui表示用户行为特征,ti表示帖子的时间特征,pi表示帖子的图片特征,由此分别构建自残帖子数据集和正常帖子数据集;
步骤3,自残检测模型建立:从步骤2所构建的数据集中抽取训练样本,基于强鲁棒性特征选择的目标函数,构建和训练有监督的自残检测模型;
步骤4,自残内容检测:对需要检测的目标帖子p,根据步骤2中特征提取方法构建其特征向量f,再将其特征向量f输入到步骤3所训练得到的检测模型中进行特征选择,同时判断其是否为自残相关帖子。
2.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤1社交媒体数据采集中,通过不同社交媒体帖子的标签信息,利用网络爬虫或社交媒体提供的应用程序接口进行自残相关和非自残帖子的主题爬取,对每条帖子获取的主要内容包括:
(1)文本信息:获取帖子的标题、主题标签词列表、正文文本和其所含的所有评论文本;
(2)用户行为信息:获取发帖用户的总发帖量、用户加入该社交媒体平台的时间、该用户的关注数和粉丝数;
(3)时间信息:获取帖子的发布时间和帖子中图片的拍摄时间;
(4)图片信息:获取帖子中所附的所有图片。
3.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤2特征提取及数据集构建中,主要包括:
(1)文本特征:文本词性分布特征,计算每条帖子文本内容中不同词性所占比例;可读性特征,利用语言学中的可读性计算公式,对文本的可读性指数进行计算;情感倾向特征,利用文本情感分析判断帖子的情感倾向为积极、中性或消极;文本的词向量表示,利用深度模型为每条帖子的文本计算其向量表示;以上的特征表示为w={wling,wread,wsent,wvec};
(2)用户行为特征:根据用户的总发帖量和使用该社交平台的时间,计算该用户的平均发帖量;利用用户的帖子总量和存在回复的帖子的数量,计算该用户帖子的平均回复率;再加上该用户的关注数和粉丝数,其特征可表示为u={upost,urep,ufol,ufan};
(3)时间特征:将每天按小时划分为24个时间段,统计该帖子发布时间和所附图片的拍摄时间所在时间段,其特征可表示为t={tpost,tpic};
(4)图片特征:对图片中的色彩模式进行表征,同时利用色彩信息对图片的情感维度进行定量分析;根据图像处理中的算法对图片的局部特征进行提取并用神经网络对图片表征,其特征可表示为p={pcol,psent,plocal,pnet}。
4.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤3自残检测模型建立中,使用了强鲁棒性的高效且稳健的特征选择方法:
首先,使用 来表示训练数据中可用的标注信息,其中,对 中帖子pi,当{Yi1=1,Yi2=0}时,该帖子为自残内容帖子,反之,当{Yi1=0,Yi2=1}时,该帖子为正常帖子;
然后,使用 表示训练数据的数据矩阵,其中li为第i个异质信息源所抽取的特征数量;
最后,通过使用l2,1范数的loss函数和正则化项达到强鲁棒性特征选择的目的;所构建的监督模型为训练一个系数矩阵 将数据矩阵X映射到标注信息矩阵Y,训练方式为:
其中, 为正则化项的参数,具体的训练过程为:
(1)构建矩阵 其中, 为单位矩阵, 同时,初
始化矩阵 为单位矩阵,并设置训练过程收敛的终止阈值为∈;
(2)计算
(3)更新对角矩阵D,对角元素为dii=1/(2‖ui‖2),其中,ui为U第i行;
(4)构造W=(u1,u2,…,um-n),并判断目标函数下降幅度小于∈是否成立,若不成立,则返回过程(2)继续训练;否则,退出训练保存系数矩阵W。
5.根据权利要求1所述的一种基于强鲁棒性特征选择的社交媒体自残行为检测方法,其特征在于,步骤4自残内容检测中,对待检测的目标帖子p,通过学得的系数矩阵W可映射得到其指示向量y∈R^2,当y_1>y_2时,则判定该帖子为自残内容;否则,判定该帖子为正常内容,正常内容即为非自残内容。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种听写报读进度的控制方法及电子设备 | 2020-05-11 | 454 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
关键词提取方法、装置及存储介质 | 2020-05-08 | 775 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于Bi-LSTM网络的无监督属性的抽取方法 | 2020-05-11 | 47 |
关键词提取方法、关键词提取装置及电子设备 | 2020-05-08 | 185 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。