专利汇可以提供一种基于深度学习的微博博主性格分析方法专利检索,专利查询,专利分析的服务。并且本 发明 针对人物性格分析问题,提出了一种基于 深度学习 的微博博主性格分析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格预标注策略,构建微博博主性格语料库;以深度学习技术为 基础 ,训练和构建性格分析模型,用模型输出的大五人格权重表示博主性格,给出人物性格对应的大五人格雷达图。通过实施步骤的实验分析,证明了方法的有效性。本发明可以帮助相关公司、企业及政府部 门 有效地分析社交用户的性格特点。,下面是一种基于深度学习的微博博主性格分析方法专利的具体信息内容。
1.一种基于深度学习的微博博主性格分析方法,其特征在于包括以下步骤:
步骤(1)微博数据形式化定义
将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),
Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息;Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中(Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性格上的得分;
步骤(2)采集微博博主数据和博文数据,并对博文数据进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
所述的条件包括:
条件1:博主为个人账号;
条件2:近1年内发表原创微博条数大于等于100条;
所述的博主数据记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数,Ufollow表示博主的关注数,Ufreq表示博主30天内的发表博文频率,Uorigin表示博主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量;
(2.2)采集博主一年内的原创博文数据,预处理后记为Textdata;
步骤(3)利用性格词典Dic对微博博主进行性格预标记,构建微博博主性格语料库G;
步骤(4)基于Char-LSTM模型进行博主性格分析:对于任意一个需要判定性格的博主blogger,记该博主1年内发布原创微博Textdata条数为N,随机将N条微博分为
组,将博主信息Userdata和每组博文输入到Char-LSTM模型,得到m组微博博主五种性格类别的概率表示,取m组性格类别概率的平均值为博主blogger的大五性格表示。
2.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤2中所述的博文数据预处理具体包括:
(1)删除微博博文中微博主题类别标签;
(2)博文文本繁体转简体;
(3)博文进行分词处理,删除博文中的停用词和无用字符。
3.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:所述的性格词典Dic是经过专家分析,人工构建获得,性格词典Dic分别给出了外倾型、宜人型、尽职型、神经质和开放型人格的性格词列表。
4.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤3具体包括以下内容:
(1)对于每个微博博主blogger,随机从该博主的Textdata中抽取其一年内的h条博文,记为B={b1,b2,…,bi,…,bh},1≤i≤h,其中bi表示所抽取的第i条博文;
(2)利用性格词典Dic,统计B中博文出现的外倾型、宜人型、尽职型、神经质和开放型五种性格词的次数,分别记为NumE,NumA,NumC,NumN,NumO;
(3)将五个数值按降序排列,取前两个数值,分别记作S1,S2,若S2/S1<β,β为阈值,则博主性格被标记为S1值所对应的性格,Character=(Se,Sa,Sc,Sn,So)中博主对应性格得分标记为1,其他性格得分标记为0,并将该博主数据加入微博性格语料库G。
5.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的Char-LSTM模型包括第一LSTM模块、第二LSTM模块、双向LSTM网络、四个全连层FC1、FC2、FC3、FC4。
6.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的采用Char-LSTM模型分析博主性格具体包括四部分:
第一部分:对待分析博主blogger的Userdata进行特征提取,得到Userdata的特征表示Fusen,具体为:
(1)将Userdata中的Uname转化为向量表示vec(Uname):将Uname进行分词,记为name=[nw1,nw2,…,nwi,…,nwm],1(2)将Userdata中的UIntro转化为向量表示vec(UIntro):将博主简介UIntro分词表示为Intro=[Iw1,Iw2,…,Iwi,…,Iwk],1(3)将已处理的vec(Uname)、vec(UIntro)和Userdata中的数值向量拼接为Vec(Userdata)={vec(Uname),vec(UIntro),Ufans,Ufollow,Ufreq,Uorigin,Uforward},输入到Char-LSTM模型的全连接层FC1中,获取到Userdata的特征表示Fuser=[u1,u2,…,ui,…,um],1第二部分:对待分析博主blogger的每组博文Textdata进行特征提取,得到Textdata的特征表示Ftext,具体为:
(1)博主blogger的n条原创微博表示为Textdata=[Text1,Text2,…,Texti,…,Textn],限定每条博文的长度为textsize;
(2)对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1
(Texti),…,vec(Textn)],然后输入到全连接层FC2中,得到Textdata的向量表示,记作Ftext=[u1,u2,…,ui,…,um],1第三部分:将博主blogger的Userdata和Textdata的特征向量Fusen和Ftext进行线性拼接,然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向量表示,记作Fbloggen=[u1,u2,…ui,…up],1第四部分:将从相同特征空间得到的向量Fbloggen输入到全连接层FC4,得到最终的模型输出向量y,激活函数为softmax,全连接层FC4神经元个数为5,分别表示微博博主五种性格类别[Se,Sa,Sc,Sn,So]的概率。
7.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:所述Char-LSTM模型的训练具体包括:
训练数据为微博性格语料库G中的数据,利用交叉熵损失函数和反向传播算法更新模型的参数,直到模型的准确率不再改变或者达到预先设置的最大迭代次数,所述交叉熵损失函数的公式为 通过最小化L来更新参数, 为预测值,yi为真实标签。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于通信受限的神经网络系统远程状态估计方法及装置 | 2020-05-12 | 563 |
一种人工神经网络运算的装置及方法 | 2020-05-12 | 320 |
一种基于神经网络的卫星外辐射源目标被动探测方法 | 2020-05-14 | 546 |
一种基于神经网络的智能窗户调节方法及装置 | 2020-05-11 | 463 |
一种基于自适应特征提取的股票指数预测方法 | 2020-05-11 | 868 |
基于镜像神经元和脑机接口的混合式主动康复方法、装置 | 2020-05-13 | 375 |
片上网络数据处理方法、存储介质、计算机设备和装置 | 2020-05-08 | 750 |
用于执行LSTM运算的装置和方法 | 2020-05-15 | 679 |
重建神经元质量检测方法、有序点云分类方法及装置 | 2020-05-16 | 848 |
一种基于人工智能的自动语音识别方法及系统 | 2020-05-12 | 812 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。