首页 / 专利库 / 人工智能 / 社交媒体挖掘 / 基于上下文图随机游走及音形码的微博文本规范化方法

基于上下文图随机游走及音形码的微博文本规范化方法

阅读:28发布:2020-05-16

专利汇可以提供基于上下文图随机游走及音形码的微博文本规范化方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于上下文图随机游走及音形码的微博文本规范化方法,属于计算机技术社交媒体文本内容分析和挖掘技术领域。该方法包括:识别非规范词,提取词语上下文;构建上下文图进行随机游走,得到基于上下文的规范化候选集;利用汉字音形码,得到基于音形的规范化候选集;处理两个规范化候选集,得到最终规范化结果。本方法克服了传统方法未充分考虑汉字音形的不足。实质上,社交媒体不同于新闻等书面语,其中充斥着大量的非规范缩写、同音词和同形词,这使得 自然语言处理 工具处理微博文本的效果不理想。因此,本发明提出了将音形码与前后文理解相结合的微博文本规范化方法,为规范化后利用自然语言处理工具进行分析和挖掘提供了可能。,下面是基于上下文图随机游走及音形码的微博文本规范化方法专利的具体信息内容。

1.一种基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于,所述方法应用于中文微博文本规范化,包括以下步骤:
步骤1:对中文微博文本进行分词操作;
步骤2:利用标准词典识别微博文本中的非规范词,并提取词语的上下文;
步骤3:根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图;
步骤4:在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集;
步骤5:基于单个汉字的音形码,求出词语的音形码;
步骤6:对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量;
步骤7:与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列;
步骤8:处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果。
2.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤1中对中文微博文本进行分词操作具体为,使用分词工具对中文微博文本进行分词操作,得到文本中包含的词语,为下一步识别非规范词做准备。
3.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤2中利用标准词典识别微博文本中的非规范词,并提取词语的上下文具体为,将分词后得到的词语与标准词典中的词语进行对比,识别出中文微博文本中的非规范词和规范词,并求出非规范词和规范词对应的上下文,为下一步建立上下文图做准备。
其中,本发明将每个词的上下文定义为词语前后各一个词组成的词序列。
4.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤3中根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图具体为,利用词语、词语对应的上下文以及词语与其上下文的共现次数构建出上下文图G(W,C,E)。
其中W包括所有表示规范词和非规范词的节点,C包括所有表示上下文的节点,E代表图中连接词节点和上下文节点的边,边的权重是词语与上下文的共现次数。
5.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤4中在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集具体为,在上下文图上,对每个非规范词进行K次随机游走,得到每个非规范词基于上下文的规范化候选集。
每一次随机游走都是从属于非规范词的节点Ni开始,然后以概率Pij移动到任意与它相连的上下文节点Mj,每个节点对之间的转换由转移概率Pij定义,任意两个节点i,j之间的转移概率定义为:
其中,Ni表示非规范词节点,Mj表示上下文节点,Pij表示节点Ni,Mj之间的转移概率,Wij表示节点Ni,Mj之间的边权重,Wik表示与Ni相连的任意一个上下文节点Mk的边权重。
重复K次的独立随机游走,根据转移概率分布来随机地遍历二部图,对于任意随机游走,任何两个节点之间所经过的步数被称为命中时间,因此,第r次随机游走的非规范词和规范词节点对(n,m)之间的命中时间为hr(n,m),两个节点之间的成本定义为连接这两个节点的所有随机游走的平均命中时间H(n,m):
其中,H(n,m)表示节点对(n,m)所有随机游走的平均命中时间,hr(n,m)表示节点对(n,m)第r次随机游走的命中时间,R表示连接节点对(n,m)的所有随机游走的次数。
非规范词节点和规范词节点对(n,m)的上下文相似性定义为L(n,m),是这两个节点的平均命中H(n,m)与该非规范词连接的所有其他规范词节点的相对频率,因此L(n,m)计算如下:
其中,L(n,m)表示节点对(n,m)的上下文相似性。
计算出每个非规范词对应的多个规范词的上下文相似度,并进行排序,得到基于上下文相似性的规范化候选序列。
6.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤5中基于单个汉字的音形码,求出词语的音形码具体为,根据修改后的音形码结构,计算出每个汉字的音形码,然后基于单个汉字的音形码,得到每个非规范词和规范词的音形码。
其中,单个汉字的音形码是一个1×10的向量,假设词语都最多由四个字构成,将其表示成一个4×10的矩阵;若字数小于四,则在末尾补零。
7.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤6中对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量具体为,对每个非规范词进行操作,将它的音形码与权重矩阵相乘,提取出特征向量(1×4的向量),输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量。
8.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤7中与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列具体为,将步骤6得到的非规范词对应的预测的规范词的特征向量与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列。
9.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤8中处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果具体为,对每个非规范词基于上下文的规范化候选集和基于读音和字形的规范化候选集进行重排序,输出前N个规范词,即TopN作为非规范词对应的规范化结果。

说明书全文

基于上下文图随机游走及音形码的微博文本规范化方法

技术领域

[0001] 本发明属于计算机技术领域,具体是一种基于上下文图随机游走及音形码的微博文本规范化方法。

背景技术

[0002] 随着社交网络的普及,不断有新用户加入到社交网络中,每天在各个社交平台上产生的文本数据都是数以万计的。微博由于其即时、短小、和快速传播等特点,已成为当前最重要的社交网络平台之一。它也成为人们获取新闻时事、人际交往、自我表达、社会分享和社会参与的重要媒介。因此,这些微博数据具有极大的研究价值。但是微博文本中存在大量的非规范词,使得现有的自然语言工具直接处理微博文本时的效果并不理想。如果能够对微博文本里的非规范词进行规范化,无疑能在一定程度上提高自然语言处理相关研究的效果。
[0003] 近几年来,现有工作提出了多种针对英文文本的规范化方法。但是,用这些方法来处理中文文本或多或少存在着一些问题。比如,利用最大相同字串率和编辑距离方法来计算非规范词与规范词之间的字面相似度,此方法比较适用于计算英文文本的相似度,并不太适用于中文相似度的计算。因此,现有的规范化方法无法满足中文微博文本规范化的需求。
[0004] 本发明提出一种基于上下文图随机游走及音形码的微博文本规范化方法。为了让中文微博文本规范化的效果更好,本发明在如下两个方面进行了考虑:第一,我们在上下文图随机游走的基础上,引入了音形码方法,能很好地获取非规范词与规范词之间的音形相似性,考虑到了中文语言的特点。第二,我们对原始的音形码进行了一些修改,使其更符合微博文本的表达特点,能够更好地完成微博文本规范化任务。

发明内容

[0005] 本发明的目的在于提供一种基于上下文图随机游走和音形码的微博文本规范化方法。本发明通过引入音形码方法来计算非规范词与规范词之间的音形相似度,使得最后的规范化结果更加准确。
[0006] 本发明是一种基于上下文图随机游走和音形码的微博文本规范化方法,包括以下步骤:
[0007] 步骤1:对中文微博文本进行分词操作。
[0008] 步骤2:利用标准词典识别微博文本中的非规范词,并提取词语的上下文。
[0009] 步骤3:根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图。
[0010] 步骤4:在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集。
[0011] 步骤5:基于单个汉字的音形码,求出词语的音形码。
[0012] 步骤6:对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量。
[0013] 步骤7:与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列。
[0014] 步骤8:处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果。
[0015] 所述步骤2中利用标准词典识别微博文本中的非规范词,并提取词语的上下文具体为,将分词后得到的词语与标准词典中的词语进行对比,识别出中文微博文本中的非规范词和规范词,并求出非规范词和规范词对应的上下文,为下一步建立上下文图做准备。
[0016] 其中,本发明将每个词的上下文定义为词语前后各一个词组成的词序列。
[0017] 所述步骤3中根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图具体为,利用词语、词语对应的上下文以及词语与其上下文的共现次数构建出上下文图G(W,C,E)。
[0018] 其中W包括所有表示规范词和非规范词的节点,C包括所有表示上下文的节点,E代表图中连接词节点和上下文节点的边,边的权重是词语与上下文的共现次数。
[0019] 所述步骤4中在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集具体为,在上下文图上,对每个非规范词进行K次随机游走,得到每个非规范词基于上下文的规范化候选集。
[0020] 每一次随机游走从属于非规范词的节点Ni开始,然后以概率Pij移动到任意与它相连的上下文节点Mj。每个节点对之间的转换由转移概率Pij定义,任意两个节点Ni,Mj之间的转移概率定义为:
[0021]
[0022] 其中,Ni表示非规范词节点,Mj表示上下文节点,Pij表示节点Ni,Mj之间的转移概率,Wij表示节点Ni,Mj之间的边权重,Wik表示与Ni相连的任意一个上下文节点Mk的边权重。
[0023] 重复K次的独立随机游走,根据转移概率分布来随机地遍历二部图。对于任意随机游走,任何两个节点之间所经过的步数被称为命中时间。因此,第r次随机游走的非规范词和规范词节点对(n,m)之间的命中时间为hr(n,m)。两个节点之间的成本定义为连接这两个节点的所有随机游走的平均命中时间H(n,m):
[0024]
[0025] 其中,H(n,m)表示节点对(n,m)所有随机游走的平均命中时间,hr(n,m)表示节点对(n,m)第r次随机游走的命中时间,R表示连接节点对(n,m)的所有随机游走的次数。
[0026] 非规范词节点和规范词节点对(n,m)的上下文相似性定义为L(n,m),是这两个节点的平均命中H(n,m)与该非规范词连接的所有其他规范词节点的相对频率。因此L(n,m)计算如下:
[0027]
[0028] 其中,L(n,m)表示节点对(n,m)的上下文相似性。
[0029] 计算出每个非规范词对应的多个规范词的上下文相似度,并进行排序,得到基于上下文相似性的规范化候选序列。
[0030] 所述步骤5中基于单个汉字的音形码,求出词语的音形码具体为,根据修改后的音形码结构,计算出每个汉字的音形码,然后基于单个汉字的音形码,得到每个非规范词和规范词的音形码。
[0031] 其中,单个汉字的音形码是一个1×10的向量,假设词语都最多由四个字构成,将其表示成一个4×10的矩阵;若字数小于四,则在末尾补零。
[0032] 所述步骤6中对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量具体为,对每个非规范词进行操作,将它的音形码与权重矩阵相乘,提取出特征向量(1×4的向量),输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量。
[0033] 所述步骤7中与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列具体为,将步骤6得到的非规范词对应的预测的规范词的特征向量与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列。
[0034] 所述步骤8中处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果具体为,对每个非规范词基于上下文的规范化候选集和基于读音和字形的规范化候选集进行重排序,输出前N个规范词,即TopN作为非规范词对应的规范化结果。附图说明
[0035] 图1为本发明的流程示意图。
[0036] 图2为随机游走流程图
[0037] 图3为修改后的音形码结构图。
[0038] 图4为词语的音形码表示。
[0039] 图5为特征提取时的权重设置。
[0040] 图6为词语特征表示。

具体实施方式

[0041] 本发明是一种基于上下文图随机游走和音形码的微博文本规范化方法,整体流程如图1所示,包括以下步骤:
[0042] 步骤1:对中文微博文本进行分词操作。
[0043] 步骤2:利用标准词典识别微博文本中的非规范词,并提取词语的上下文。
[0044] 步骤3:根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图。
[0045] 步骤4:在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集。
[0046] 步骤5:基于单个汉字的音形码,求出词语的音形码。
[0047] 步骤6:对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量。
[0048] 步骤7:与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列。
[0049] 步骤8:处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果。。
[0050] 所述步骤1中对中文微博文本进行分词操作具体为,使用分词工具对中文微博文本进行分词操作,得到文本中包含的词语,为下一步识别非规范词做准备。
[0051] 所述步骤2中利用标准词典识别微博文本中的非规范词,并提取词语的上下文具体为,将分词后得到的词语与标准词典中的词语进行对比,识别出中文微博文本中的非规范词和规范词,并求出非规范词和规范词对应的上下文,为下一步建立上下文图做准备。
[0052] 其中,本发明将每个词的上下文定义为词语前后各一个词组成的词序列,如图2,词语“神”的一个上下文为“探讨话题”。
[0053] 所述步骤3中根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图具体为,利用词语、词语对应的上下文以及词语与其上下文的共现次数构建出上下文图G(W,C,E)。
[0054] 其中W包括所有表示规范词和非规范词的节点,C包括所有表示上下文的节点,E代表图中连接词节点和上下文节点的边。边的权重是词语与上下文的共现次数,如图2,左边的白色节点表示了词语“神马”和“什么”对应的上下文“是玩意”等,右边的灰色词节点表示非规范词“神马”,白色词节点表示规范词“什么”,图中连接“神马”和“是玩意”的边的权重1表示“是神马玩意”在文本中出现了一次。
[0055] 所述步骤4中在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集具体为,在上下文图上,对每个非规范词进行K次随机游走,得到每个非规范词基于上下文的规范化候选集。
[0056] 每一次随机游走从属于非规范词的节点Ni开始,然后以概率Pij移动到任意与它相连的上下文节点Mj。每个节点对之间的转换由转移概率Pij定义,任意两个节点i,j之间的转移概率定义为:
[0057]
[0058] 如图2:步骤①,从非规范词“神马”出发,找到它对应的上下文节点为“是玩意”,“探讨话题”,和“为会”,对应的边权重为(1,1,3),根据转换概率Pij求出“神马”到每个下文节点的转移概率,分别为[0.2,0.2,0.6],然后产生一个随机数,假设为0.61221,落在了(0.4,1.0]的区间,所以索引值为2,选择的上下文节点为“为会”;步骤②,从上下文及节点“为会”出发,找到与它连接的词节点为“神马”和“什么”,存在两个词节点,因为本发明设置了在随机游走中不可以返回上个节点,所以索引值为1,选择词节点“什么”;步骤③,进行两次判断,判断该词节点是否为规范词,判断游走步数是否达到最大值S,本发明设置S=4,若该词节点是规范词节点或者游走步数为4则停止此次游走,若该词不是规范词且游走步数没有达到4,则继续游走,重复步骤①②③;在图2中,“什么”是规范词,停止本次游走,找到了“神马”的规范词“什么”。
[0059] 重复K次的独立随机游走,根据转移概率分布来随机地遍历二部图。对于任意随机游走,任何两个节点之间所经过的步数被称为命中时间。因此,第r次随机游走的非规范词和规范词节点对(n,m)之间的命中时间为hr(n,m)。两个节点之间的成本定义为连接这两个节点的所有随机游走的平均命中时间H(n,m):
[0060]
[0061] 其中,H(n,m)表示节点对(n,m)所有随机游走的平均命中时间,hr(n,m)表示节点对(n,m)第r次随机游走的命中时间,R表示连接节点对(n,m)的所有随机游走的次数。
[0062] 非规范词节点和规范词节点对(n,m)的上下文相似性定义为L(n,m),是这两个节点的平均命中H(n,m)与该非规范词连接的所有其他规范词节点的相对频率。因此L(n,m)计算如下:
[0063]
[0064] 其中,L(n,m)表示节点对(n,m)的上下文相似性。
[0065] 计算出每个非规范词对应的多个规范词的上下文相似度,并进行排序,得到基于上下文相似性的规范化候选序列。
[0066] 所述步骤5中基于单个汉字的音形码,求出词语的音形码具体为,根据修改后的音形码结构,计算出每个汉字的音形码,然后基于单个汉字的音形码,得到每个非规范词和规范词的音形码。
[0067] 如图3,修改后的音形码结构分为两个部分,第一部分是音码,表示汉字的拼音,包含了声母,韵母和辅助韵母;第二部分是形码,表示了汉字的字形,包含了结构,四编码和笔画数。
[0068] 其中,单个汉字的音形码是一个1×10的向量,假设词语都最多由四个字构成,将其表示成一个4×10的矩阵;若字数小于四,则在末尾补零,如图4,词语“鸭梨山大”的音形码为“鸭”,“梨”,“山”,“大”这四个字的音形码组成的一个4×10的矩阵。
[0069] 所述步骤6中对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量具体为,对每个非规范词进行操作,将它的音形码与权重矩阵相乘,提取出特征向量(1×4的向量),输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量。
[0070] 根据图5中特征提取时的权重设置对词语进行特征提取,如图6,将词语“鸭梨山大”的音形码表示与权重相乘,得到了“鸭梨山大”的特征向量为[6.86 4.77 9.33 2.34]。
[0071] 所述步骤7中与标准词典中规范词的特征向量进行对比,利用k-d树算法找出与预测的规范词的特征向量距离最近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列具体为,将步骤6得到的非规范词对应的预测的规范词的特征向量与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列。
[0072] 所述步骤8中处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果具体为,对每个非规范词基于上下文的规范化候选集和基于读音和字形的规范化候选集进行重排序,输出前N个规范词,即TopN作为非规范词对应的规范化结果。
[0073] 采用本发明的实施方法,有益效果如下:第一,在上下文图随机游走的基础上,引入了音形码方法,能很好地获取非规范词与规范词之间的音形相似性,考虑到了中文语言的特点;第二,对原始的音形码进行了一些修改,使其更符合微博文本的表达特点,能够更好地完成微博文本规范化任务。
[0074] 以上对本发明实施所提供的一种基于上下文图随机游走和音形码的微博文本规范化方法进行了详细地介绍,本文对本发明的原理和实施方式进行了阐述,以上实施的说明只是用于辅助理解本发明的方法及其核心思想。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈