专利汇可以提供基于上下文图随机游走及音形码的微博文本规范化方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于上下文图随机游走及音形码的微博文本规范化方法,属于计算机技术社交媒体文本内容分析和挖掘技术领域。该方法包括:识别非规范词,提取词语上下文;构建上下文图进行随机游走,得到基于上下文的规范化候选集;利用汉字音形码,得到基于音形的规范化候选集;处理两个规范化候选集,得到最终规范化结果。本方法克服了传统方法未充分考虑汉字音形的不足。实质上,社交媒体不同于新闻等书面语,其中充斥着大量的非规范缩写、同音词和同形词,这使得 自然语言处理 工具处理微博文本的效果不理想。因此,本发明提出了将音形码与前后文理解相结合的微博文本规范化方法,为规范化后利用自然语言处理工具进行分析和挖掘提供了可能。,下面是基于上下文图随机游走及音形码的微博文本规范化方法专利的具体信息内容。
1.一种基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于,所述方法应用于中文微博文本规范化,包括以下步骤:
步骤1:对中文微博文本进行分词操作;
步骤2:利用标准词典识别微博文本中的非规范词,并提取词语的上下文;
步骤3:根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图;
步骤4:在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集;
步骤5:基于单个汉字的音形码,求出词语的音形码;
步骤6:对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量;
步骤7:与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列;
步骤8:处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果。
2.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤1中对中文微博文本进行分词操作具体为,使用分词工具对中文微博文本进行分词操作,得到文本中包含的词语,为下一步识别非规范词做准备。
3.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤2中利用标准词典识别微博文本中的非规范词,并提取词语的上下文具体为,将分词后得到的词语与标准词典中的词语进行对比,识别出中文微博文本中的非规范词和规范词,并求出非规范词和规范词对应的上下文,为下一步建立上下文图做准备。
其中,本发明将每个词的上下文定义为词语前后各一个词组成的词序列。
4.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤3中根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图具体为,利用词语、词语对应的上下文以及词语与其上下文的共现次数构建出上下文图G(W,C,E)。
其中W包括所有表示规范词和非规范词的节点,C包括所有表示上下文的节点,E代表图中连接词节点和上下文节点的边,边的权重是词语与上下文的共现次数。
5.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤4中在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集具体为,在上下文图上,对每个非规范词进行K次随机游走,得到每个非规范词基于上下文的规范化候选集。
每一次随机游走都是从属于非规范词的节点Ni开始,然后以概率Pij移动到任意与它相连的上下文节点Mj,每个节点对之间的转换由转移概率Pij定义,任意两个节点i,j之间的转移概率定义为:
其中,Ni表示非规范词节点,Mj表示上下文节点,Pij表示节点Ni,Mj之间的转移概率,Wij表示节点Ni,Mj之间的边权重,Wik表示与Ni相连的任意一个上下文节点Mk的边权重。
重复K次的独立随机游走,根据转移概率分布来随机地遍历二部图,对于任意随机游走,任何两个节点之间所经过的步数被称为命中时间,因此,第r次随机游走的非规范词和规范词节点对(n,m)之间的命中时间为hr(n,m),两个节点之间的成本定义为连接这两个节点的所有随机游走的平均命中时间H(n,m):
其中,H(n,m)表示节点对(n,m)所有随机游走的平均命中时间,hr(n,m)表示节点对(n,m)第r次随机游走的命中时间,R表示连接节点对(n,m)的所有随机游走的次数。
非规范词节点和规范词节点对(n,m)的上下文相似性定义为L(n,m),是这两个节点的平均命中H(n,m)与该非规范词连接的所有其他规范词节点的相对频率,因此L(n,m)计算如下:
其中,L(n,m)表示节点对(n,m)的上下文相似性。
计算出每个非规范词对应的多个规范词的上下文相似度,并进行排序,得到基于上下文相似性的规范化候选序列。
6.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤5中基于单个汉字的音形码,求出词语的音形码具体为,根据修改后的音形码结构,计算出每个汉字的音形码,然后基于单个汉字的音形码,得到每个非规范词和规范词的音形码。
其中,单个汉字的音形码是一个1×10的向量,假设词语都最多由四个字构成,将其表示成一个4×10的矩阵;若字数小于四,则在末尾补零。
7.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤6中对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量具体为,对每个非规范词进行操作,将它的音形码与权重矩阵相乘,提取出特征向量(1×4的向量),输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量。
8.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤7中与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列具体为,将步骤6得到的非规范词对应的预测的规范词的特征向量与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列。
9.根据权利要求1所述的基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于:所述步骤8中处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果具体为,对每个非规范词基于上下文的规范化候选集和基于读音和字形的规范化候选集进行重排序,输出前N个规范词,即TopN作为非规范词对应的规范化结果。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种面向大规模社交媒体数据的双目标采样可视分析方法 | 2020-05-12 | 458 |
一种社交媒体事件级新闻中新闻媒体影响力评估方法 | 2020-05-22 | 172 |
一种基于迁移学习的话题自适应的微博情感分析方法 | 2020-05-24 | 918 |
一种互联网期刊管理系统 | 2020-05-18 | 398 |
一种利用互联网信息的安防警报方法及安防系统 | 2020-05-20 | 672 |
一种基于层次attention的微博谣言立场检测方法 | 2020-05-23 | 118 |
一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | 2020-05-21 | 249 |
一种基于社网媒介资讯数据的挖掘来预测短期生猪市场波动的方法 | 2020-05-18 | 350 |
一种基于社交网络的数据采集与分析方法 | 2020-05-17 | 120 |
行为模式数据的发布方法、装置、终端设备及介质 | 2020-05-21 | 231 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。