专利汇可以提供一种基于神经网络的多义词识别方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于神经网络的多义词识别方法,属于 数据挖掘 和 自然语言处理 领域。该方法主要利用了文本中上下文的语义来识别多义词并生成多义词表示,包括五个步骤:1)预处理语料;2)预训练词表示;3)提取上下文;4)识别多义词;5)多义词表示的选择。本发明充分利用了词向量的优良特性,通过词的上下文语义差异来自动标识出多义词。同时,在具体的任务中,该发明也提供了通过多义词的上下文来选择多义词表示的方法,不仅提升了文本表示的 质量 ,也提高了任务的准确率。此外,本发明的实施流程较为简便,具有良好的适用性。,下面是一种基于神经网络的多义词识别方法专利的具体信息内容。
1.一种基于神经网络的多义词识别方法,其特征在于,包括以下步骤:
第一步,预处理语料
1.1)选择自然语言处理任务中的语料库,删除文本中的特殊字符和不可识别字符;
第二步,预训练词表示
2.1)对预处理后的语料使用词向量训练工具预训练词向量;
2.2)预训练结束后,保存词-词向量映射表;
第三步,提取上下文
3.1)定义一个新的上下文窗口,并重新扫描整个语料库,提取每个词在不同句子中的上下文;
3.2)统计每个词对应的上下文中的词,并删除重复的词,为每个词生成其对应的上下文词典;该词典的每一行记录的是一个词的上下文中出现的词的集合;
3.3)将步骤3.2)中的每个上下文词典与相应的词作映射,构建词-上下文词典映射表;
第四步,识别多义词
4.1)加载步骤3.3)得到的词-上下文词典映射表,对映射表中每个词对应的上下文分别进行k-means聚类,k≥2;聚类操作前,上下文中的词需要按照步骤2.2)得到的词-词向量映射表转换成相应的词向量形式;聚类操作后,得到上下文词典中每个词所属的类别,以及每一个类别的中心向量;
4.2)使用聚类评估算法对映射表中每个词的上下文的聚类结果进行评估;聚类评估算法需要以参与聚类的词表示和词所属的类别作为输入,输出为一个评估值;当一个词的上下文的评估结果大于预先定义的阈值,则判定该词为多义词;
4.3)输出多义词,并使用该多义词在步骤4.1)中得到的每个类别的中心向量作为不同词义的词表示;
第五步,多义词表示的选择
5.1)重新扫描语料库中的词,一旦目标词出现在多义词表中,就需要为该多义词选择符合当前上下文语义的词表示;
5.2)使用上下文窗口获取该多义词的上下文;
5.3)从步骤2.2)中的词-词向量映射表中获取该上下文中词的词向量,并计算他们的算数平均作为上下文向量;
5.4)分别计算该词的上下文向量和其不同词义的词表示之间的距离;
5.5)最终选择与该上下文向量距离最近的多义词向量作为该多义词在当前上下文中的词表示。
2.根据权利要求1所述的一种基于神经网络的多义词识别方法,其特征在于,步骤1.1)所述的语料库为与文本表示相关的任意语料库。
3.根据权利要求1或2所述的一种基于神经网络的多义词识别方法,其特征在于,步骤
2.1)所述的词向量训练工具包括word2vec、doc2vecC、以及基于它们的改进模型。
4.根据权利要求1或2所述的一种基于神经网络的多义词识别方法,其特征在于,步骤
3.1)所述的新的上下文窗口与word2vec中的上下文窗口相同,用于定义提取上下文的范围;步骤3.1)定义的新的上下文窗口尺寸不能大于步骤2.1)中预训练词表示时所定义的窗口尺寸。
5.根据权利要求3所述的一种基于神经网络的多义词识别方法,其特征在于,步骤3.1)所述的新的上下文窗口与word2vec中的上下文窗口相同,用于定义提取上下文的范围;步骤3.1)定义的新的上下文窗口尺寸不能大于步骤2.1)中预训练词表示时所定义的窗口尺寸。
6.根据权利要求1、2或5所述的一种基于神经网络的多义词识别方法,其特征在于,步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。
7.根据权利要求3所述的一种基于神经网络的多义词识别方法,其特征在于,步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。
8.根据权利要求4所述的一种基于神经网络的多义词识别方法,其特征在于,步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。
9.根据权利要求1、2、5、7或8所述的一种基于神经网络的多义词识别方法,其特征在于,步骤5.2)所述的上下文窗口与步骤3.1)定义的上下文窗口保持一致;步骤5.4)所述的距离的度量方式采取欧氏距离或余弦距离。
10.根据权利要求6所述的一种基于神经网络的多义词识别方法,其特征在于,步骤
5.2)所述的上下文窗口与步骤3.1)定义的上下文窗口保持一致;步骤5.4)所述的距离的度量方式采取欧氏距离或余弦距离。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于房产信息数据的智能服务防护方法及其系统 | 2020-05-08 | 331 |
基于机动车状态监控数据挖掘的驾驶风险防范方法及系统 | 2020-05-11 | 923 |
数据挖掘系统及方法 | 2020-05-08 | 948 |
一种基于改进粒子群优化SVM的空气质量预测算法 | 2020-05-08 | 994 |
基于条件的多媒体影像评论数据挖掘与处理方法及系统 | 2020-05-11 | 452 |
针对复杂环境的视觉传感水位测量系统 | 2020-05-12 | 367 |
深度机器学习所生成的乳腺癌预后的概率识别模型 | 2020-05-08 | 48 |
一种基于自拍抖音视图补充公安侦查数据集的方法 | 2020-05-11 | 635 |
一种高效的用户兴趣类别预测方法 | 2020-05-11 | 588 |
基于一张图的林业大数据建设方法 | 2020-05-11 | 703 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。