专利汇可以提供基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 别名 标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本发明领域专业词汇词嵌入向量训练方法的实施步骤包括:获取领域专业词汇的正规名称及其别名,建立别名表;对训练文献进行别名标准化;使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的 命名实体 识别奠定了坚实的 基础 。,下面是基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质专利的具体信息内容。
1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
2.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
3.根据权利要求2所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括一个正规名称和与该正规名称具有相同含义的所有别名的列表。
4.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
5.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤3)中的词嵌入向量计算工具为word2vec。
6.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,其特征在于包括:
映射输入程序单元,用于获取领域专业词汇的正规名称及其别名,建立别名表;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
别名词嵌入向量修改程序单元,用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
7.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
8.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,其特征在于,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
及介质
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于6W业务逻辑模型的数据元智能标识解析方法 | 2020-05-17 | 881 |
程序打包方法、程序打包装置及计算机可读存储介质 | 2020-05-19 | 321 |
一种程序中指针别名分析方法 | 2020-05-20 | 460 |
一种实体信息图谱生成方法及装置 | 2020-05-20 | 104 |
一种敏感表群体发现方法及系统 | 2020-05-11 | 877 |
基于创建者提供的内容来定制交互式对话应用 | 2020-05-12 | 391 |
一种基于图结构分析的IP别名解析方法 | 2020-05-20 | 204 |
一种网络广告数据高并发访问服务方法 | 2020-05-17 | 557 |
通讯地址标准化的系统及其方法 | 2020-05-16 | 327 |
一种基于信息抽取的网络安全法案件智能研判方法 | 2020-05-17 | 625 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。