专利汇可以提供一种面向中文的预训练方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种面向中文的预训练方法及系统,包括:模型参数配置模 块 、预训练模型生成模块和服务封装模块。模型参数配置模块:主要针对用户需要根据自身需求定制中文预训练模型的情况,使其能够以友好的界面方式配置预训练模型的参数;预训练模型生成模块:根据用户提交的模型参数配置和预训练语料数据,训练一个中文预训练模型,并以模型文件的方式保存下来;服务封装模块:将模型文件封装成一个中文特征 抽取 器服务,并给用户提供相应的Docker镜像方便服务的部署。本发明专 门 针对大规模的无监督中文语料,提出了一种面向中文的预训练方法及系统,有效地提高了预训练方法在中文任务上的表现。,下面是一种面向中文的预训练方法及系统专利的具体信息内容。
1.一种面向中文的预训练系统,其特征在于:所述预训练系统包括模型参数配置模块、预训练模型生成模块和服务封装模块;其中:
模型参数配置模块,用于显示用户界面,以供用户自定义中文预训练模型的各个参数,配置的参数包括是否在模型中引入模型调优方法、更改预训练模型的超参数、以及指定三种不同级别的无监督预训练语料,所述的无监督预训练语料包括大规模通用语料、高质量通用语料和特定领域语料;
预训练模型生成模块,用于根据用户提供的模型配置文件训练中文预训练模型,所述的预训练模型为基于分级的预训练模型,同时使用了多种针对中文文本设计的模型调优方法,最终模型的网络结构和参数将以模型文件的形式保存下来;
服务封装模块,用于在预训练模型生成模块训练生成的预训练模型文件的基础上,部署一个中文特征抽取服务;对中文特征抽取服务进行封装,并给用户提供相应的Docker镜像,用户通过在本地或者服务器端运行该镜像,就可以快速部署一个中文特征抽取器的服务,从而可以抽取中文文本的上下文相关的语义表示,并将其应用于下游的中文任务中。
2.一种面向中文的预训练方法,其特征在于包括步骤如下:模型参数配置、预训练模型生成和服务封装;其中:
步骤S1: 模型参数配置:显示用户界面,以供用户自定义中文预训练模型的各个参数,配置的参数包括是否在模型中引入模型调优方法、更改预训练模型的超参数、以及指定三种不同级别的无监督预训练语料,所述的无监督预训练语料包括大规模通用语料、高质量通用语料和特定领域语料;
步骤S2: 预训练模型生成:根据用户提供的模型配置文件训练中文预训练模型,所述的预训练模型为基于分级的预训练模型,同时使用了多种针对中文文本设计的模型调优方法,最终模型的网络结构和参数将以模型文件的形式保存下来;
步骤S3: 服务封装:在步骤S2训练生成的预训练模型文件的基础上,部署一个中文特征抽取服务;对中文特征抽取服务进行封装,并给用户提供相应的Docker镜像,用户通过在本地或者服务器端运行该镜像,就可以快速部署一个中文特征抽取器的服务,从而可以抽取中文文本的上下文相关的语义表示,并将其应用于下游的中文任务中。
3.根据权利要求2所述的面向中文的预训练方法,其特征在于:步骤S2所述的预训练模型生成,具体过程如下:
S2.1: 配置文件加载:根据用户自定义的模型配置文件,决定是否在预训练模型中引入调优方法,从而加载预训练模型的网络结构和训练过程的超参数,以及不同级别的无监督训练语料;
S2.2: 文本预处理:对用户自定义的无监督语料进行清洗和文本切分的预处理操作,将处理后的文本序列作为预训练模型的输入;
S2.3: 模型训练:针对分层模型结构,使用不同级别的无监督语料,利用参数冻结的手段,使用多阶段的预训练方法,逐步训练模型的部分网络结构;
S2.4: 模型保存:在本地机器或者远程服务器运行模型的预训练过程;当模型迭代次数超过一定轮次,或者多次迭代后语言模型的损失函数没有下降时,停止预训练过程;将模型的网络结构和参数以模型文件的形式保存下来。
4.根据权利要求2所述的面向中文的预训练方法,其特征在于:步骤S2所述的基于分级的预训练模型,是通过设计分层的模型结构和多阶段的预训练方法,使预训练模型在兼顾语料集的质量和规模的同时,也能学习到更适用于特定领域的语义表示,具体如下:
所述的分层的模型结构包括大规模通用语义层、高质量通用语义层和特定领域语义层;其中,大规模通用语义层使用规模大但质量略低的通用领域语料进行训练,而高质量通用语义层则使用规模较小但相对质量高的通用领域语料训练网络结构,从而学习通用领域下文本的语义信息;特定领域语义层一般使用特定领域的语料来训练该层的网络结构,将模型之前学习到的通用语义表示进行调整,使其更适用于下游任务的特定领域;
所述的多阶段的预训练方法包括:第一阶段:只训练分层模型的第一层,即使用大规模的通用语料训练大规模通用语义层;第二阶段:使用高质量的通用语料训练模型的前两层,即包括大规模通用语义层和高质量通用语义层,此时大规模通用语义层的参数随训练过程中损失函数的优化而不断改变;第三阶段:使用特定领域语料在整个模型上训练语言模型任务,在这个阶段,利用冻结参数的手段,固定前两个通用语义层的参数保持不变,以防止破坏之前已训练好的通用语义表示。
5.根据权利要求2所述的面向中文的预训练方法,其特征在于:步骤S2所述的针对中文文本设计的模型调优方法,包括改进输入粒度、引入字形特征和引入联合学习,具体如下:
所述的改进输入粒度:基于字节对编码算法对输入文本进行预处理;具体为:在每轮迭代中,首先基于当前字典枚举所有的字节对,找到出现最频繁的一组字节对,然后将该字节对用一个未出现过的新字节来表征,并将此新字节添加到字典中,继续迭代,直到迭代次数达到固定的轮次;
所述的引入字形特征:在预训练模型的输入层使用卷积神经网络的结构,将中文的字形信息以特征的方式引入到模型中;对于任意输入文本,首先将其拆成偏旁的序列;预训练模型的输入层为每个偏旁初始化一个偏旁向量,则每个文本可对应一个二维向量矩阵;使用输入层的卷积神经网络结构对该二维向量矩阵进行卷积和池化操作,得到字形特征传给后续网络;
所述的引入联合学习:预训练模型的输出层引入联合学习,结合习语词典等外部知识,在预训练阶段联合学习语言模型任务和习语词汇的命名实体识别任务,模型最终的损失函数由这两个任务的损失函数相加得到。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种面向中文的预训练方法及系统 | 2020-05-08 | 967 |
一种基于虚拟机器人的VR操作引导及陪练方法和系统 | 2020-05-08 | 670 |
一种高精度测量仪器的数值个性化显示方法 | 2020-05-11 | 917 |
一种调控云平台的电网图形标准化系统 | 2020-05-13 | 468 |
一种智能卡登录Windows系统的方法及私有凭据提供装置 | 2020-05-11 | 841 |
一种连接选项显示方法、装置及计算机可读存储介质 | 2020-05-11 | 422 |
一种后台应用程序的管理方法、装置及智能设备 | 2020-05-12 | 336 |
一种集成有Android系统的DECT通讯装置 | 2020-05-14 | 105 |
一种基于线上线下双重社交关系的活动推荐系统及方法 | 2020-05-13 | 652 |
测量信息处理方法、装置、超声设备及存储介质 | 2020-05-13 | 451 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。