首页 / 专利库 / 人工智能 / 词性标注 / 留学文书智能自动创作系统

留学文书智能自动创作系统

阅读:673发布:2020-05-12

专利汇可以提供留学文书智能自动创作系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了留学文书智能自动创作系统,涉及 自然语言处理 应用技术领域,包括数据预处理、模型构建、模型训练、辅助标注与生成新文书,所述数据预处理包含加载数据、转换数据、分割数据mini-batch,所述模型构建包括 输入层 ,LSTM层, 输出层 ,训练误差,损失率loss,优化optimizer。本发明为留学文书智能自动创作系统,有留学需求的用户只需要输入自己的个性化数据,比如毕业院校、专业、目标院校、专业、个人大学成绩、英语成绩、个人能 力 、擅长技能、才艺爱好等,能够快速优质的生成一篇高 质量 的文书,大大减少了留学过程中,因为文书质量差导致的留学失败问题,为广大想出国求学的大学生保驾护航,具备一定的使用前景。,下面是留学文书智能自动创作系统专利的具体信息内容。

1.留学文书智能自动创作系统,包括数据预处理、模型构建、模型训练、辅助标注与生成新文书,其特征在于:所述数据预处理包含加载数据、转换数据、分割数据mini-batch,所述模型构建包括输入层,LSTM层,输出层,训练误差,损失率loss,优化optimizer。
2.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述数据预处理中最重要的是建立字典和逆序字典的函数使用文本文件做为输入、训练RNN模型,然后使用它生成和训练数据类似的文本,训练样本里面(10万篇留学文书)得到每个字的字典(word->ID)和反向字典(ID->word);通过字典将每篇文章变为由ID组成的向量,再通过ID向量通过嵌入式循环,英文名称embedding_lookup变成“词”向量,而训练标签,英文名称train_label是由训练数据,英文名称train_data向后移一位得到的。
3.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述模型构建中LSTM模型使用tensorflow给的tf.nn.rnn_cell.BasicLSTMCell生成LSTM基本模型,最后使用sequence_loss_by_example得到损失函数作为训练目标,有512个LSTM单元的网络模型,设置模型参数对模型进行训练,常量和训练参数,训练过程中的每一步,3个符号都在训练数据中被检索,然后3个符号转化为整数以形成输入向量,将符号转化为整数向量作为输入,在转化为输入词典的格式后,再进行优化,训练过程中的优化,精度和损失被累积以监测训练过程;通常50000次迭代足以达到可接受的精度要求,一个训练间隔的预测和精度数据示例(间隔1000步),损失和优化器设计,LSTM的精度可以通过增加层来改善。
4.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述模型训练将全部的留学文书进行训练处理,最后通过build_dataset()转化成为得到留学文书的词典,留学文书向量和反向词典;得到预处理好的留学文书集合;采用的是2层的LSTM框架,每层有128个隐藏层节点,batch_size设为64,特别注意到的一点是这里每训练完一次就对训练数据做shuffle;输出的生成看起来似乎简单,但实际上LSTM为下一个符号生成了一个含有
112个元素的预测概率向量,并用softmax()函数归一化,有着最高概率值的元素的索引便是逆序字典中预测符号的索引值。
5.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述辅助标注针对专业、学校、既往经历规则、当前专业现状、专业发展历程、专业发展方向、学生个人履历、个人兴趣爱好、个人修养等各类别特征向量信息进行标注,进一步标注之后能够使训练数据集构造效率平均提高8倍,帮助自动文书生成写作系统更好的理解优秀文书的构成与内在逻辑,语法与润色要求,从而更快速准确的优化模型理解效果;在自然语言处理中,很多任务都可以转化为序列标注任务,针对字/词序列进行分类标记,例如命名实体识别(NER)、词性标注(Part-of-SpeechTagging)、事件提取(EventExtraction)等,本文以命名实体识别进行说明;命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括学校名称、专业名称、个人爱好、本科学校名称、本科专业、实习经历、英语成绩、项目经历等;命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤;标注模型介绍采用CRF模型来进行序列标注任务在标注部分我们采用了CRF层来进行实现。
6.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述生成新文书是经过漫长的模型训练,得到了一系列训练过程中保存下来的参数,利用这些参数来进行文本生成,当输入一个字符时,它会预测下一个,再将这个新的字符输入模型,就可以一直不断地生成字符,从而形成文本;为了减少噪音,每次的预测值会选择最可能的前5个进行随机选择,比如输入h,预测结果概率最大的前五个为[o,e,i,u,b],将随机从这五个中挑选一个作为新的字符,让过程加入随机因素会减少一些噪音的生成;截取了样本留学文书生成的留学文书中的前32个预测值,如果输入另一个序列,也就是根据用户个性化的信息定制,那么会自动生成另一个留学文书。
7.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:留学文书智能自动创作系统包括以下步骤:
步骤一,首先对数据进行预处理,包括加载数据、转换数据、分隔数据mini-batc、建立字典和逆序字典的函数;
步骤二,后根据数据进行模型构建,包括输入层、LSTM层、输出层、训练误差,损失率loss与优化optimizer;
步骤三,根据建立好的模型进行模型训练,包括两层的LEST框架,留学文书进行训练处理;
步骤四,对各类别特征向量信息进行辅助标注,包括命名实体识别,CRF模型来进行序列标注任务;
步骤五,最终生成新文书,包括留学文书生成的留学文书中的前32个预测值。

说明书全文

留学文书智能自动创作系统

技术领域

[0001] 本发明涉及自然语言处理应用技术领域,具体为留学文书智能自动创作系统。

背景技术

[0002] 目前有百度AI智能创作平台、阿里创作平台等,但是这些平台均为通用类创作平台,技术体系偏向新闻类、购物类、热点追踪类等创作,在留学文书创作方面没有垂直定制化的解决方案,因此该行业亟需一款能够智能化自动创作的留学文书只能系统,现有的技术覆盖信息抽取、学生信息挖掘、高校专业解读等方面均没有优秀的机器学习算法和规模化的训练数据,在知识抽取、图谱构建、策略训练方面均无法达到文书创作的要求,为此,提出了留学文书智能自动创作系统。

发明内容

[0003] 本发明留学文书智能自动创作系统,能够快速优质的生成一篇高质量的文书,大大减少了留学过程中,因为文书质量差导致的留学失败问题,为广大想出国求学的大学生保驾护航。
[0004] 为实现上述目的,本发明提供如下技术方案:留学文书智能自动创作系统,包括数据预处理、模型构建、模型训练、辅助标注与生成新文书,所述数据预处理包含加载数据、转换数据、分割数据mini-batch,所述模型构建包括输入层,LSTM层,输出层,训练误差,损失率loss,优化optimizer。
[0005] 优选的,所述数据预处理中最重要的是建立字典和逆序字典的函数使用文本文件做为输入、训练RNN模型,然后使用它生成和训练数据类似的文本,训练样本里面(10万篇留学文书)得到每个字的字典(word->ID)和反向字典(ID->word);通过字典将每篇文章变为由ID组成的向量,再通过ID向量通过嵌入式循环,英文名称embedding_lookup变成“词”向量,而训练标签,英文名称train_label是由训练数据,英文名称train_data向后移一位得到的。
[0006] 优选的,所述模型构建中LSTM模型使用tensorflow给的tf.nn.rnn_cell.BasicLSTMCell生成LSTM基本模型,最后使用sequence_loss_by_example得到损失函数作为训练目标,有512个LSTM单元的网络模型,设置模型参数对模型进行训练,常量和训练参数,训练过程中的每一步,3个符号都在训练数据中被检索,然后3个符号转化为整数以形成输入向量,将符号转化为整数向量作为输入,在转化为输入词典的格式后,再进行优化,训练过程中的优化,精度和损失被累积以监测训练过程;通常50000次迭代足以达到可接受的精度要求,一个训练间隔的预测和精度数据示例(间隔1000步),损失和优化器设计,LSTM的精度可以通过增加层来改善。
[0007] 优选的,所述模型训练将全部的留学文书进行训练处理,最后通过build_dataset()转化成为得到留学文书的词典,留学文书向量和反向词典;得到预处理好的留学文书集合;采用的是2层的LSTM框架,每层有128个隐藏层节点,batch_size设为64,特别注意到的一点是这里每训练完一次就对训练数据做shuffle;输出的生成看起来似乎简单,但实际上LSTM为下一个符号生成了一个含有112个元素的预测概率向量,并用softmax()函数归一化,有着最高概率值的元素的索引便是逆序字典中预测符号的索引值。
[0008] 优选的,所述辅助标注针对专业、学校、既往经历规则、当前专业现状、专业发展历程、专业发展方向、学生个人履历、个人兴趣爱好、个人修养等各类别特征向量信息进行标注,进一步标注之后能够使训练数据集构造效率平均提高8倍,帮助自动文书生成写作系统更好的理解优秀文书的构成与内在逻辑,语法与润色要求,从而更快速准确的优化模型理解效果;在自然语言处理中,很多任务都可以转化为序列标注任务,针对字/词序列进行分类标记,例如命名实体识别(NER)、词性标注(Part-of-SpeechTagging)、事件提取(EventExtraction)等,本文以命名实体识别进行说明;命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括学校名称、专业名称、个人爱好、本科学校名称、本科专业、实习经历、英语成绩、项目经历等;命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤;标注模型介绍采用CRF模型来进行序列标注任务在标注部分我们采用了CRF层来进行实现。
[0009] 优选的,所述生成新文书是经过漫长的模型训练,得到了一系列训练过程中保存下来的参数,利用这些参数来进行文本生成,当输入一个字符时,它会预测下一个,再将这个新的字符输入模型,就可以一直不断地生成字符,从而形成文本;为了减少噪音,每次的预测值会选择最可能的前5个进行随机选择,比如输入h,预测结果概率最大的前五个为[o,e,i,u,b],将随机从这五个中挑选一个作为新的字符,让过程加入随机因素会减少一些噪音的生成;截取了样本留学文书生成的留学文书中的前32个预测值,如果输入另一个序列,也就是根据用户个性化的信息定制,那么会自动生成另一个留学文书。
[0010] 优选的,留学文书智能自动创作系统包括以下步骤:
[0011] 步骤一,首先对数据进行预处理,包括加载数据、转换数据、分隔数据mini-batc、建立字典和逆序字典的函数;
[0012] 步骤二,后根据数据进行模型构建,包括输入层、LSTM层、输出层、训练误差,损失率loss与优化optimizer;
[0013] 步骤三,根据建立好的模型进行模型训练,包括两层的LEST框架,留学文书进行训练处理;
[0014] 步骤四,对各类别特征向量信息进行辅助标注,包括命名实体识别,CRF模型来进行序列标注任务;
[0015] 步骤五,最终生成新文书,包括留学文书生成的留学文书中的前32个预测值。
[0016] 与现有技术相比,本发明的有益效果是:本发明留学文书智能自动创作系统,有留学需求的用户只需要输入自己的个性化数据,比如毕业院校、专业、目标院校、专业、个人大学成绩、英语成绩、个人能、擅长技能、才艺爱好等,能够快速优质的生成一篇高质量的文书,大大减少了留学过程中,因为文书质量差导致的留学失败问题,为广大想出国求学的大学生保驾护航,具备一定的使用前景。附图说明
[0017] 图1为本发明留学文书智能自动创作系统流程图

具体实施方式

[0018] 为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
[0019] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0020] 请参阅图1,本发明提供一种技术方案:留学文书智能自动创作系统,包括数据预处理、模型构建、模型训练、辅助标注与生成新文书,数据预处理包含加载数据、转换数据、分割数据mini-batch,模型构建包括输入层,LSTM层,输出层,训练误差,损失率loss,优化optimizer。
[0021] 如附图1中S10所示,数据预处理中最重要的是建立字典和逆序字典的函数使用文本文件做为输入、训练RNN模型,然后使用它生成和训练数据类似的文本,训练样本里面(10万篇留学文书)得到每个字的字典(word->ID)和反向字典(ID->word);通过字典将每篇文章变为由ID组成的向量,再通过ID向量通过嵌入式循环,英文名称embedding_lookup变成“词”向量,而训练标签,英文名称train_label是由训练数据,英文名称train_data向后移一位得到的。
[0022] 如附图1中S20所示,模型构建中LSTM模型使用tensorflow给的tf.nn.rnn_cell.BasicLSTMCell生成LSTM基本模型,最后使用sequence_loss_by_example得到损失函数作为训练目标,有512个LSTM单元的网络模型,设置模型参数对模型进行训练,常量和训练参数,训练过程中的每一步,3个符号都在训练数据中被检索,然后3个符号转化为整数以形成输入向量,将符号转化为整数向量作为输入,在转化为输入词典的格式后,再进行优化,训练过程中的优化,精度和损失被累积以监测训练过程;通常50000次迭代足以达到可接受的精度要求,一个训练间隔的预测和精度数据示例(间隔1000步),损失和优化器设计,LSTM的精度可以通过增加层来改善。
[0023] 如附图1中S30所示,模型训练将全部的留学文书进行训练处理,最后通过build_dataset()转化成为得到留学文书的词典,留学文书向量和反向词典;得到预处理好的留学文书集合;采用的是2层的LSTM框架,每层有128个隐藏层节点,batch_size设为64,特别注意到的一点是这里每训练完一次就对训练数据做shuffle;输出的生成看起来似乎简单,但实际上LSTM为下一个符号生成了一个含有112个元素的预测概率向量,并用softmax()函数归一化,有着最高概率值的元素的索引便是逆序字典中预测符号的索引值。
[0024] 如附图1中S40所示,辅助标注针对专业、学校、既往经历规则、当前专业现状、专业发展历程、专业发展方向、学生个人履历、个人兴趣爱好、个人修养等各类别特征向量信息进行标注,进一步标注之后能够使训练数据集构造效率平均提高8倍,帮助自动文书生成写作系统更好的理解优秀文书的构成与内在逻辑,语法与润色要求,从而更快速准确的优化模型理解效果;在自然语言处理中,很多任务都可以转化为序列标注任务,针对字/词序列进行分类标记,例如命名实体识别(NER)、词性标注(Part-of-SpeechTagging)、事件提取(EventExtraction)等,本文以命名实体识别进行说明;命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括学校名称、专业名称、个人爱好、本科学校名称、本科专业、实习经历、英语成绩、项目经历等;命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤;标注模型介绍采用CRF模型来进行序列标注任务在标注部分我们采用了CRF层来进行实现。
[0025] 如附图1中S50所示,生成新文书是经过漫长的模型训练,得到了一系列训练过程中保存下来的参数,利用这些参数来进行文本生成,当输入一个字符时,它会预测下一个,再将这个新的字符输入模型,就可以一直不断地生成字符,从而形成文本;为了减少噪音,每次的预测值会选择最可能的前5个进行随机选择,比如输入h,预测结果概率最大的前五个为[o,e,i,u,b],将随机从这五个中挑选一个作为新的字符,让过程加入随机因素会减少一些噪音的生成;截取了样本留学文书生成的留学文书中的前32个预测值,如果输入另一个序列,也就是根据用户个性化的信息定制,那么会自动生成另一个留学文书。
[0026] 本发明中深度神经网络平台TensorFlow:最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究。
[0027] 循环神经网络RNN:
[0028] RNN是非常流行的模型,在NLP的很多任务中已经展示出了很大的威力。基于RNN的语言模型(rnnlm)有两个方面的应用:基于每个序列在现实世界中出现的可能性对其进行打分,这实际上提供了一个针对语法和语义正确性的度量,语言模型通常为作为机器翻译系统的一部分;语言模型可以用来生成新文本。
[0029] 长短期记忆模型LSTM英文全称Long Short Term Memory;
[0030] LSTM一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此LSTM模型被提出;
[0031] Bi-LSTM英文全称Bi-Long Short Term Memory Units,指的是双向LSTM;CRF英文全程Conditional random field,指的是条件随机场;留学文书智能自动创作系统英文全称Intelligence literature system of personalstatement,指的是奇点留学智能化文书自创作系统。
[0032] 1、参数的调优
[0033] 在模型训练之前,首先初始化一些参数,参数主要有:batch_size:单个batch中序列的个数,调整为64;num_steps:单个序列中字符数目调整为50;lstm_size:隐层结点个数,调整为128;num_layers:LSTM层个数,调整为3层;learning_rate:学习率,调整为0.001;keep_prob:训练时dropout层中保留结点比例,调整为80%。
[0034] 2、训练模型的优化
[0035] RNN会遇到梯度爆炸和梯度弥散的问题,LSTM解决了梯度弥散的问题,但是gradients仍然可能会爆炸,因此我们采用gradient-clippling的方式来防止梯度爆炸。即通过设置一个阈值,当gradients超过这个阈值时,就将它重置为阈值大小,这就保证了梯度不会变得很大。另外优化算法做clip和逐级降低学习率。
[0036] 3、辅助标注个性化
[0037] 与传统的通用标注方案不同,本系统采用极具留学文书个性化的标注方案,针对专业、学校、既往经历规则、当前专业现状、专业发展历程、专业发展方向、学生个人履历、个人兴趣爱好、个人修养等各类别特征向量信息进行标注;进一步标注之后能够使训练数据集构造效率平均提高8倍,帮助自动文书生成写作系统更好的理解优秀文书的构成与内在逻辑,语法与润色要求,从而更快速准确的优化模型理解效果。
[0038] 表述了留学文书智能自动创作系统的主要步骤,本实施例中,包括以下步骤:
[0039] 步骤一,首先对数据进行预处理,包括加载数据、转换数据、分隔数据mini-batc、建立字典和逆序字典的函数;
[0040] 步骤二,后根据数据进行模型构建,包括输入层、LSTM层、输出层、训练误差,损失率loss与优化optimizer;
[0041] 步骤三,根据建立好的模型进行模型训练,包括两层的LEST框架,留学文书进行训练处理;
[0042] 步骤四,对各类别特征向量信息进行辅助标注,包括命名实体识别,CRF模型来进行序列标注任务;
[0043] 步骤五,最终生成新文书,包括留学文书生成的留学文书中的前32个预测值。
[0044] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈