专利汇可以提供留学文书智能自动创作系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了留学文书智能自动创作系统,涉及 自然语言处理 应用技术领域,包括数据预处理、模型构建、模型训练、辅助标注与生成新文书,所述数据预处理包含加载数据、转换数据、分割数据mini-batch,所述模型构建包括 输入层 ,LSTM层, 输出层 ,训练误差,损失率loss,优化optimizer。本发明为留学文书智能自动创作系统,有留学需求的用户只需要输入自己的个性化数据,比如毕业院校、专业、目标院校、专业、个人大学成绩、英语成绩、个人能 力 、擅长技能、才艺爱好等,能够快速优质的生成一篇高 质量 的文书,大大减少了留学过程中,因为文书质量差导致的留学失败问题,为广大想出国求学的大学生保驾护航,具备一定的使用前景。,下面是留学文书智能自动创作系统专利的具体信息内容。
1.留学文书智能自动创作系统,包括数据预处理、模型构建、模型训练、辅助标注与生成新文书,其特征在于:所述数据预处理包含加载数据、转换数据、分割数据mini-batch,所述模型构建包括输入层,LSTM层,输出层,训练误差,损失率loss,优化optimizer。
2.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述数据预处理中最重要的是建立字典和逆序字典的函数使用文本文件做为输入、训练RNN模型,然后使用它生成和训练数据类似的文本,训练样本里面(10万篇留学文书)得到每个字的字典(word->ID)和反向字典(ID->word);通过字典将每篇文章变为由ID组成的向量,再通过ID向量通过嵌入式循环,英文名称embedding_lookup变成“词”向量,而训练标签,英文名称train_label是由训练数据,英文名称train_data向后移一位得到的。
3.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述模型构建中LSTM模型使用tensorflow给的tf.nn.rnn_cell.BasicLSTMCell生成LSTM基本模型,最后使用sequence_loss_by_example得到损失函数作为训练目标,有512个LSTM单元的网络模型,设置模型参数对模型进行训练,常量和训练参数,训练过程中的每一步,3个符号都在训练数据中被检索,然后3个符号转化为整数以形成输入向量,将符号转化为整数向量作为输入,在转化为输入词典的格式后,再进行优化,训练过程中的优化,精度和损失被累积以监测训练过程;通常50000次迭代足以达到可接受的精度要求,一个训练间隔的预测和精度数据示例(间隔1000步),损失和优化器设计,LSTM的精度可以通过增加层来改善。
4.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述模型训练将全部的留学文书进行训练处理,最后通过build_dataset()转化成为得到留学文书的词典,留学文书向量和反向词典;得到预处理好的留学文书集合;采用的是2层的LSTM框架,每层有128个隐藏层节点,batch_size设为64,特别注意到的一点是这里每训练完一次就对训练数据做shuffle;输出的生成看起来似乎简单,但实际上LSTM为下一个符号生成了一个含有
112个元素的预测概率向量,并用softmax()函数归一化,有着最高概率值的元素的索引便是逆序字典中预测符号的索引值。
5.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述辅助标注针对专业、学校、既往经历规则、当前专业现状、专业发展历程、专业发展方向、学生个人履历、个人兴趣爱好、个人修养等各类别特征向量信息进行标注,进一步标注之后能够使训练数据集构造效率平均提高8倍,帮助自动文书生成写作系统更好的理解优秀文书的构成与内在逻辑,语法与润色要求,从而更快速准确的优化模型理解效果;在自然语言处理中,很多任务都可以转化为序列标注任务,针对字/词序列进行分类标记,例如命名实体识别(NER)、词性标注(Part-of-SpeechTagging)、事件提取(EventExtraction)等,本文以命名实体识别进行说明;命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括学校名称、专业名称、个人爱好、本科学校名称、本科专业、实习经历、英语成绩、项目经历等;命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤;标注模型介绍采用CRF模型来进行序列标注任务在标注部分我们采用了CRF层来进行实现。
6.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:所述生成新文书是经过漫长的模型训练,得到了一系列训练过程中保存下来的参数,利用这些参数来进行文本生成,当输入一个字符时,它会预测下一个,再将这个新的字符输入模型,就可以一直不断地生成字符,从而形成文本;为了减少噪音,每次的预测值会选择最可能的前5个进行随机选择,比如输入h,预测结果概率最大的前五个为[o,e,i,u,b],将随机从这五个中挑选一个作为新的字符,让过程加入随机因素会减少一些噪音的生成;截取了样本留学文书生成的留学文书中的前32个预测值,如果输入另一个序列,也就是根据用户个性化的信息定制,那么会自动生成另一个留学文书。
7.根据权利要求1所述的留学文书智能自动创作系统,其特征在于:留学文书智能自动创作系统包括以下步骤:
步骤一,首先对数据进行预处理,包括加载数据、转换数据、分隔数据mini-batc、建立字典和逆序字典的函数;
步骤二,后根据数据进行模型构建,包括输入层、LSTM层、输出层、训练误差,损失率loss与优化optimizer;
步骤三,根据建立好的模型进行模型训练,包括两层的LEST框架,留学文书进行训练处理;
步骤四,对各类别特征向量信息进行辅助标注,包括命名实体识别,CRF模型来进行序列标注任务;
步骤五,最终生成新文书,包括留学文书生成的留学文书中的前32个预测值。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于机器学习的从半结构化文档中提取问答对的方法 | 2020-05-08 | 518 |
互联网政治外交类新闻事件抽取方法 | 2020-05-13 | 81 |
一种电力营销知识体系平台及应用方法 | 2020-05-14 | 979 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种用于智能质检服务禁语的识别方法及系统 | 2020-05-08 | 805 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于双向长短期记忆网络的实体属性值的抽取方法 | 2020-05-11 | 571 |
一种基于事理推荐的逻辑图谱构建及预警方法和装置 | 2020-05-13 | 332 |
背景音乐的确定方法及相关设备 | 2020-05-13 | 173 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。