专利汇可以提供一种政务文本分类模型的构建方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种政务 文本分类 模型的构建方法,自动对政务文本数据进行分类,基本的步骤为:首先按照目前政务文本分类目录的20种种类数,选取尽可能多的已标记的政务分类文本,进行Word2vec的词向量库建设,接着借助权重TF-IDF 算法 ,计算每个词在不同类别中所占的比例,量化分类的权重,生成改进型的文本词向量,最后借助 卷积神经网络 从局部到全局的相关特征学习能 力 ,对政务分类文本进行 深度学习 ,提高政务领域内文本主题分类的精确度和效率。,下面是一种政务文本分类模型的构建方法专利的具体信息内容。
1.一种政务文本分类模型的构建方法,其特征在于:包括以下步骤:
①构建政务词向量库:构建政务文本主题分类领域的词向量库;
②构建词的权重:根据词向量库,通过权重TF-IDF算法,获取改进型的词向量;
③构建卷积神经网络:根据改进型的词向量,生成政务文本分类模型;
所述步骤②分为以下步骤:
(2.1)获取词语所占比重:根据词向量库中,每个词语出现在不同政务分类中的数目,获取在每个分类中该词语所占的比重;
(2.2)词的TF-IDF的值:根据TF-IDF算法,依次计算不同政务文本中词汇的TF-IDF的值;
(2.3)改进型词向量:根据步骤(2.1)和(2.2),获取改进型词向量。
2.如权利要求1所述的政务文本分类模型的构建方法,其特征在于:所示步骤①分为以下步骤:
(1.1)选择政务文本库:获取经过人工标注的政务文本分类的文本库;
(1.2)文本分词:借助标准的语料库,基于词语的统计进行政务文本的分词;
(1.3)文本过滤:去除分词中存在的与文本分类无关的词汇;
(1.4)One-hot编码:对文本过滤后的词汇,进行One-hot编码,将词汇数值化表示;
(1.5)构建训练样本:根据步骤(1.4),构建政务文本词库的训练样本;
(1.6)输入神经网络模型:输入神经网络模型,获取神经网络的层数、激活函数、分类方法、调优方法;
(1.7)模型训练:根据步骤(1.5),训练神经网络模型,获取训练后的神经网络模型;
(1.8)词向量库:根据步骤(1.7),获取政务文本分类领域的词向量库。
3.如权利要求2所述的政务文本分类模型的构建方法,其特征在于:所述步骤(1.2)中,采用jieba工具进行分词。
4.如权利要求2所述的政务文本分类模型的构建方法,其特征在于:所述步骤(1.3)中,与文本分类无关的词汇包括介词和谓词。
5.如权利要求1所述的政务文本分类模型的构建方法,其特征在于:所述步骤③分为以下步骤:
(3.1)搭建卷积神经网络模型:根据改进型的词向量的维度,选择输入层神经元的个数,确定隐藏层的层数和卷积核的个数、卷积核的尺寸、池化方法、全连接层的神经元个数、优化参数、学习率、分类模型;
(3.2)政务文本训练:基于训练集的政务文本分类训练,不断调优参数,进行数据验证,直至卷积神经网络模型稳定;
(3.3)生成政务文本分类模型:对卷积神经网络模型进行固化,生成政务文本分类模型。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于机器学习的棒束子通道热工水力特性预测方法 | 2020-05-08 | 77 |
一种基于神经网络的卫星外辐射源目标被动探测方法 | 2020-05-14 | 944 |
一种基于紫外光谱快速测定郁金-栀子水蒸气蒸馏提取过程多种成分含量的方法 | 2020-05-15 | 46 |
一种稻米加工在线工艺检测方法 | 2020-05-12 | 775 |
微震信号到时差的自动拾取方法 | 2020-05-13 | 859 |
数据通信方法、计算系统和存储介质 | 2020-05-11 | 813 |
基于人工智能的对象推荐模型训练方法、推荐方法及装置 | 2020-05-11 | 933 |
重建神经元质量检测方法、有序点云分类方法及装置 | 2020-05-16 | 910 |
一种基于神经网络的智能窗户调节方法及装置 | 2020-05-11 | 187 |
基于可形变配准和DCNN的宫颈MRI图像分割方法 | 2020-05-08 | 581 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。