专利汇可以提供一种基于领域特征词法组合的文本模板生成方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于领域特征词法组合的文本模板生成方法,属于 自然语言处理 领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、 词性标注 等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成 算法 自动生成文本的模板。利用本发明 实施例 ,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可 迁移性 ,具有很大的实用价值。,下面是一种基于领域特征词法组合的文本模板生成方法专利的具体信息内容。
1.一种基于领域特征词法组合的文本模板生成方法,其特征在于,包括以下步骤:
步骤1:对大规模待处理原始文本进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤2:使用通用数值正则表达式集合,结合步骤1得到的词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
步骤3:将步骤2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
2.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法,其特征在于,所述步骤1具体包括:
(1.1)使用分词工具对文本列表进行清洗、分词、词性标注,得到带有词性标注的文本列表;
(1.2)对标注/n,/vn,/nz,/nt等名词进行词频统计,去掉单字,按词频倒序生成领域业务候选集;
(1.3)对标注/v,/vd等动词进行词频统计,去掉单字,按词频倒序生成业务操作候选集;
(1.4)对标注/d的副词进行词频统计,按词频倒序生成操作状态候选集;
(1.5)人工对上述候选集合进行特征选择,去掉噪声,得到领域业务词典,业务操作词典,操作状态词典。
3.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法,其特征在于,所述步骤(2)具体包括:
(2.1)使用步骤1得到的词典,对文本列表进行匹配和标注,得到初始标注序列;
(2.2)根据领域特征,将不同标记进行组合和替换,生成最终标记序列;
(2.3)基于标注序列的模板生成算法,即结合标注列表对文本列表进行替换,生成文本的模板。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种融合先验信息的命名实体链接方法 | 2020-05-12 | 964 |
一种基于机器学习的从半结构化文档中提取问答对的方法 | 2020-05-11 | 867 |
一种将病历文本从自然语言转换为结构化元数据的方法 | 2020-05-12 | 412 |
智能客服应答方法、系统以及控制器和介质 | 2020-05-12 | 702 |
一种用于智能质检服务禁语的识别方法及系统 | 2020-05-08 | 550 |
一种基于句法模式和机器学习的开放式关系的抽取方法 | 2020-05-12 | 583 |
多义词的翻译方法、装置、电子设备及介质 | 2020-05-14 | 866 |
文本要素提取方法、装置及电子设备 | 2020-05-11 | 180 |
针对虚拟人的性格训练系统及其方法 | 2020-05-12 | 120 |
用于语音助手搜索结果的集成打印的系统和方法 | 2020-05-08 | 335 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。