专利汇可以提供一种面向知识管理的自定义知识分类方法专利检索,专利查询,专利分析的服务。并且本 发明 属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配 算法 来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。,下面是一种面向知识管理的自定义知识分类方法专利的具体信息内容。
1.一种面向知识管理的自定义知识分类方法,其特征在于:
步骤一、对知识管理系统中相关定义进行说明,具体如下:
定义1:知识管理系统中每个具体分类称为子类,记为c;
定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS;
定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi}(i=0,1,2…n),所有子类关键词E{keyi}(i=
0,1,2…n)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键的下标,n表示子类中关键词的个数;
定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类;
定义5:在给定文档集合D{d1,d2…di…dm},其中,i代表文档下标,m代表文档集合总数量;
步骤二、用户自定义一个类组C{c1,c2…ci…cn},其中,i表示子类的下标,n表示类组包含的子类数;
步骤三、为每个子类ci添加自定义的子类关键词keysi;
步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi};
步骤五、把类组C所有子类ci的扩展子类关键词E{keysi}合并为关键词集合其中
代表关键词集合中下标为h的关键词项,Kh代表关键词,其后面()中的c表示关键词Kh包含在子类c中,sh代表包含关键词Kh的子类数;t代表关键词集合元素数;
步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数;
首先要对模式串的集合进行预处理,预处理阶段将建立三个表格:SHIFT表,HASH表,SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离,HASH表用来存储匹配窗口内尾字符散列值相同的模式串,PREFIX表用来存储匹配窗口内首字符散列值相同的模式串;
步骤七、把关键词集合KEYS看做多模式匹配中的模式串,把文档di看做多模式匹配中的文本串,利用Wu-Manber多模式匹配算法进行关键词匹配,记录匹配成功的关键词来自的子类ci和匹配的位置,每个文档包括标题Title、摘要Abstract和正文Text,统计每个扩展子类关键词E{keysi}在文档di各个位置中出现的次数,分别记为counti{Title}、counti{Abstract}和counti{Text};
步骤八、确定文档的类别:
假设在一个文档d中关键词命中率最高的子类为文档最终所属的类别。
其中,代表最佳分类标号,i代表自定义子类的下标,Counti表示子类ci在文档d中的命中率;
最终子类ci在一个文档d中的命中率定义如下式:
Counti = α·counti{Title}+β·counti{Abstract}+γ·counti{Text} 其中α,β,γ(α>β>λ)分别为关键词出现在文档d标题、摘要和正文的权重,counti{Title}、counti{Abstract}、counti{Text}分别代表文档d标题、摘要和正文出现关键词的个数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
映射摘要和本地化 | 2020-05-11 | 770 |
单文档摘要生成方法 | 2020-05-12 | 526 |
摘要生成装置和摘要生成方法 | 2020-05-11 | 290 |
视频摘要提取 | 2020-05-11 | 588 |
摘要的作成方法和装置 | 2020-05-12 | 253 |
摘要评估装置和方法 | 2020-05-13 | 529 |
一种自动文本摘要方法 | 2020-05-13 | 741 |
内容摘要验证接口方法 | 2020-05-12 | 347 |
视频摘要生成方法和视频摘要生成装置 | 2020-05-13 | 887 |
图文摘要的评价方法 | 2020-05-13 | 768 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。