首页 / 专利库 / 视听技术与设备 / 光学乐谱识别 / 古谱及古文化知识图谱自然语言处理方法

古谱及古文化知识图谱自然语言处理方法

阅读:648发布:2020-05-15

专利汇可以提供古谱及古文化知识图谱自然语言处理方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种古谱及古文化知识图谱 自然语言处理 方法,包括:根据古谱和古文化专业知识,创建古谱及古文化的知识图谱的模式;获取数据和 抽取 信息;融合知识,包括链接实体和合并知识;集成古谱及古文化 知识库 模式与数据,解决模式和数据的冲突。本发明在古谱研究领域使用自然语言处理技术和知识图谱技术,用图形显示古谱知识发展 进程 与结构关系,用 可视化 技术描述古谱知识资源及其载体,挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构,达到多学科融合,为古谱学科研究提供有价值的参考。,下面是古谱及古文化知识图谱自然语言处理方法专利的具体信息内容。

1.一种古谱及古文化知识图谱自然语言处理方法,其特征在于,包括步骤:
创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=;模式图Gs=,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=,Nd表示实例节点和字符节点,Pd表示属性边,Ed表示由多条边连接的两个节点之间的关系;每条边和边两边的节点表示主语、谓语和宾语;
获取数据和抽取信息:从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据;对于图片内容,采取光学字符识别OCR与对象识别技术进行辨识取样;对于文字数据,通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位,基于有向无环图和使用Viterbi算法套用HMM模型处理;抽取信息,从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;抽取信息首先进行实体抽取,从文字数据中自动抽取命名实体,其次提取出实体之间的关联关系,最后获得特定实体的属性信息,以获得完整的数据信息;
融合知识:获取实体、关联关系以及实体的属性信息以后,为消除概念歧义、避免冗余和错误信息,实现实体链接,采用实体消歧方法用于解决同名实体产生歧义的问题;共指消解用于解决多个指称项对应于同一实体对象的问题;将现有的关系型数据库中的结构化数据融入到知识图谱中,采用资源描述框架RDF作为数据模型,将关系型数据库的数据转换成RDF的三元组数据,表示成<主语,谓语,宾语>这样的结构;从多源数据抽取数据会出现数据重复或者冲突问题,对数据源进行可信度评分,基于数据来源以及在不同来源中出现的频度,对数据项进行排序,补充至相应属性值字段中,将数据源正规化后存入知识图谱的索引数据库中;以及
集成古谱及古文化知识库模式与数据:基于以上步骤,获得结构化和网络化的知识体系;建立模式过程中,当出现数据冲突,或者无法确认数据源质量时,由古谱及古文化专家人工评定,确定最终结果。
2.如权利要求1所述的古谱及古文化知识图谱自然语言处理方法,其特征在于:在创建的古谱及古文化的知识图谱的模式中,所述数据图的数据来自古谱库和古文化库。
3.如权利要求1所述的古谱及古文化知识图谱自然语言处理方法,其特征在于:在创建的古谱及古文化的知识图谱的模式中,包含古谱概念的属性、具体每一首乐谱的属性和古文化概念的属性。
4.如权利要求3所述的古谱及古文化知识图谱自然语言处理方法,其特征在于:所述古谱概念的属性包括古谱名称、分类、编著者、年代、版本、印刷法、现藏和题解中的一种或多种。
5.如权利要求3所述的古谱及古文化知识图谱自然语言处理方法,其特征在于:所述具体每一首乐谱的属性包括谱名、分类、传谱人、抄谱年代、曲调、材质及印刷、规格、现藏和题解中的一种或多种。
6.如权利要求3所述的古谱及古文化知识图谱自然语言处理方法,其特征在于:所述古文化概念的属性包括种类和朝代中的一种或多种。
7.如权利要求1所述的古谱及古文化知识图谱自然语言处理方法,其特征在于:还包括:在建立了古谱及古文化知识图谱的基础后,建立古谱及古文化的知识图谱的问答引擎架构。
8.如权利要求7所述的古谱及古文化知识图谱自然语言处理方法,其特征在于,利用所述问答引擎架构进行基于知识图谱的分词、模板匹配及模板的翻译执行。

说明书全文

古谱及古文化知识图谱自然语言处理方法

技术领域

[0001] 本发明涉及一种知识图谱生成方法,尤其涉及一种古谱及古文化知识图谱自然语言处理方法。

背景技术

[0002] 知识图谱是在大数据的时代背景下产生的一种新型的海量知识管理与服务模式。它是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,能够捕捉并呈现领域概念之间的语义关系。国内外互联网公司纷纷推出知识图谱以提升服务质量,如谷歌知识图谱、百度“知心”和搜狗的“知立方”。然而,在古谱研究领域,目前还没有能够提供类似功能的知识图谱。现今普遍的古谱研究集中在单一作曲的研究中,未能利用知识图谱技术扩展其研究方向,将古谱与古文化结合。

发明内容

[0003] 鉴于上述现有技术中存在或潜在的不足之处,本发明提供了一种知识图谱生成方法,利用大数据处理技术和自然语言处理方法,生成古谱及古文化知识图谱,对古谱研究提供技术支撑
[0004] 为实现上述目的,本发明提供了一种古谱及古文化知识图谱自然语言处理方法,其包括:
[0005] 创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=;模式图Gs=,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=,Nd表示实例节点和字符节点,Pd表示属性边,Ed表示有多条边连接的两个节点之间的关系;每条边和边两边的节点表示主语、谓语和宾语;
[0006] 获取数据和抽取信息:从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据;对于图片内容,可采取光学字符识别OCR(Optical  Character Recognition)与Object Detection(对象识别)技术进行辨识取样;对于文字数据,可通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位,基于有向无环图(DAG)和使用Viterbi算法套用HMM模型处理;抽取信息,即从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;抽取信息首先需要进行实体抽取,主要是从大量文字数据中自动抽取命名实体,其实需要提取出实体之间的关联关系,最后还需要获得特定实体的属性信息,以获得完整的数据信息;
[0007] 融合知识:获取实体、关系以及实体属性信息以后,为消除概念歧义、避免冗余和错误信息,需要实现实体链接,实体消歧(entity disambiguation)方法会用于解决同名实体产生歧义的问题;共指消解(Coreference Resolution)用于解决多个指称项对应于同一实体对象的问题;将现有的关系型数据库中的结构化数据融入到知识图谱中,可采用资源描述框架RDF作为数据模型,将关系型数据库的数据转换成RDF的三元组数据,即表示成<主语,谓语,宾语>这样的结构;从多源数据抽取数据会出现数据重复或者冲突问题,对数据源进行可信度评分,基于数据来源以及在不同来源中出现的频度,对数据项进行排序,补充至相应属性值字段中,将数据源正规化后存入知识图谱的索引数据库中;以及
[0008] 集成古谱及古文化知识库模式与数据:基于以上步骤,可以获得结构化和网络化的知识体系;建立模式过程中,当出现数据冲突,或者无法确认数据源质量时,由古谱及古文化专家人工评定,确定最终结果。
[0009] 采用上述技术方案,本发明在古谱研究领域使用自然语言处理技术和知识图谱技术,用图形显示古谱知识发展进程与结构关系,用可视化技术描述古谱知识资源及其载体,挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构,达到多学科融合,为古谱学科研究提供有价值的参考。
[0010] 在一些可能的设计中,在创建的古谱及古文化的知识图谱的模式中,所述数据图的数据来自古谱库和古文化库。
[0011] 在一些可能的设计中,在创建的古谱及古文化的知识图谱的模式中,包含古谱概念的属性、具体每一首乐谱的属性和古文化概念的属性。。
[0012] 在一些可能的设计中,所述古谱概念的属性包括古谱名称、分类、编著者、年代、版本、印刷法、现藏和题解中的一种或多种。
[0013] 在一些可能的设计中,所述具体某一乐谱的属性包括谱名、分类、传谱人、抄谱年代、曲调、材质及印刷、规格、现藏和题解中的一种或多种。
[0014] 在一些可能的设计中,所述古文化概念的属性包括种类和朝代中的一种或多种。
[0015] 在一些可能的设计中,在所述抽取信息的步骤中,数据源包括现有的图片及文字以及互联网上的相关图片及文字。
[0016] 在一些可能的设计中,所述方法还包括:在建立了古谱及古文化知识图谱的基础后,建立古谱及古文化知识反馈,解决模式与数据的冲突。
[0017] 在一些可能的设计中,利用所述问答引擎架构进行基于知识图谱的分词、模板匹配及模板的翻译执行。附图说明
[0018] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019] 图1为本发明实施例的构建古谱及古文化知识图谱的流程图
[0020] 图2为本发明实施例中知识图谱的数据图的示意图。
[0021] 图3为本发明实施例中明代古谱与古文化知识图谱的示意图。
[0022] 图4为本发明实施例中的基于古谱及古文化知识图谱的问答引擎架构的示意图。

具体实施方式

[0023] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
[0024] 本发明主要提供了一种基于自然语言处理的古谱及古文化知识图谱,涉及一种知识图谱生成方法,利用大数据处理技术和自然语言处理方法,生成古谱及古文化知识图谱,对古谱研究提供技术支撑。
[0025] 利用自然语言处理技术和知识图谱相关知识可以建立知识图谱,知识图谱的构建流程包括利用实体萃取、文本抽取、关系数据转换、数据融合、集成知识库模式与数据。目前,在古谱研究中,并未应用自然语言处理技术及知识图谱,本发明在古谱研究中引入了自然语言处理技术及知识图谱,将人类认知信息转换为数字信息和易理解的图,利用计算机处理方法和互联网相关技术为古谱研究提供新的思路和方法。下面结合附图和具体实施例来对本发明做进一步详细说明。
[0026] 参阅图1所示,图中释义了本发明古谱及古文化知识图谱自然语言处理方法的一种实现方式,其主要包括以下几个步骤:1、创建古谱及古文化的知识图谱的模式;2、获取数据和抽取信息;3、融合知识;4、集成古谱及古文化知识库模式与数据。
[0027] 下面对每一步骤进行展开说明。
[0028] 1、根据古谱专业知识,创建古谱及古文化的知识图谱的模式:
[0029] 定义古谱知识图谱G由古谱模式图Gs、古谱数据图Gd以及两者(Gs和Gd)之间的关系R组成,即G=;模式图Gs=,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=,Nd表示实例节点和字符节点,Pd表示属性边,使用Ed表示由多条边连接的两个节点之间的关系。每条边和边两边的节点都表示主语、谓语和宾语。
[0030] 古谱概念的属性有古谱名称、分类、编著者、年代、版本、印刷法、现藏和题解;
[0031] 具体某一乐谱的属性有谱名、分类、传谱人、抄谱年代、曲调、材质及印刷、规格、现藏和题解;
[0032] 古文化概念的属性包括如种类和朝代。
[0033] 数据图:目前知识图谱包括古谱库和古文化库,这两个库高度相关,利用知识图谱,可以建立数据之间的关联,为古谱研究提供支持作用。图2描述了一个数据图的实例,图3描述了一个明代古谱与古文化知识图谱的实例。
[0034] 2、获取数据和抽取信息:
[0035] 古谱数据来源有两方面,现有的图片及文字以及互联网上的相关图片及文字。对于图片内容,可采取光学字符识别OCR(Optical Character Recognition)与Object Detection(对象识别)技术进行辨识取样。对于文字数据,可通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位,基于有向无环图(DAG,Database Availability Group)和使用Viterbi(维特比)算法套用HMM(隐尔可夫,Hidden Markov Model)模型处理。
[0036] 文本抽取目标是从古谱及古文化相关的文字信息中获取词汇,具体实现过程包括以下步骤:
[0037] 第一步,首先利用语句迭代器将古谱及古文化相关文本划分为可以处理的片段。语句迭代器对处理文本的长度无限制。
[0038] 第二步,语句迭代器输出文本片段后,利用分词器(Tokenizer)将文本进一步切分为单词,
[0039] 第三步,基于切分后的单词,为每份文档生成词汇表。重要的词及其统计信息都存储在词汇表缓存中。区分重要和非重要的词的基本思路是:只出现一次或者出现少于五次的词较难学习,将其视为无益的噪声信号。词汇表缓存保存着Word2vec和词袋等方法所需的元数据。Word2vec生成词的向量表示,亦称为神经词向量。词向量可以长至包含几百个系数,而这些系数帮助神经网络预测一个词在任何特定语境中的出现概率,例如在另一个特定的词之后出现的概率。
[0040] 抽取信息,即从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。抽取信息首先需要进行实体抽取,也叫命名实体识别(Named entity recognition,又译「专名识别」),主要是从大量文字数据中自动抽取命名实体,实体识别是信息抽取中最关键和基础的部分,会极大影响后续知识的获取效率和质量。抽取实体后,还需要提取出实体之间的关联关系,才可以得到语义信息,同时还需要获得特定实体的属性信息,以获得完整的数据信息。
[0041] 3、融合知识:链接实体和合并知识
[0042] 获取实体、关系以及实体属性信息以后,为消除概念歧义、避免冗余和错误信息,需要实现实体链接,实体消歧(entity disambiguation)方法会用于解决同名实体产生歧义的问题。
[0043] 共指消解(Coreference Resolution)用于解决多个指称项对应于同一实体对象的问题。比如魏氏乐谱、魏氏乐和明乐均指同一概念,即指魏氏乐谱,是明末海商魏之琰将明代的一些乐曲传到日本后,由其四世孙魏皓对外传授并编辑出版的诗词乐谱。
[0044] 构建知识图谱时,需要从企业或者机构自有的数据库获取知识输入。将结构化的数据融入到知识图谱中,可采用资源描述框架RDF(Resource Description Framework)作为数据模型,将关系型数据库的数据转换成RDF的三元组数据。可采用W3C在2012年推出的映射语言标准Direct Mapping,将关系数据库表结构和数据直接输出为RDF图,在RDF图中所用到的用于表示类和谓词的属于与关系数据库中的表名和字段名保持一致。
[0045] 从多源数据抽取数据会出现数据重复或者冲突问题,为解决此问题,采用对数据源可信度评分的方式。评分基于数据来源以及在不同来源中出现的频度,排序数据项的先后顺序,补充至相应属性值字段中。最终所有数据源都会被正规化后存入索引数据库中。
[0046] 4、集成知识库模式与数据:
[0047] 以上的步骤获得了事实表达,基于知识图谱的模式,就可以获得结构化和网络化的知识体系。在建立模式过程中,当出现数据冲突,或者无法确认数据源质量时,由古谱及古文化专家人工评定,确定最终结果。
[0048] 进一步参阅图4所示,本发明在完成上述古谱及古文化知识图谱的构建后,还涉及了对所建立的古谱及古文化知识图谱的应用,即建立古谱及古文化的知识图谱引擎。
[0049] 具体地:
[0050] 5、建立古谱及古文化的知识图谱引擎。
[0051] 知识图谱的应用,如图4所示,输入自然语言,可输出相应答案。语义问答实现包括以下部分:
[0052] 甲、基于知识图谱的分词;
[0053] 乙、模板匹配;
[0054] 丙、模板的翻译执行。
[0055] 采用HMM(隐马尔可夫算法)实现分词与实体识别,同时确定词的类型,即判定词是概念、实体还是属性。基于定义的古谱及古文化领域的语义模板,匹配问答和目标。模板“实体+属性”表示知识图谱的一个节点和一条边。
[0056] 模板匹配过程:
[0057] 1)根据解析的实体以及类型确定匹配的候选模板;
[0058] 2)判断候选模板与候选实体是否构成知识图谱的子图,在多个候选模板中找到匹配率最高的模板,确定好模板后,翻译模板为语义网络上的标准查询语言SPARQL,在图数据库上执行。
[0059] 匹配实例如下:
[0060] 实体+属性:
[0061] 魏氏乐谱的版本有哪些?魏氏乐谱包含哪些曲调?魏氏乐谱乐曲是什么性质?[0062] 概念+属性:古谱有哪些分类?
[0063] 属性值+概念:
[0064] 宫调名为道宫和双调的古谱有哪些?
[0065] 【多个】(属性+属性值)+概念;
[0066] 宫调名为清平调,演奏乐器为琵琶的,印刷法为木刻本、版本为尚书堂版的古谱有哪些?
[0067] (属性+属性值)+或+(属性+属性值)+概念;
[0068] 宫调名为正平调或者双调的古谱有哪些?
[0069] (属性+属性值)+无+(属性+属性值):
[0070] 宫调名为正平调且演奏乐器不是琵琶的古谱有哪些?
[0071] 本发明在古谱研究领域使用自然语言处理技术和知识图谱技术,用图形显示古谱知识发展进程与结构关系,用可视化技术描述古谱知识资源及其载体,挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构,达到多学科融合,为古谱学科研究提供有价值的参考。
[0072] 现今普遍的古谱研究集中在单一作曲的研究中,未能利用知识图谱技术扩展其研究方向,将古谱与古文化结合,本发明利用自然语言处理技术和知识图谱,对古谱研究提供技术支撑,也开拓了知识图谱的应用领域。
[0073] 需要说明的是,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
[0074] 以上所述仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案的范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈