首页 / 专利库 / 人工智能 / 词性标注 / 一种自然语言语义信息统一编码方法

一种自然语言语义信息统一编码方法

阅读:190发布:2021-10-19

专利汇可以提供一种自然语言语义信息统一编码方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种采用自然语言语义约定客观规律实现各种自然语言语义信息统一编码的方法。此方法可使用户通过采用自己熟悉的任意自然语言进行 人机交互 ,实现对任意 自然语言文本 的语义信息统一编码。其语义信息统一编码结果,可利用计算机技术自动转换为保证语义信息传递 质量 的各种译文,并且对各种 自然语言处理 技术,比如知识传播、合同签订、语言教学、文本检索、自动文摘技术的发展可起到十分重要的推动作用。,下面是一种自然语言语义信息统一编码方法专利的具体信息内容。

1.一种自然语言语义信息统一编码方法,其特征在于:A、取任意自然语言的语法概念递归集进行语法信息统一编码;B、对各种自然语言常用词汇符号的语义项,用其他常用符号以句子形式进行语义描述,对多义符号的不同义项,分别进行语义描述,并根据常用词汇符号语义项的描述结果,对不同语言语义项匹配成功者给出一级语义统一编码;C、建立语义扩展统一编码模板,取各种自然语言非常用词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码,并且特指对象、特用于某种情况的词汇符号加上特指、特用对象描述。D、凡是不能添入一级语义编码语义扩展统一编码模板的自然语言其他词汇符号及符号语义项,或用已进行一、二级语义编码的词汇符号及相关语义项以句子形式进行语义描述,或通过添入三级编码语义扩展编码模板,以获得三级语义编码;E、对固定搭配短语、固定搭配句子,用已进行一、二级语义编码的词汇符号及相关语义项加语法概念交集进行语义描述,实现四级语义统一编码。F、用不同自然语言的词汇符号调用该词符号的所有已获得语义统一编码的语义项,自动生成不同语言的语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典。G、任意自然语言用户自主新增词汇符号或对已有符号新加语义项,均通过调用语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典的符号及相关语义项进行语义描述,获得语义统一编码。
2.根据权利要求1所述的方法,其特征在于,所述步骤C的语义扩展统一编码模板内容至少包括:纵向坐标为近义程度+1、近义程度+2、近义程度-1、近义程度-2,横向坐标为通用语、书面语、口语、俚语、专用语、成语。
3.根据权利要求1所述的方法,其特征在于,所述步骤A的取任意自然语言的语法概念递归集进行统一编码方法还包括:所述的编码对象包括语法词汇、词汇变形、词汇排序等各种形式表达的语法概念;所述的语法概念递归集至少包括句法成分、时态、语态、语体;所述的语法概念递归集句法成分至少包括:主句、子句、主语、主语修饰、主语补充、谓词、谓词修饰、谓词补充、宾语、宾语修饰、宾语补充、插入语;并且所述的子句句法成分、有句法结构的插入语的句法成分与主句句法成分结构相同。
4.根据权利要求1所述的方法,其特征在于,所述步骤A的取任意自然语言的语法概念递归集进行统一编码方法还包括:定语和状语递归为修饰或补充成分进行句法成分编码;实际为宾语的形式主语作为宾语进行句法成分编码;需要强调的句子成分均通过在相应句子成分成分区加用强调符进行统一编码。
5.根据权利要求1所述的方法,其特征在于,所述步骤B的对不同语言词汇符号语义项匹配成功者给出一级语义统一编码方法还包括:当不同自然语言常用符号的语义项不能对齐时,则在缺少对应符号方用该自然语言常用符号及相关语义项以句子形式进行语义描述,以保证各种自然语言常用词汇符号的语义项对齐,并获得相同的语义统一编码。
6.根据权利要求1所述的方法,其特征在于,所述步骤B的语义项内容包括:同义词、反义词、语义描述、词性、上位语义、应用举例;并且是上述内容的某一部分。
7.根据权利要求1所述的方法,其特征在于,所述步骤C的取各自语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码的方法还包括:语义相同、词性不同的符号,保留符号原形并给出词性标注,对“特指”、“特用”词汇符号后面所用词语必须是已被语义统一编码的词汇符号以及相关语义项。
8.根据权利要求1所述的方法,其特征在于,所述步骤C的取各种自然语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码结果,由一级编码结果、语义扩展编码结果,“特指....”的一、二级语义编码结果构成。
9.根据权利要求1所述的方法,其特征在于,所述步骤D中取各种自然语言其它非常用词汇符号的三级语义扩展统一编码结果,由三级语义统一编码结果、描述其语义的一、二级统一编码结果、语义扩展统一编码结果,特指、专用于....”的一、二级语义编码结果构成。
10.根据权利要求1和2所述的方法,其特征还在于,对句子连词和可插入其他内容的短语采用专用标识进行语义编码。

说明书全文

一种自然语言语义信息统一编码方法 说明书

技术领域

发明涉及一种自然语言语义信息统一编码方法,更确切地说是涉及一种采用自然语言语义约定客观规律实现的适合于计算机自然语言处理的语义统一编码的方法。
技术背景从信息处理基础技术度讲,图象信息、声音信息数字编码技术已经使人类能够利用计算机技术对图象信息、声音信息进行快捷准确的全球化传递。自然语言的字符集统一编码Unicode已经可以实现对各种自然语言符号的快捷准确的全球化传递。但是,自然语言之所以称为自然语言,是因为它的形成基于每个人均拥有的一种基本权利:自由创造语言符号和自由约定符号语义。因此,对自然语言进行语义信息编码,尤其是不同自然语言的语义信息进行统一编码始终未能实现。
但是,人类进行自然语言符号语义约定具有有以下客观规律:递归约定规律:各种自然语言任意词汇的语义,包括固定搭配短语和句子的语义,均可用其常用词汇的语义进行语义递归约定。(比如,朗曼英语词典用一千多常用词汇的语义对任意词汇进行语义约定。)并且,一种自然语言的常用词汇语义,可以对任意其他语言的词汇进行语义约定。(比如,用常用词汇撰写各种双语词典。)
循环约定规律:各种自然语言基本词汇的语义约定规律为循环约定。(比如:“好:表示使人满意,坏的反义词”。“父亲:儿子的爸爸。”)并且,基本词汇与非基本词汇之间也可进行语义循环约定。(比如:美:漂亮、美丽、好看、中看)根据以上自然语言语义约定客观规律,我们可以做出如下推论:所有自然语言的必要语义信息,是其常用符号语义的递归函数。
对各种自然语言常用符号语义概念的编码结果,可对任意自然语言句子和符号的语义信息进行递推统一编码。

发明内容

根据以上原理,实现本发明的技术方案是这样的:一种自然语言语义信息统一编码方法,其特征包括以下步骤:A、取任意自然语言的语法概念递归集进行语法信息统一编码;B、对各种自染语言常用词汇符号的语义项用本语言其他常用符号以句子形式进行语义描述,对多义符号的不同义项,分别进行语义循描述,并根据常用词汇符号语义项的描述结果,对不同语言常用符号语义项匹配成功者给出一级语义统一编码;C、建立扩展统一编码模板,取自然语言其它词汇符号,根据其不同语义项添入扩展统一编码模板的位置获得二级语义统一编码;D、凡是不能添入一级语义统一编码的语义扩展统一编码模板的其他自然语言词汇符号,或者用已进行一、二级语义统一编码的相关语义项以句子形式进行语义描述得到三级语义编码,或者通过添入语义扩展编码模板得到三级语义编码;E、对组成固定搭配短语、固定搭配句子的自然语言符号,用已进行一、二级语义统一编码的词汇及相关语义项,加语法概念交集以句子形式进行语义描述,实现四级语义统一编码。
F、用不同自然语言的词汇符号调用该词汇符号的所有语义项及语义统一编码结果,自动生成不同语言的语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典。
G、任意自然语言新增词汇符号或对已有符号新加义项,由用户调用语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典的符号及相关语义项进行语义描述,以获得语义统一编码。
所述步骤A的任意自然语言的语法概念递归统一编码方法包括:所述的编码对象至少包括语法词汇、词汇变形、词汇排序;所述的语法概念递归集至少包括句法成分、时态、语态及语体;所述的语法概念句法递归集成分至少包括:主句、子句、主语、主语修饰、主语补充、谓词、谓词修饰、谓词补充、宾语、宾语修饰、宾语补充、插入语;并且所述的子句句法成分、有句法结构的插入语的句法成分与主句句法成分相同。
所述步骤A的取任意自然语言的语法概念进行语义递归统一编码方法还包括:定语和状语递归为修饰或补充成分进行句法成分编码;实际为宾语的形式主语作为宾语进行句法成分编码;需要强调的句子成分均通过在相应成分区加用强调符进行编码。
所述步骤B的不同自然语言词汇的语义项内容包括:  同义词、反义词、语义描述、词性、上位语义、应用举例,或者上述内容的某一部分。比如:汉语表层符号“好”的语义编码对象之一包括“同义词:佳、不错/反义词:坏/语义描述:使人满意的/词性:名词、形容词/上位语义:评价。举例:表现很好”;其中句子连词和可插入其他内容的短语采用专用标识进行语义编码。
所述步骤B的不同自然语言词汇的语义统一编码对象中的上位语义是指语义的种属关系分类。比如:汉语表层符号“好”的语义编码对象之一“同义词:佳、不错/反义词:坏”和汉语表层符号“坏”的语义编码对象之一“反义词:好”的上位语义均为:评价。
所述步骤B的对不同自然语言常用符号语义项匹配成功者给出一级语义统一编码还包括:对不同自然语言常用符号语义项不能对齐者,在缺少对应符号方用常用符号以句子形式进行语义描述,以实现不同语言常用词汇语义的强制性对齐。
所述步骤C的扩展统一编码模板内容至少包括:纵向坐标为近义程度+1、近义程度+2、近义程度-1、近义程度-2,横向坐标为通用语、书面语、口语、俚语、专用语、成语。
所述步骤C的取各自语言其它词汇符号,通过添入语义扩展统一编码模板的位置获得二级语义统一编码还包括:语义相同、词性不同的符号,保留符号原形并给出词性标注,对“特指”、“特用”词汇符号后面所用词语,必须是已获得语义项统一编码的词汇符号;并且对多义词不同义项,分别进行语义二级编码。
所述步骤C的取各自语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码结果是指:在一级编码结果后加上二级编码结果。或者再加上“特指....”的一、二级语义编码结果。
比如,汉语词汇符号“佳”的二级语义编码结果之一为:在一级编码对象(同义词:佳/不错/;反义词:坏;释义:使人满意的)的编码结果基础上,加上语体坐标“书面语”的编码结果。
所述步骤D中取各种自然语言其它非常用词汇符号的三级语义扩展统一编码结果是指,由三级语义统一编码结果加上描述其语义的一、二级统一编码,或者再加上“舅父”的语义扩展统一编码结果,再加上“特指....”的一、二级语义编码结果构成。

具体实施方式

下面结合实施例附图进一步说明本发明的技术方案:图1是词汇符号一级语义统一编码及扩展统一编码示意图图2是词汇符号三级语义统一编码及扩展统一编码示意图图3是句法成分统一编码模板示意图实施例1参见图1,所述步骤B的实施例如图1所示,汉语符号“好”的语义项之一:“使人满意的”和英语符号”good”的语义项之一:Having the right qualities的语义统一编码结果为:A3/a1。
汉语词汇符号“地道”的语义项之一的二级语义统一编码结果由一级统一编码结果与扩展统一编码结果相加,为:A3B1/B3b3.n.adj。
英语符号nice的语义项之一的二级语义统一编码结果由一级统一编码结果与扩展统一编码结果相加,为:A3a1/B1b1.n.adj。
实施例2所述步骤B、C的实施例:如果汉语符号“座”是常用符号,其语义项之一:“量词,专用于较大的固定物体”在英语中没有语义对应符号,则用英语的常用词汇及先观语义项进行语义描述:“quantifier/of large and solid thing”,以实现不同语言常用符号语义的强制性对齐。
实施例3参见图2,
所述步骤D的实施例:汉语符号“舅父”的三级语义统一编码结果由“叔叔”的三级语义统一编码结果加上描述其语义的一、二级统一编码,再加上“舅父”的扩展统一编码结果,为:C11c21(描述其语义的一、二级统一编码)B2b1.n,再加上  “特指....”的一级语义编码结果构成。
实施例4所述步骤E的实施例:汉语固定搭配短语“绿竹依依”的语义描述结果“形容竹子的美态”的语义统一编码,由已进行一二级语义统一编码的词汇加义项以及通用语法进行语义描述。
实施例5参见图3,设主句统一编码为#A、子句统一编码为#B、主语统一编码为*1-1、主语修饰统一编码为*1-2、主语补充统一编码为*1-3、谓词统一编码为*2-1、谓词修饰统一编码为*2-2、谓词补充统一编码为*2-3、宾语统一编码为*3-1、宾语修饰统一编码为*3-2、宾语补充统一编码为*3-3。
汉语例句:“我昨天好不容易才弄到了谁也弄不到的那张光盘。”的整句语义统一编码结果为:#A*1-1(汉字符号“我”的语义项统一编码结果)/#A*2-2(汉字符号“好不容易”、“才”的语义项统一编码结果)/#A*2-1(汉字符号“弄到”的语义项统一编码结果、汉字符号“了”的“过去时态”统一编码结果)/#A*2-3(汉字符号“昨天”的语义项统一编码结果)/#A*3-2#B*1-1(汉字符号“谁”的语义项统一编码结果)/#A*3-2#B*2-2(汉字符号“也”的语义项统一编码结果)/#A*3-2#B*2-1(汉字符号“不能、得到”的语义项统一编码结果)/#A*3-2(汉字符号“那”的语义项统一编码结果)/#A*3-1(汉字符号“光盘”的语义项统一编码结果)。
实施例6参见图3,所述步骤A的实施例:如果上述汉语例句改为“谁也弄不到的那张光盘我昨天好不容易弄到了。”则在宾语区加用强调符(!)的统一编码。
实施例7所述步骤G的实施例:汉语句子“你有吃饭吗?”的实际语义是“你已经吃过饭了吗?”。如果汉语符号“有”的已进行统一编码义项中没有“时态:已经”,则用户则调用已进行语义统一编码的词汇符号“时态:已经”进行语义描述,以获得语义统一编码。
实施例8所述步骤F中词汇语义统一编码词典的实施例:汉语表层符号:好(Unicode编码)义项1:同义词:佳、不错/反义词:坏/语义描述:使人满意的/词性/上位语义(语义统一编码)义项2:同义词:赞许、同意....../词性/上位语义(语义统一编码)义项3:同义词:友爱、和睦....../词性/上位语义(语义统一编码)义项4:同义词:容易......./词性/上位语义(语义统一编码)义项5:同义词:非常、相当....../词性/上位语义(语义统一编码)实施例9所述步骤C的句子之间的连词,如:“既然你不喜欢我,那么我也不喜欢你”中的句子连词“既然......那么”,用专用符号进行语义信息统一编码;如:*{既然}你不喜欢我,*{那么}我也不喜欢你。
实施例10所述步骤C的可插入其他符号的短语,如:“在我们遇到的所有问题中,”的可插入其他符号的固定搭配短语“在......中”,在获得语义项统一编码后,用专用符号进行语义信息统一编码。如:“*[在→我们遇到的所有问题←中]*”。
发明意义本发明的意义在于:1、利用自然语言符号语义约定的递归、循环规律,可用两为数以内的不同符号的组合结果,实现对任意自然语言文本的语义信息统一编码。
2、用户可以通过自己熟悉的任意自然语言进行人机交互,利用计算机技术实现对任意自然语言文本的语义信息统一编码。
3、对任意自然语言文本的语义信息统一编码结果,可利用计算机技术自动转换为与原文语义相同的各种其他自然语言文本和译文语义约定结果,从而实现保证语义信息传递质量的多语通用机器翻译
4、自然语言语义信息统一编码技术对各种基于计算机技术的自然语言信息处理,比如知识传播、合同签订、语言教学、文本检索、文本分类、自动文摘技术的发展,都可起到十分重要的推动作用。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈