首页 / 专利库 / 人工智能 / 人工智能 / 通用人工智能 / 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法

综合从搜索系统中使用的文档中抽取知识的自学习系统的方法

阅读:111发布:2020-09-22

专利汇可以提供综合从搜索系统中使用的文档中抽取知识的自学习系统的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及计算机科学,信息搜索和智能系统,适合于开发基于因特网的信息搜索以及其他信息和智能系统。本发明通过从不同语言的原文文档中 抽取 知识自动创建知识;智能处理文本信息和用户 请求 以抽取任意外语中的知识。根据 权利要求 的方法提供 人工智能 的随机索引系统形式的 自学习 机制,在语法和语义分析规则方面对系统进行自动指导。该方法包括创建随机索引的字典的 数据库 ,语言文本的索引表和形态分析的 知识库 ;进行形态和句法分析,对 指定 语言的搜索系统中的指定主题关联的原文文档进行随机索引处理,创建句法分机的知识库。语义分析与指定主题有关的随机索引原文文档,创建语义分析的知识库。编辑用户请求,把随机索引形式的用户请求转换为与原始请求相同的众多新请求;选择包含转换后的请求的所有单词组合的原文文档的随机索引 片段 。根据 选定 文档生成随机索引结构,基于所述结构,借助逻辑结论,生成系统的简短回复。通过基于所述 回复生成 疑问句,并比较所述句子和该请求,检查获得的简短回复的关联性。当用户请求与获得的疑问句相同时,确定系统的简短回复与该请求相同,并向用户提交回复。,下面是综合从搜索系统中使用的文档中抽取知识的自学习系统的方法专利的具体信息内容。

1.一种用于合成自学习系统的方法,该自学习系统从搜索系统使 用的原文文档中抽取指定语言的知识,该方法包括以下步骤:
提供随机索引人工智能系统形式的自学习机制,该系统基于随机 信息索引的二态信号的唯一组合的应用;
通过使用随机索引的文本片段的等效转换和逻辑结论,并且通过 从所述片段形成链接的语义结构并对其进行随机索引处理以便用产生 式规则的形式进行表示,从而在语法和语义分析规则方面对系统进行 自动指导;
执行形态分析并对电子形式的语言文档进行随机索引处理,同时 在形态分析规则方面对系统进行自动指导;
执行形态和句法分析,并对与指定主题有关的电子形式的原文文 档进行随机索引处理,同时在句法分析规则方面对系统进行自动指导;
对与指定主题有关的电子形式的随机索引的文档进行语义分析, 同时在语义分析规则方面对系统进行自动指导;
用指定的自然语言形成用户请求,并且在随机索引处理后将电子 形式的请求变换为疑问句;
把随机索引形式的用户请求变换为与该用户请求等效的一组新请 求;
根据用户请求初步选择包含每个新请求的所有单词组合的电子形 式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的 逻辑结论和文本的等效转换,该系统生成一个简短回复;
通过根据所述简短回复生成一个疑问句,并比较生成的疑问句和 用户请求,检查该简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认该简短回复和用户 请求关联,并用指定自然语言向用户提供该简短回复。
2.一种用于合成自学习系统的方法,该自学习系统用于从搜索系 统使用的原文文档中抽取任何指定外语的知识,该方法包括以下步骤:
提供随机索引的人工智能系统形式的自学习机制,该系统基于随 机信息索引的二态信号的唯一组合的应用,用于随机索引处理和搜索 指定基础语言中的语言文本片段,包括语法和语义分析过程的描述, 通过使用随机索引的语言文本片段的等效转换和逻辑结论,并且通过 从该随机索引的语言文本片段形成链接的语义结构并对所述结构进行 随机索引处理以便用产生式规则进行表示,在语法和语义分析规则方 面对系统进行自动指导;
执行形态分析并对指定基础语言的电子形式的语言文档进行随机 索引处理,同时在形态分析规则方面对系统进行自动指导,构建用于 每指定外语的随机索引的字典数据库和语言文本索引表,以及形态 分析的知识库,后者包含基础语言和每门指定外语的产生式规则;
执行形态和句法分析,对搜索系统中指定外语中的指定主题的电 子形式的原文文档进行随机索引处理,把所述原文文档表示为原文文 档的索引表,然后在随机索引的文本库中存储所述原文文档,同时通 过使用基础语言中的随机索引的语言文本,在句法分析规则方面对系 统进行自动指导,并构建基础语言和每门指定外语的句法分析知识库;
在指定主题上,对于电子形式的所述随机索引的原文文档进行语 义分析,同时在语义分析规则方面对系统进行自动指导,并构建基础 语言和每门指定外语的语义分析知识库;
用自然语言形成用户请求,并且在随机索引处理后将电子形式的 请求变换为疑问句,疑问句包含确定用户请求的语义的疑问词组合和 单词组合;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新 请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形 式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据随机索引语义结构,利用提供原文文档的随机索引片段之间 的链接的逻辑结论,和文本的等效转换,该系统生成一个简短回复, 其中回复包含定义用户请求之语义的随机索引的单词组合,以及与用 户请求的疑问词组合相对应的回复词组;
通过利用对应的随机索引的疑问词组合替换回复词组,并比较生 成的疑问句和用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用 户请求关联,并用指定外语向用户提供所述简短回复。
3.根据权利要求1的方法还包括,当不能生成与用户请求相同的 疑问句时,请求从搜索系统的新的原文文档中搜索与用户请求有关的 回复。
4.根据权利要求1的方法还包括,依据用户请求,借助逻辑结论 可以生成包含更详细信息或特定知识的完整回复以形成随机索引语义 结构,以及所述原文文档片段的必要等效转换,以便获取提供所述简 短回复的更详细内容的新的随机索引的文本。
5.根据权利要求1的方法,其中在形态分析规则方面对系统进行 自动指导的步骤包括:在随机索引的文本中选择每个单词的词形的预 定集合;提供词干的随机索引及词干的词尾、前缀、后缀和介词的预 定集合,该词尾、前缀、后缀和介词的预定集合可以根据随机索引的 语言文本的所述索引进行随机访问;从中选择把词尾、前缀、后缀和 介词的所述集合和与某个单词相对应的引语部分以及与由单词的词尾 变化或动词变化引起的词尾、前缀、后缀和介词的全集相关联的片段, 通过随机索引把词尾、前缀、后缀和介词的所述集合和与某个单词 相对应的引语部分以及与由单词的词尾变化或动词变化引起的词尾、 前缀、后缀和介词的全集相关联的片段变换为产生式规则形式,其中 以对应语言文本的若干片段为基础,利用自主推导提供每条规则的正 确性,以及获取形态分析的知识库的产生式规则的索引表。
6.根据权利要求5的方法,其中在使用形态分析的知识库的规则 确定每个单词的引语部分后,语言文本的随机索引处理步骤包括,利 用每个词干的随机索引和其词尾、前缀、后缀和介词的全集的随机索 引填充字典的随机索引数据库。
7.根据权利要求6的方法,其中构建文本索引表的步骤包括,随 机转换信息并生成词干、其词尾、前缀、后缀、介词、句子、段落和 文本标题的索引的唯一的二态组合,其中把索引放置到随机索引的文 本库的索引表中,以及提供所述索引之间的链接,链接是原文规定的, 并且通过使用索引表能够确保文本复原。
8.根据权利要求1的方法,其中在句法分析规则方面对系统进行 自动指导的步骤包括,在随机索引的语言文本中,搜索用于描述句子 的句法分析过程的片段;取得逻辑结论以获取用来定义句法元素、结 构和单词的预定引语部分之间的链接的随机索引的语义结构;导出用 来规定有关形态单词特征的句子的句法分析的产生式规则,其中根据 对应语言文本的若干片段的自主推导提供每条规则的正确性,把生成 的规则存储到句法分析的知识库中,进行随机索引处理并用索引表表 示。
9.根据权利要求1的方法,其中在语义分析规则方面对系统进行 自动指导的步骤还包括,参考词干和引语部分的随机索引形成语言文 本的索引表的请求,未准确定义的句子成分,获取一个回复作为用于 描述单词处理的语义特征的文本片段,以符合特定句子成分;以及根 据作为用于描述单词处理的语义特征的文本片段以符合特定句子成分 所获取的回复,通过使用指定词干的随机索引和所需的语义特征,访 问通用或专用字典和百科全书的索引表;以及依据逻辑结论,尝试确 定用来链接指定单词和所需的语义特征的随机索引的语义结构;以及 如果上述尝试成功,则确定所述句子成分是准确定义的;把与请求有 关的文本片段转换为产生式规则,其中基于对应语言文本的若干片段 的自主推导提供每条规则的正确性,把所述规则存储到语义分析的知 识库中,进行随机索引处理并用索引表表示,以便在语义分析单词的 句子成分和单词组合之间的链接时使用。
10.根据权利要求9的方法还包括,在生成每个文本的索引表并 对所述文本进行形态、句法和语义分析后,生成引语部分名称的随机 索引,句子成分和与每个句子中的每个单词相对应的疑问句,把引语 部分名称的随机索引输入到所述文本的索引表中,以便在搜索文本片 段时,自动确定每个单词所属的引语部分和句子成分,并说明所述单 词的疑问句。
11.根据权利要求10的方法还包括,在生成文本的所有索引表后, 生成指定主题的索引表,其中利用词干的非重复的随机索引指定各行, 各列对应于特定文本的随机索引;以及把包含特定词干索引的单词的 文本段落的随机索引输入到指定主题的索引表中,指定主题的索引表 用于初步搜索包含用户请求的单词组合的预定集合的片段。
12.根据权利要求11的方法,其中等效转换用户请求的步骤包括, 使用同义词,即大约具有相同含义的词,并且以形态、句法和语义分 析的随机索引规则为基础,在保留用户请求的含义的情况下替换引语 部分和句子成分,以便提供用户请求的疑问句的单词组合的等效结构, 并保持它们之间的语义关系。
13.根据权利要求12的方法,其中生成包含用户请求的所有单词 组合的语义链接文本片段的步骤包括,根据所述词干的随机索引,访 问有关指定主题的文本索引表,选择包含用户请求的所有单词组合的 段落和对应文本的随机索引,根据段落和对应文本的随机索引,访问 每个选定文本的索引表;根据索引表和文本的等效转换获得逻辑结论, 以便生成用来链接与用户请求的疑问词组合相对应的回复的词组的索 引的随机索引语义结构,以及定义用户请求的语义并且由预先选择的 段落组成的用户请求的所有单词组合。
14.根据权利要求13的方法还包括,使用根据逻辑结论生成的与 用户请求相对应的随机索引语义结构,作为使用获得的文本片段集合 生成与用户请求相同的疑问句的基础;基于所述知识库中的规则,利 用词干和词尾、前缀、后缀和介词的随机索引的等效转换生成所述疑 问句,以便提供用户请求的文本片段的每个单词组合的所需语义特征, 以及基于单词组合之间的传递关系,使用逻辑结论以便将它们组合为 与用户请求相同的包含回复词组的疑问句,回复词组与用户请求的疑 问词组合相对应。
15.根据权利要求14的方法,其中以原文文档的各种预先选择的 随机索引片段为基础,通过生成简短回复的若干相同的随机索引语义 结构来保证简短回复的正确性。
16.根据权利要求15的方法还包括,在搜索处理和使用原文文档 的索引表生成回复期间,通过生成链接该请求和有关简短回复的索引 原文元素,系统进行自学习,以生成包含类型“请求回复”的元素的知 识库,进行随机索引时,以索引表的形式提供,用于文本的句子的语 法和语义分析,用于生成所述索引知识库中包含的重复请求的回复。
17.根据权利要求16的方法,其中以简短回复为基础,借助获取 文本片段时使用的索引表相应的逻辑结论,生成包含有关用户请求的 知识的完整回复的步骤包括,生成用来把回复的词组链接到句子的词 干的随机索引的随机索引语义结构,该链接保持传递关系,该传递关 系完全公开文本片段内的简短回复,从而通过以所述随机索引的语义 结构为基础使用句子的等效转换,获得完整回复的链接文本。
18.根据权利要求17的方法,其中随机索引的片段的等效转换包 括,把每个句子表示为随机索引的单词词组的集合,借助公根词干、 词尾、前缀、后缀和介词的随机索引的等效转换,通过使用形态、句 法和语义知识库中存储的规则,转换所述组合,以生成新的引语部分 或句子成分,其中在生成新的文本片段时,保持每个句子的随机索引 语义结构中的单词组合之间的链接的稳定性,以及句子之间的一致性。
19.根据权利要求18的方法还包括,在原文文档的随机索引处理 中,当索引文本中出现新词时,即随机索引单词的字典或语言文本中 不包含该词时,在字典中检索有关新词的公根词,在形态分析的知识 库中检索把所述公根词等效转换为新词的规则;依据等效转换类型, 确定新词所属的引语部分以及由词尾变化或动词变化生成的所有词 形,
如果在字典中找不到公根词,则从文本中选择新词的词形的特定 集合,通过使用随机索引字典或形态分析的产生式规则,基于所述词 形的词尾、后缀和前缀,确定所述新词所属的引语部分,以及由词尾 变化或动词变化生成的词形的全集。
20.根据权利要求19的方法还包括,从指定外语的原文文档中同 时抽取知识,所述同时抽取包括:
对于指定的基础语言,在形态、句法和语义分析规则方面自动指 导系统;
通过使用指定基础语言的随机索引语言文本,构建随机索引字典 的数据库以及形态、句法和语义分析的知识库;
通过使用所述数据库,自动生成用来自动指导采用任意指定外语 的系统的请求,
根据自动生成的请求,初步选择基础语言中的语言文本片段,该 片段包含学习所述外语所需的知识,
对所述文本进行等效转换;
生成随机索引语义结构,基于所述结构获得逻辑结论,以便生成 与自动生成的请求相关的回复,
使用所述回复以生成任意指定外语的形态、句法和语义分析的知 识库,确保从指定外语的原文文档中抽取知识。

说明书全文

技术领域

发明涉及计算机科学,信息搜索和智能系统。

本发明适合于开发基于因特网的信息搜索以及其他信息和智能系 统。

背景技术

目前,因特网聚集了与众多论题和题目有关的大量永久更新的信 息。但是数百万用户对其的访问却是错综复杂的。原因是搜索系统中 的数据检索的现有技术效率不足。用于Yandex,Yahoo和Rambler 搜索系统的数据检索方法是公知的。上述公知方法输出因特网用户请 求的文档。
公知数据检索方法的缺点是:
-请求形式化语言的复杂性;
-缺少对文档内容进行语义分析的机制和确定与询问的问题相适 应的机制;
-不能准确确定搜索文档中存在用户请求所需的信息,不能从大 量信息源中抽取用户所需的特定信息和知识。
由于上述缺点,当随同有用信息一起执行信息搜索过程时,输出 现有搜索系统无法过滤的大量冗余“噪声”信息。从而大大增加了搜索 所需信息所需的时间,同时由于传送和处理无用信息的缘故,使得搜 索系统的通道和服务器过载。
主要困难在于,向搜索系统发送请求的用户获得并不包含所需数 据的大量信息。从而必需复核收到的每篇文档以确定是否包含所需数 据。导致时间和脑劳动的不必要浪费。由于不能从大量因特网数据 组中实时获取用户解决特定问题所需的特定数据和知识,所以大大降 低了搜索系统的知识价值和效率。
以下专著描述了在智能信息逻辑计算系统中实现的从数据库中抽 取用于请求的知识和数据的公知方法:Nasypny V.V.,Development of a theory of open systems design on the basis of artificial intelligence information technology,Moscow,1994(pp.85-112)。该方法基于随机 信息技术,通过使用逻辑结论提供有效的知识搜索和知识的实时处理。 其优点是,与常规人工智能系统中使用的现有知识处理方法相反,该 方法一方面提供搜索时间和逻辑处理之间的线性关系,另一方面,该 方法提供准备回复所需的大量知识。然而,所述方法不允许从文档中 抽取知识,因为该方法旨在处理知识库中的形式化信息,而该处理是 由具有相关知识的专家和工程师完成的。由于上述缺点,所以所述方 法不能在现有信息搜索系统中从文档中抽取知识。
以下专著描述了从文档中抽取知识的另一种公知方法:Nasypny V. V.,Nasypnaya G.A.,Construction of an intelligent information search system,Moscow,Promethey-Publisher,2001。所述方法基于随 机智能信息技术,该技术能够对大量文档信息进行实时形态、句法和 语义分析。该系统可以与现有信息搜索系统一起运行,作为所述系统 上的智能上层结构,同时通过使用用于文档的随机索引的特有标准, 信息交换协议和用户请求处理,提供下一代搜索系统。与现有搜索系 统中实现的方法相比,所述方法的主要优点如下:
-用自然语言处理用户请求;
-检索包含与用户请求有关的所有信息的文档;
-突出显示与用户请求相对应的文本片段,后者包含解决特定问 题所需的各种论题的数据和知识。
所述方法的主要缺点是,供形态、句法和语义分析使用的智能系 统的知识库是由专家填写的,从而需要大量时间和科技费用。因此, 为满足其因特网上有全国性子系统的发达国家的用户的需求而创建从 文档中抽取知识的类似系统需要大量时间。所以所述方法不能用来创 建从文档中抽取知识的基于因特网的多语言系统。该障碍严重阻碍向 知识产业的转变,知识产业基于全国性的文本信息搜索系统,并且考 虑到文明社会的最新需求,知识产业将在工业、科学、教育、文化和 家庭活动等不同领域中,在质量上提供全新的信息服务。
不能自动分析字典中不包括的新词是所述方法的另一个缺点。当 文档中出现新词时,专家必需确定新词所属的引语部分,并确定其形 态特征。鉴于此,该系统不能自动进行调整以处理与新题目有关的文 档。请注意,有效抽取知识要求通过使用片段之间的语义关系的逻辑 结论进行分析,通过等效转换指定文本的句子,全面处理不同文档的 文本片段。而所述方法尚未实现此功能。

发明内容

本发明的目的在于提供用于综合从搜索系统的文档中抽取知识的 自学习系统的方法,该方法用于创建基于全球因特网的知识产业,并 能克服上述缺点。通过实施本发明获得以下效果:
-通过从采用不同语言的电子形式的文档中抽取知识自动创建知 识,以便填充知识库;
-自动更新新词,并更新字典;
-等效转换用户请求和文档的句子,以提高知识抽取的效率;
-在语法和语义分析的规则方面对所述系统进行自我指导;
-智能处理文本信息和用户请求以抽取指定外语中的知识。
利用用于综合从搜索系统使用的文档中抽取指定自然语言的知识 的自学习系统的方法,实现本发明的目的,该方法包括以下步骤:
提供随机索引人工智能系统形式的自学习机制,该系统基于随机 信息索引的二态信号的唯一组合的应用;
通过使用随机索引的文本片段和逻辑结论的等效转换,通过根据 所述片段形成链接的语义结构并对其进行随机索引处理以便用产生式 规则进行表示,在语法和语义分析规则方面对系统进行自动指导;
执行形态分析并对所述语言的电子形式的语言文档进行随机索引 处理,同时在形态分析规则方面对系统进行自动指导;
执行形态和句法分析,并对所述语言中与指定主题有关的电子形 式的文档进行随机索引处理,同时在句法分析规则方面对系统进行自 动指导;
对与指定主题有关的电子形式的随机索引的文档进行语义分析, 同时在语义分析规则方面对系统进行自动指导;
用指定的自然语言形成用户请求,并且在随机索引处理后将电子 形式的请求变换为疑问句;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新 请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形 式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的 逻辑结论,该系统生成一个简短回复,和文本的等效转换;
通过根据所述简短回复生成一个疑问句,并比较生成的疑问句和 用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用 户请求关联,并用指定自然语言向用户提供所述简短回复。
利用用于综合从搜索系统使用的文档中抽取任何指定自然语言的 知识的自学习系统的方法,实现本发明的目的,该方法包括以下步骤:
提供随机索引的人工智能系统形式的自学习机制,该系统基于随 机信息索引的二态信号的唯一组合的应用,用于随机索引处理和搜索 指定基础语言中的语言文本片段,包括语法和语义分析过程的描述, 通过使用随机索引的语言文本片段和逻辑结论的等效转换,通过根据 所述片段形成链接的语义结构并对所述结构进行随机索引处理以便用 产生式规则进行表示,在语法和语义分析规则方面对系统进行自动指 导;
执行形态分析并对指定基础语言的电子形式的语言文档进行随机 索引处理,同时在形态分析规则方面对系统进行自动指导,构建用于 搜索每指定外语的随机索引的字典数据库和语言文本索引表,以及 形态分析的知识库,后者包含基础语言和每门指定外语的产生式规则;
从搜索系统中执行形态和句法分析,在每门外语中,在指定主题 上,对电子形式的文档进行随机索引处理,把所述文档表示为原文文 档的索引表,然后在随机索引的文本库中存储所述文档,同时通过使 用基础语言中的随机索引的语言文本,在句法分析规则方面对系统进 行自动指导,并构建基础语言和每门指定外语的句法分析知识库;
在指定主题上,对于电子形式的所述随机索引的原文文档进行语 义分析,同时在语义分析规则方面对系统进行自动指导,并构建基础 语言和每门指定外语的语义分析知识库;
用自然语言形成用户请求,并且在随机索引处理后将电子形式的 请求变换为疑问句,后者包含确定用户请求的语义的疑问词组合和单 词组合;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新 请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形 式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的 逻辑结论,该系统生成一个简短回复,和文本的等效转换,其中回复 包含定义用户请求之语义的随机索引的单词组合,以及与用户请求的 疑问词组合相对应的回复词组;
通过利用对应的随机索引的疑问词组合替换回复词组,并比较生 成的疑问句和用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用 户请求关联,并用指定外语向用户提供所述简短回复。
该方法最好还包括,当不能生成与用户请求相同的疑问句时,请 求从搜索系统的新原文文档中搜索与用户请求有关的回复。
另外,依据用户请求,借助逻辑结论可以生成包含更详细信息或 特定知识的完整回复以形成随机索引的逻辑结构,以及所述原文文档 片段的必要等效转换,以便获取提供所述简短回复的更详细内容的新 的随机索引的文本。
在该方法中,在形态分析规则方面对系统进行自动指导的步骤最 好包括,在随机索引的文本中选择每个单词的词形的预定集合,提供 词干的随机索引和根据随机索引的语言文本的所述索引进行随机访问 的词尾、前缀、后缀和介词的预定集合,从中选择把词尾、前缀、后 缀和介词的所述集合和与某个单词相对应的引语部分联系起来的片 段,以及和由单词的词尾变化或动词变化引起的词尾、前缀、后缀和 介词的全集关联的片段,通过随机索引把所述片段变换为产生式规则 形式,其中以对应语言文本的若干片段为基础,利用自主推导提供每 条规则的正确性,以及获取形态分析的知识库的产生式规则的索引表。
在使用形态分析的知识库的规则确定每个单词的引语部分后,语 言文本的随机索引处理步骤最好包括,利用每个词干的随机索引和其 词尾、前缀、后缀和介词的全集的随机索引填充字典随机索引数据库, 构建文本索引表的步骤包括,随机转换信息并生成词干、其词尾、前 缀、后缀、介词、句子、段落和文本标题的索引的唯一的二态组合, 其中把索引放置到随机索引的文本库的索引表中,以及提供所述索引 之间的链接,链接是原文规定的,并且通过使用索引表能够确保文本 复原。
在该方法中,在句法分析规则方面对系统进行自动指导的步骤包 括,在随机索引的语言文本中,搜索用于描述句子的句法分析过程的 片段;取得逻辑结论以获取用来定义句法元素、结构和单词的预定引 语部分之间的链接的随机索引的语义结构;导出用来规定有关形态单 词特征的句子的句法分析的产生式规则,其中根据对应语言文本的若 干片段的自主推导提供每条规则的正确性,把生成的规则存储到句法 分析的知识库中,进行随机索引处理并用索引表表示。另外,在语义 分析规则方面对系统进行自动指导的步骤还包括,参考词干和引语部 分的随机索引形成语言文本的索引表的请求,未准确定义的句子成分, 获取一个回复作为用于描述单词处理的语义特征的文本片段,以符合 特定句子成分;以及根据所述回复,通过使用指定词干的随机索引和 所需的语义特征,访问通用或专用字典和百科全书的索引表;以及依 据逻辑结论,尝试确定用来链接指定单词和所需的语义特征的随机索 引的语义结构;以及如果上述尝试成功,则确定所述句子成分是准确 定义的;把与请求有关的文本片段转换为产生式规则,其中基于对应 语言文本的若干片段的自主推导提供每条规则的正确性,把所述规则 存储到语义分析的知识库中,进行随机索引处理并用索引表表示,以 便在语义分析单词的句子成分和单词组合之间的链接时使用。
该方法还包括,在生成每个文本的索引表并对所述文本进行形态、 句法和语义分析后,生成引语部分名称的随机索引,句子成分和与每 个句子中的每个单词相对应的疑问句,把所述索引输入到所述文本的 索引表中,以便在搜索文本片段时,自动确定每个单词所属的引语部 分和句子成分,并说明所述单词的疑问句;另外,在生成文本的所有 索引表后,生成指定主题的索引表,其中利用词干的非重复的随机索 引指定各行,各列对应于特定文本的随机索引;以及把包含特定词干 索引的单词的文本段落的随机索引输入到所述表中,指定主题的索引 表用于初步搜索包含用户请求的单词组合的预定集合的片段。
在该方法中,等效转换用户请求的步骤最好包括,使用同义词, 即大约具有相同含义的词,并且以形态、句法和语义分析的随机索引 规则为基础,在保留用户请求的含义的情况下替换引语部分和句子成 分,以便提供用户请求的疑问句的单词组合的等效结构,并保持它们 之间的语义关系;生成包含用户请求的所有单词组合的语义链接文本 片段的步骤包括,根据所述词干的随机索引,访问有关指定主题的文 本索引表,选择包含用户请求的所有单词组合的段落和对应文本的随 机索引,根据所述索引,访问每个选定文本的索引表;根据索引表和 文本的等效转换获得逻辑结论,以便生成用来链接语用户请求的疑问 词组合相对应的回复的词组的索引的随机索引语义结构,以及定义用 户请求的语义并且由预先选择的段落组成的用户请求的所有单词组 合。
此外,该方法最好还包括,使用根据逻辑结论生成的与用户请求 相对应的随机索引语义结构,作为使用获得的文本片段集合生成与用 户请求相同的疑问句的基础;基于所述知识库中的规则,利用词干和 词尾、前缀、后缀和介词的随机索引的等效转换生成所述疑问句,以 便提供用户请求的文本片段的每个单词组合的所需语义特征,以及基 于单词组合之间的传递关系,使用逻辑结论以便将它们组合为与用户 请求相同的包含回复词组的疑问句,回复词组与用户请求的疑问词组 合相对应;其中以原文文档的各种预先选择的随机索引片段为基础, 通过生成所述回复的若干相同的随机索引语义结构来保证简短回复的 正确性。
另外,该方法最好包括,在搜索处理和使用原文文档的索引表生 成回复期间,通过生成链接该请求和有关简短回复的索引原文元素, 系统进行自学习,以生成包含类型“请求回复”的元素的知识库,进行 随机索引时,以索引表的形式提供,用于文本的句子的语法和语义分 析,用于生成所述索引知识库中包含的重复请求的回复;其中以简短 回复为基础,借助获取文本片段时使用的索引表相应的逻辑结论,生 成包含有关用户请求的知识的完整回复的步骤包括,生成用来把回复 的词组链接到句子的词干的随机索引的随机索引语义结构,该链接保 持传递关系,后者完全公开文本片段内的简短回复,从而通过以所述 随机索引的语义结构为基础使用句子的等效转换,获得完整回复的链 接文本。
在该方法中,随机索引的片段的等效转换最好包括,把每个句子 表示为随机索引的单词词组的集合,借助公根词干、词尾、前缀、后 缀和介词的随机索引的等效转换,通过使用形态、句法和语义知识库 中存储的规则,转换所述组合,以生成新的引语部分或句子成分,其 中在生成新的文本片段时,保持每个句子的随机索引语义结构中的单 词组合之间的链接的稳定性,以及句子之间的一致性。
另外,在原文文档的随机索引处理中,当索引文本中出现新词时, 即随机索引单词的字典或语言文本中不包含该词时,该方法最好包括, 在字典中检索有关新词公根词,在形态分析的知识库中检索把所述公 根词等效转换为新词的规则;依据等效转换类型,确定新词所属的引 语部分以及由词尾变化或动词变化生成的所有词形,
如果在字典中找不到公根词,则从文本中选择新词的词形的特定 集合,通过使用随机索引字典或形态分析的产生式规则,基于所述词 形的词尾、后缀和前缀,确定所述新词所属的引语部分,以及由词尾 变化或动词变化生成的词形的全集。
此外,该方法提供从指定外语的原文文档中抽取知识,对于指定 的基础语言,在形态、句法和语义分析规则方面自动指导系统;通过 使用指定基础语言的随机索引语言文本,构建随机索引字典的数据库 以及形态、句法和语义分析的知识库;通过使用所述库,自动生成采 用任意指定语言的系统自动指导请求,根据所述请求,初步选择基础 语言中的语言文本片段,该片段包含学习所述外语所需的知识,对所 述文本进行等效转换;生成随机索引语义结构,在所述结构上获得逻 辑结论,以便生成与自动生成的请求相关的回复,使用所述请求以生 成任意指定外语的形态、句法和语义分析的知识库,确保从指定外语 的原文文档中抽取知识。
附图说明
利用图1所示的示例和以下表格进一步解释本发明,图1表示从 搜索系统的原文文档中抽取知识的智能自学习系统的框图,所述表格 为:
表1-句子构架;
表2-文本索引;
表3-与指定题目有关的文本索引。

具体实施方式

按如下方式定义描述中使用的术语:
知识库-一个或多个特殊排列的文件,用于存储与某一题目有 关的概念、规则和事实的系统集合。
疑问词组合是具有疑问代词或副词作为与单词组合中的主导词 (名词或动词)关联的疑问词的单词组合。
语法分析-形态和语义分析。
知识是原文文档中未明确包含的新的文本信息,该信息是系统使 用等效转换和逻辑结论(回复)自动生成的,该信息与用户请求有关, 用于解决与该请求相对应的问题。
语言文本是供学习指定语言的教育方法,科学,参考(参考字典, 百科全书)和其他文本。
逻辑结论是处理知识的技术,该技术模拟智力推理过程,并且基 于语言单位,允许综合具有明确含义的语义结构。
形态分析是句子单词的分析研究,目的是确定形态成分,各个单 词的特征的细节涉及一个或另一个引语部分;从而首先确定单词的永 久形态特征,该特征不依赖于其在句子中的位置;然后分析与其词尾 变化或动词变化有关的单词的语法形式。
词干是表示其词汇意义的单词部分;有词尾变化和动词变化的单 词有词干和词尾,其他类型的单词只有词干。
搜索系统是能够自动搜索有关关键字、题目等信息的系统。
产生式规则是诸如复杂句“如果(条件),则(结论)”之类的知 识表示形式,其中条件包括包含指定专题领域中对象之间的断言关系 和其他关系的不同单词组合,并且用逻辑“and”连接;结论包括定义 语义结果的单词组合或单词组合的集合,如果条件的所有单词组合为 真,则结果为真或开始操作。
关联是确定文档满足用户请求规定的标准的程度的度量。
语义结构是不同句子的独立语言单位相对于它们之间的关系类型 的关系形式,该结构表示所分析的文本的明确语义。
语义分析是独立语言单位的含义、重要性的分析,语言单位为: 单词,句子的单词组合,与专题领域的对象和实际现象之间的特定种 类的关系的相互相互关系。
句法分析是句子的分析研究,用于确定其句法构成,单词的特征 的分类,单词组合,其类型,单词组合和句子中的单词之间的关系的 种类,句子的结构,句子的结构类型。
人工智能系统是一个软/硬件系统,其基础部分包括逻辑结论子系 统,知识库,以及其他人工智能软/硬件装置;目的是支持人类的智力 活动或取代控制过程中的操作员。
词的词尾变化是按格修改名词(对于大部分名词,还要按单/复数 进行修改),对于形容词和其他受支配词,按性修改。
单词组合是基于相关关系(即,呼应,支配或连接),基于所述 关系引起的词汇语法关系,由两个或多个单词构成的句法句法单位。
词形是指定语法形式中存在的单词。
词的动词变化是相对于人称,数,时态和词尾变化,修改动词; 在单数形式的过去时和虚拟语气中,还要按性修改。
等效转换是利用另一个语言单位替换各个独立的语言单位,但保 持句子语义结构内或文本的一组句子中的关系,该句子能够表示相同 语义。
利用图1所示的结构示例和用于抽取搜索系统的知识的智能自学 习系统(ISLSEK),详细说明权利要求提出的方法的实施方式。人工智 能的随机索引系统包括:
-多语言处理器1;
-对原文文档进行随机索引处理并选择文本片段的子系统2;
-控制自我指导和知识抽取模式的子系统3;
-随机索引的文本和产生式的解释器4;
-文本的等效转换子系统5;
-逻辑结论子系统6;
-基础词和新词的随机索引字典的数据库7;
-随机索引的语言文本的数据库8;
-“请求回复”知识库9;
-与指定主题有关的随机索引的原文文档的数据库10;
-外来词的随机索引字典的数据库11;
-形态分析的知识库12;
-句法分析的知识库13;
-语义分析的知识库14;
-随机索引的单词组合的数据库15。
所述系统基于使用符号信息的随机转换和索引处理,用来控制自 我指导模式的产生式规则的索引表的编辑,以及文本索引。根据随机 索引,通过使用从选定的文本片段中抽取知识以及用产生式规则表示 知识或提供用户请求之回复的随机索引规则,该系统提供对文本信息 片段,逻辑结论和文本的等效转换的访问。
通过创建ISLSEK,提供以语言文本为基础,在文本信息的形态、 句法和语义分析规则方面对系统进行自我指导的机制。所述文本包括 通用字典,专用字典,同义词字典,参考字典,与指定语言的语法有 关的教育方法课本。
用户通过多语种语言处理器1与系统通信。语言处理器1输入用 自然语言书写的用户请求,输出系统生成的回复。可采用任意指定语 言实现用户和系统之间的信息交换。语言处理器1在自我指导和知识 抽取模式控制子系统3的控制下,提供与ISLSEK相连的搜索系统的 交互。交互的目的在于,在子系统3的控制下输入与某个主题有关的 指定语言的搜索系统中的新的原文文档,以便进一步处理。同时,多 语种语言处理器1采用电子形式将指定语言的语言文本输入到该系统 中。
在编辑基础字典并将所述字典输入到基础词和新词的随机索引字 典的数据库7期间,在自我指导和知识抽取模式控制子系统3的控制 下,实现语言文本的形态分析以及在形态分析规则方面对系统进行的 自我指导。在使用对原文文档进行随机索引处理并选择文本片段的子 系统2对语言文本做索引时,执行上述功能。
为编辑随机索引的基础字典,使用电子形式的通用字典,后者是 经由多语种语言处理器1输入到系统中的。根据所述字典的指定词形, 确定每个单词的引语部分,其词干和词尾集合。使用对原文文档进行 随机索引处理并选择文本片段的子系统2对词干进行随机索引,把所 述词干存储到词干索引栏目中随机索引的基础字典表中的基础词和新 词的随机索引字典的数据库7中。
作为所述字典的单词的上述处理的结果,多语种语言处理器1生 成所有单词的词干的随机索引和词干本身,同时把词尾集合存储到基 础词和新词的随机索引字典的数据库7中。
基础词和新词的随机索引字典的数据库7中存储的随机索引基础 字典具有许多表格格式,每个对应于明确的引语部分。表格的标题包 括由形态特征名称(性,数,格,人称,时态等)组成的单元格,以 及与指定单词的词形对应的疑问句,词形是指定单词的词尾变化或动 词变化时生成的。一个词干对应于由单词的所述词形的词尾组成的一 行。请注意,在开始填充随机索引的基础字典的表格时,只知道每个 单词的很少词形,即通用单词字典中提供的词形。用于填充随机索引 的基础字典的表格的其他词形及其词尾、后缀和前缀,是在开始对适 当的语言文本做索引后在形态分析方面对系统进行自我指导时确定 的。
该机制的主要原理是使用对原文文档进行随机索引处理的全新方 法,该方法是在对原文文档进行随机索引处理并选择文本片段的子系 统2中实现的。该过程基于符号信息的随机转换功能,以及词干、句 子、段落和包含参考书目提要的原文文档之标题的独特二元组合形式 的随机索引的生成。符号信息的随机转换,词干的随机索引{Iξi (u)},句 子的随机索引{Iξi (p)},段落的随机索引{Iξi (a)}和所处理文本的标题的随 机索引{Iξi (t)}的生成,与每个句子的框架(表1)和指定文本的索引表 (表2)的生成是同时进行的。
在对原文文档进行随机索引处理并选择文本片段的子系统2中创 建的所述框架(表1),包括十级(行)插槽(单元格)。插槽单元 格是在对文本进行随机索引处理期间,在每个句子的形态、句法和语 义分析期间填充的。
在语言文本的随机索引处理期间,第一级插槽中书写的是词干的 随机索引{Iξij (u)}和其词尾。第二级插槽包含与第i个句子中的顺序相应 的单词。把介词、虚词、连词和标点符号与其关联的单词的插槽中。 为了填充第三级插槽,使用第一级插槽中书写的词干的随机索引{Iξij (u)} 和其词尾。
根据词干索引,访问随机索引的基础字典的对应表格的各行,利 用用于确定与指定单词关联的引语部分相同索引来标识各行。把来自 基础词和新词的随机索引字典的数据库7的所述信息,写入到与第二 级插槽中的单词对应的句子框架的第三级插槽中。
把引语部分的特征写入到框架的第三级插槽中,在对文本进行形 态分析和句法分析期间,填充第四至第十级插槽,同时在形态分析和 句法分析规则方面对系统进行指导。以下详细说明该过程。
以填充前四级插槽的文本句子框架为基础,对原文文档进行随机 索引处理并选择文本片段的子系统2生成指定文本的索引表。
表2表示索引表,其中利用词干的随机索引{Iξi (u)}标识各行;按照 在文本中的出现顺序,利用段落索引{Iξj (a)}标识各列,位于行列交叉点 的单元格包含列表索引{Iξij (s)}。把列表{Iξij (s)}中指定的信息写入到独立 文件中,通常包括以下数据:
{Iξij (p)}是包含指定单词的句子的索引;
Ni (n)是包含指定单词的句子的数目;
(uiuj)是指定单词在句子(Iξi (p)Ni (n))中的词尾;
Iξj-1 (u)是文本的句子或段落中的前一个单词的索引,其中
如果Iξj (u)是句子(段落)的第一个单词,则索引Iξj-1 (u)后跟一个句 号。Iξj-1 (u)对应于指定段落或前一段落内的前一个句子的最后一个单 词。如果Iξj-1 (u)后跟一个逗号,意味着Iξj (u)引起分词或副动词结构,从 句或复杂句内的简单句;
Iξ(j+1) (u)是句子、段落、文本内的后续单词的索引,从而如果
Iξj (u)是句子(段落)的最后一个单词,则Iξj-1 (u)之前有一个句号;
Iξj-1 (u)对应于引起该段落或下一段落中的新句子的单词。如果Iξj-1 (u) 前有逗号,意味着Iξj (u)可以结束副动词,分词结构,或复杂句内的简 单句;
Iξj (vu)是关于句子成分的指定单词的疑问句的索引;
Iξj (pu)是与指定单词关联的句子成分的标识的索引;
Iξj (vpru)是引起Iξj (u)的副动词或分词结构或从句相对应的疑问句的 索引;
Iξj (pru)是引起Iξj (u)的副动词或分词结构或从句相对应的句子成分 的标识的索引;
所述索引和符号对应于Iξj (a)段落的一个Iξj (p)句子中有Iξi (u)词干的 单词,并且具有预定格式,后者定义指定组内的索引和符号的位置。 如果索引不存在,则在对应位置插入一个“空”标记。如果Iξi (a)段落的 n个{Iξi (p)}句子中包含指定单词Iξi (u),则列表内所述组的数量也是n。
请注意,Iξij (s)列表的前六个索引是在文本的随机索引处理期间生 成的。因此,根据词干索引Iξi (u),通过访问随机索引的基础字典,总 能确定与指定单词有关的引语部分。在形态分析和句法分析期间填充 文本的句子框架的第四至第十级插槽,然后确定列表Iξij (s)的剩余数据, 其中在句子的语法分析规则方面对系统进行自我指导时进行上述分 析。
在所有语言文本(包括由句子的语法分析的描述组成的文本)的 随机索引处理后,把所述文本存储到随机索引的语言文本的数据库8 中,该方法继续推导文本的形态分析规则,同时填充基础词和新词的 随机索引字典的数据库7。
因此,从包含与指定引语部分有关的词干的随机索引的基础字典 的每个表格中,选择每个词干以及其词尾或介词的预定集合的随机索 引。接着,根据所述索引访问随机索引的语言文本的数据库8,以选 择使得所述引语部分索引和所述词尾或介词的集合与词尾变化或动词 变化生成的对应词尾、介词或疑问句的全集相互关联的文本片段。然 后,把该文本片段输入到随机索引的文本和产生式规则的解释器4中, 其中生成随机索引的语义结构,作为所述片段包含的每个句子的单词 组合的集合:
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}    (1)
其中Iξi (u)Iξj (u)分别是单词组合的单词的主词干和次词干的随机索引; Iξi (z)Iξj (z)分别是所述单词组合的主导词和从属词的引语部分的形态特 征的随机索引;→标记确定该单词组合的主导词和从属词之间的关系。
式(1)表示的每个随机索引的语义结构的主链接是动词,后者确定 指定结构模式内的关系的语义。由不同句子组成的不同随机索引的语 义结构1中的关系存在,前提是它们有相同的单词组合,同义词,主 导词重复或用于与第一个句子的某一单词组合相应的代词的第二个句 子,以及与主导词组合中的代词。由此找到句子或句子的一部分,其 中由索引的初始请求组成的随机索引的语义结构与具有回复的索引数 据的随机索引的语义结构相关。为确定动词语义,根据动词词干的随 机索引,访问随机索引的语言文本的数据库8,以访问同义词字典的 索引表。
如果第一和第二语义结构经由需要定义其引语部分的单词组合互 连,并且与引语部分关联的动词的含义和请求的动词或推测的回复相 同或意思相同,则所述结构进入文本的等效转换子系统5。子系统5 把两个所述语义结构转换为产生式规则的单一随机索引语义结构,该 结构具有包含请求和结论(回复)的条件。所述随机索引语义结构通 常表示为:
P : I ξ 1 ( su ) Λ I ξ 2 ( su ) Λ I ξ 3 ( su ) Λ . . . Λ I ξm ( su )
I ξ 1 ( su ) Λ I ξ 2 ( su ) I ξ 3 ( su ) Λ . . . Λ I ξn ( su ) - - - ( 2 )
其中Iξ1 (su)是来自式(1)的对应单词组合Iξi (su):(Iξi (u)Iξi (r)Iξi (z)) →(Iξj (u)Iξj (r)Iξj (z))的随机索引,在普通逻辑意义上,把解释为从式(2) 的左部的条件中推导出式(2)的右部的逻辑结论的标记,前提是条件的 所有单词组合为真(符合请求的初始数据)。请注意,根据上述过程 并且基于从对应语言文本中选择的片段的数目,通过单独生成相同的 随机索引的语义结构(2),来保证每条规则的正确性。
把利用式(2)表示的等效转换子系统5导出的每条产生式规则,传 送到随机索引的文本和产生式的解释器4,以便把式(2)转换为产生式 的文本格式,即格式“If(条件),then(结论)”。把索引形式的导 出规则传送到形态分析的知识库12。以下详细说明用于综合包含随机 索引规则的知识库的过程。
在填充基础词和新词的随机索引字典的数据库7时导出对文本进 行形态分析的规则,第一个随机索引的语义结构(1)包括词干的随机索 引,该索引表示引语部分和词尾或介词的预定集合。经由相同的引语 部分索引,把第二结构(2)链接到第一结构,并确定由引语部分的词尾 变化或动词变化生成的词尾、介词、疑问句的全集。
根据上述过程,通过访问与随机索引的语言文本的数据库8的语 言文本相应的同义词字典的索引表,检查第一和第二语义结构的动词 的语义与请求和推测的回复的一致性。接着,确定链接第一和第二结 构的单词组合。如果结果是肯定的,则把所述文本片段的两个部分传 送到文本的等效转换子系统5,然后传送到随机索引的文本和产生式 的解释器4。因此,把所述文本片段转换为利用“如果(条件),则(结 论)”表示的产生式规则格式。规则条件包括与引语部分关联的单词组 合索引,以及字典格式中提供的、确定单词词尾变化或动词变化时修 改词形的词尾和介词的预定集合。结论包括作为对应引语部分的单词 的词尾变化或动词变化生成的词尾、介词和疑问句的全集。把公式化 的产生式规则写到形态分析的知识库12中。在导出用于确定引语部分 的规则后,在自我指导和知识抽取模式控制子系统3的控制下,该过 程转到综合公根词的等效转换规则的步骤。为此使用形态分析的知识 库12中存储的用于引语部分转换的通用规则,基于随机索引的基础字 典的表格,基于另一个公根引语部分选择具体说明某一引语部分的形 成过程的合适的语言文本:
“如果一个引语部分需要变换为另一个,则首先分离出第一个引语 部分的词干,然后访问随机索引的基础字典格式,从而找到其词干具 有包含该词根(可能是两个词根,可能带有前缀,可能有修改,添加, 不包括某些浊音和辅音)的通用部分的第二引语部分,带有第一引语 部分词干;在分离出词根后,使用引语部分的词干,分离出后缀;接 着,通过访问有关引语部分词干的随机索引的语言文本索引表,选择 描述将引语部分转换为另一个引语部分的适当方法的片段;通过访问 字典格式,确定关于第一引语部分的词干的第二引语部分词干的形成 方式(替换,删除,添加后缀);接着,确定替换引语部分的方法是 否与根据第一引语部分形成第二引语部分所需的方法相对应;在肯定 情况中,采用第二引语部分作为新生成的引语部分。”
作为使用一般规则转换特定单词的一部分,以一般规则为基础导 出相应的特定规则,特定规则规定根据另一个引语部分形成某个引语 部分的转换后的引语部分,后缀和方法。这发生在随机索引的文本和 产生式的解释器4中和文本的等效转换子系统5中。上述过程首先把 指定片段转换为产生式规则(2)的单一随机索引语义结构,接着转换为 “如果(条件),则(结论)”形式的产生式格式。在随机索引处理后, 把该规则输入到形态分析的知识库12中。
在对下一篇原文文档做索引时,如果出现基础字典中找不到其词 干的新词,则该方法转到定义新词的引语部分以及定义词尾变化或动 词变化生成的词尾的过程。
首先,为了定义新词所属的引语部分,从文本中选择该词的至少 两个不同词形;通过比较这些词形,确定新词的不变部分(可能是词 干)及其词尾。接着,确定基础字典格式是否包含其词根(可能带有 前缀)与新词相同的单词。词根是通根词(包括至少两个字母,包括 一个浊音)的词干的公共不可见部分,通过对该部分添加前缀、后缀 和词尾,形成公根引语部分。根据该过程,通过比较新词词干和从基 础字典格式中取得的单词词干,直至找到两个比较单词(新词和基础 字典的下一个单词)的公共不可见部分,从而分离出公根。
然后,访问形态分析的知识库12,以便选择用来确定与新词关联 的引语部分的规则。为此,应用相称的等效转换规则。
为了使用等效转换规则确定新词的引语部分,假设所述等效转换 一般规则中的第二引语部分与新词有关并且是已知的;与其有公根的 第一引语部分已经在字典中找到,因此是已知的。接着,通过使用该 规则描述的转换,检查是否能够根据已知的引语部分导出未知引语部 分的新词的词干。因此,应用根据一般规则导出的形态分析的知识库 12包含的一系列特定规则,以便将已知引语部分转换为其他引语部 分。如果通过应用某条规则导致新词的词干,则该词所属的引语部分 成为已知的,并且对应于该规则中规定的第二引语部分。通过使用形 态分析的知识库12的产生式规则,能够更详细地确定每个引语部分的 特征。例如,在对俄文进行形态分析时,形态分析的知识库12的规则 不仅能够确定新词的引语部分,而且能够确定名词的词尾(实词,形 容词),主格,单数,从而所述规则能够确定与新词有关的词尾变化 类型(1,2,3)。在实词,形容词,序数,某些类型的代词和介词的 情况中,能够准确确定词尾变化生成的词尾的全集。此时,对于所述 引语部分,能够在字典格式中找到其主格、单数的结尾与新词的结尾 相同的对应单词。所述引语部分的词尾的全集对应于新词的词尾的集 合,其中与词干一起把词尾输入到新词字典格式中。然后,形成词干 的随机索引,将生成的新词特征写入到新词字典格式中。
如果新词为动词,则在根据上述过程分离出其词干并访问形态分 析的知识库12之后,通过使用适当规则确定并找到其引语部分和不定 式。基于不定式的后缀(-Tь或-TИ),通过访问基础字典格式,找到 具有相同不定式后缀(-Tь或-TИ)的动词。采用由动词变化生成的输 入到字典格式中的动词的词尾的全集,作为推测的新词的词尾的全集。 为了更准确地确定动词变化类型(1,2),为了确定词尾的全集,在 文本索引处理期间找到其动词具有第三人称复数形式的句子,即,具 有用复数名词(代词)表示实词的句子,从而与具有人称后缀“-yT/-юT” (第一动词变化)或“-aT/-ЯT”(第二动词变化)的所述动词表示的谓 词协调一致。根据所述动词的人称后缀,在字典格式中找到具有相同 的第三人称复数词尾的动词。采用该动词的词尾的全集作为新词的词 尾的全集,并与其词干一起写到新词字典格式中。在形成新的动词词 干的随机索引后,把所有所述信息写入到新词字典格式中。
在文本索引处理期间,如果出现的新词的不同词形未出现在基础 词和新词的随机索引字典的数据库7中,则通过比较对原文文档进行 随机索引处理并选择文本片段的子系统2中的所述词形,分离出新词 词干及其词尾的特定集合。然后,形成新词词干的随机索引,与其词 尾一起输入到基础词和新词的随机索引字典的数据库7中的新词字典 格式中。在处理该词的词形的所述集合后,字典格式已经接纳各类词 尾,访问索引的基础字典表格。经过填充的所述字典包括通用单词的 索引和词干,和不同引语部分的各种词尾,与指定单词有关的由词尾 变化或动词变化生成的类型,以及引语部分特征的标识。有关字典的 请求包括单词的词干的随机索引,词干本身,以及各种可用词形词尾。 在基础词和新词的随机索引字典的数据库7中,通过使用字典格式, 找到其词尾与词尾全集内的词尾相同的单词。这意味着新词属于与字 典中具有相同词尾的单词相同的引语部分。在确定新词的引语部分后, 把请求中包含的所有信息输入到与建立的格式相应的新词字典中。同 时,根据上述过程,随机索引的文本和产生式的解释器4和文本的等 效转换子系统5,首先把所述片段转换为产生式规则的单一的随机索 引语义结构(2),然后转换为“如果(条件),则(结论)”形式的产生 式规则格式。
因此,导出产生式规则,其条件包括词尾的预定集合,结论包括 条件引用其词尾的单词的引语部分的名称;同时,在字典格式中,词 尾的全集定义由单词的词尾变化或动词变化生成的词形的修改。当同 样有词尾变化或动词变化时,结论还包括引语部分的词形的疑问句, 根据字典格式确定的过程排列疑问句。
因而,在处理包含不同词形的新词的文本时,自动确定新词的引 语部分,并把新词输入到基础词和新词的随机索引字典的数据库7中 的字典格式中,并在形态分析规则方面对系统进行指导。将这些规则 存储到形态分析的知识库12中,根据以下过程对其进行随机索引处 理,并与随机索引的基础字典格式一起使用,以确定新词的引语部分 和特征,如果该单词不在新词字典格式中的话。
在对语言文本进行形态分析和随机索引处理后,在创建形态分析 的知识库12,随机索引的语言文本的数据库8和基础词和新词的随机 索引字典的数据库7后,该方法对与指定主题有关的文本进行随机索 引处理,同时在句法分析规则方面对系统进行指导。
在控制自我指导和知识抽取模式的子系统3的控制下,通过在随 机索引的语言文本的数据库8中搜索用来定义句子句法分析过程的片 段,在句法分析规则方面对系统进行自动指导。首先,把与上述过程 相应的片段转换为产生式规则的随机索引语义结构的集合,通常具有 式(2)的形式。
逻辑结论子系统6通过使用获得的描述句子句法分析过程的产生 式规则的随机索引语义结构(2),实现逻辑结论,以生成新的产生式规 则的随机索引语义结构。在基于单词形态特征导出用来规定句子句法 分析的产生式规则期间,这些语义结构把句法元素链接到预定的引语 部分。把导出的规则存储到随机索引的用索引表表示的句法分析数据 库12中。
如上所述,句法分析以确定其执行过程开始,该过程是在与指定 语言的语法有关的教育方法原文文档中描述的。为了从所述文本中抽 取定义句法分析过程的知识,控制自我指导和知识抽取模式的子系统 3首先编辑随机索引的语言文本的数据库8的请求,以访问教育方法 课本的索引表。根据包含指定语言的“句法分析过程”的所述请求,在 所述文本中查找包含所述短语的段落和定义句法分析过程的项。
在处理适当教育方法辅助材料的文本片段后,生成以下产生式规 则,例如,对于俄语:
“如果某个句子需要进行语法分析,则句法分析过程如下:单词组 合(复杂或复合关系),简单句(实词,谓词,定语,宾语,副词), 简单句的类型(陈述句,疑问句,祈使句),句子结构(一个或两个 成分,引伸或不引伸),谓词(简单,复合动词,复合名词),具有 相似成分的句子,具有独立成分的句子,直接引语句子,复杂句,具 有一个从句的复合句,具有几个从句的复合句,不带连词的复杂句, 具有不同关系种类的复杂句”。在基于单词组合的索引{Iξi (su)}将该规则 公式化为式(2)后,形成产生式规则本身{Iξi (pp)}的随机索引,作为预定 长度的独特的二元组合:
I ξi ( su ) = F ( I ξ 1 ( su ) Λ I ξ 2 ( su ) Λ . . . Λ I ξm ( su ) I ξ 1 ( su ) Λ I ξ 2 ( su ) Λ . . . Λ I ξn ( su ) ) (3)
F是产生式规则的随机转换的函数。
然后,通过编辑随机索引的语言文本的数据库8的请求,依次公 开产生式规则(3)的结论中提及的每一项。结果为定义规则Iξi (pp)包含的 每个句法项的众多{Iξij (pp)}规则。通过使用条件或结论中的相同句法项 的产生式规则之间的关系,子系统6实现逻辑结论。由此形成以下产 生式规则的逻辑关系序列:
Iξi (pp)→{Iξi1 (pp)}→{Iξi2 (pp)}→{Iξi3 (pp)}→{Iξik (pp)}    (4)
这里,索引{Iξij (pp)}把与某层句法分析有关的规则集表示为规则 Iξi (pp)中的预定规则。例如,可以为单词组合(复杂或复合关系),简 单句(实词,谓词,定语,宾语,副词)简单句的类型(陈述句,疑 问句,祈使句)等。
因此,该系统实现演绎逻辑结论,其目的在于把句法项连接到特 定单词的引语部分,其特征,并且在所述规则下执行连续不断的句法 分析。例如,对于俄语,在所述逻辑结论中,对于“实词”项,可以找 到以下文本片段:“可以用以下单词表示句子中的实词:主格形式的名 词,主格形式的代词,不定式,单一单词组合”。把获取的文本片段传 送到解释器4,文本的等效转换子系统5和逻辑结论子系统6。所述转 换通过使用式(2),提供把单词形态特征链接到句子成分的名称的产生 式规则集:
“如果句子具有作为主格名词的单词,则该单词可能为实词”。
“如果句子具有作为主格代词的单词,则该单词可能为实词”。
“如果句子具有作为不定式的单词,则该单词可能为实词”。
“如果句子具有作为单一单词组合的单词,则该单词可能为实词”。
在抽取文本片段以形成用来定义任意单词组合和独立句子成分的 产生式规则时,句子单词的形态特征充当初始信息。根据所述初始信 息,选择文本片段,其中通过相同单词组合,把所述信息链接到引用 句子成分名称的可能回复。这些单词组合对应于具有初始形态特征的 单词。
因此,可以把定义带有指定形态特征的单词和句子成分之间的关 系的选定文本片段,传送到随机索引语义结构(2),前提是保证上述过 程的正确性。接着,用“如果(条件),则(结论)”格式的产生式规 则表示随机索引语义结构(2)。通过使用解释器4,文本的等效转换子 系统5和产生式规则,执行所述过程。规则条件包括初始单词形态特 征,其结论包括与该单词相应的句子成分的名称,和与该单词相应的 疑问句。
因此,导出产生式规则,以便确定主要句子成分(实词和谓词), 从属句子成分(定语,宾语,副词),及其单词组合。通过确定谓词 确定其类型:简单,动词,复合名词。首先,确定句子的表语成分, 其中实词和谓词配合,同时确定其他单词组合和与其对应的关系。包 括实词和定语,谓词和宾语,谓词和副词等。
于是,在文本信息处理期间,在进行句子句法分析时,在确定主 句成分和从句成分的规则方面对系统进行自我指导。把导出的规则存 储到句法分析的知识库13中。接着,根据句法分析过程,该系统自我 指导用于确定独立句子成分的规则。这里,初始数据为:引语部分, 句子成分及其特征,其中在文本转换后,包含到产生式规则的条件中。 规则的结论定义独立成分的分组类型,句子成分的名称和与其相应的 疑问句。
因此,描述独立的一致的定语(分词结构,带有从属词的形容词), 独立的不协调的定语,独立同位语,独立宾语,独立副词,包括与其 相应的疑问句。
此后,自我指导模式推导产生式规则,基于初始数据对简单句进 行句法分析,确定指定句子中的单词的句子成分,它们构成的单词组 合以及独立的句子成分组。结果为产生式规则,用于确定指定句子为 两个复合句还是为单句(如果是单句,确定该句子关联的类型:不定 人称的,无人称的,主格的等)。因此,选择带有类似成分的句子, 独立的句子成分,直接引语句。
然后,基于选择的文本片段,导出用于复杂句的句法分析的规则。 此时,产生式规则包含的初始数据为复杂句中包含的简单句的类型和 特征。规则的结论允许确定指定复杂句关联的类型:复杂句,有一个 从句的复合句,有许多从句的复合句,不带连词的复杂句,具有各种 关系类型的复杂句。同时,规则的结论定义与指定复杂句内的简单疑 问句相应的疑问句。
生成产生式规则的上述层次符合句子分析模式,其中按照逻辑表 达式(4),根据自我指导和知识抽取模式控制子系统3的指令,在开始 自我指导时配置以上模式。
把通过实现自我指导获取的产生式规则存储到句法分析的知识库 13中。请注意,在通过分析每个句子相对于指定题目处理初始数据时, 在句子句法分析规则方面对系统进行自我指导。所述分析允许填充文 本的每个句子的框架的第五至第十级,反过来利用该框架填充指定文 本的索引表(表2)以及作为每个单元格的内容的上述列表。然后, 对句法分析的知识库进行随机索引处理,并用索引表表示。由于根据 与产生式规则相应的条件的索引进行随机访问以获取搜索结果,所以 能够显著提高句子分析的效率。
以下为对知识库进行随机索引处理并用于句子的语法分析的过程 的详细描述。
在生成知识库后,知识库为“如果(条件),则(结论)”格式的 随机索引的文本表示的产生式规则的集合,把每条产生式规则传送到 随机索引的文本和产生式的解释器4。这里,再次建立随机索引的语 义结构(2),该结构包括指定规则的所有单词组合:
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}(5)
为每个单词组合指派相应的索引Iξi (su):
(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))
接着,基于所述索引,根据式(3),形成每条产生式规则Iξi (pp)的唯一的 随机索引。
另外,类似于常规原文文档的索引,生成指定知识库的索引表。 作为段落,采用的是具有索引Iξi (pp)的产生式规则。因此,进入产生式 规则索引表的项目为产生式规则字典的单词的{Iξi (u)}词干组成的行(产 生式规则包含的许多非重复词干)。与某个索引(Iξi (u))对应的行的每个 单元格包括单词组合的索引Iξi (su)和包含指定单词的规则索引(Iξi (pp)), 产生式规则中的单词的词尾和数字,以及指定规则中的前一个单词的 索引(Iξi-1 (u))和后一个单词的索引(Iξi+1 (u))。与原文文档的情况类似,允 许基于索引编辑产生式规则的文本。把表达式
Iξi (su):(Iξi (u)Iξi (r)Iξi (z)→(Iξj (u)Iξj (r)Iξj (z))
作为表格的行写入到随机索引的单词组合数据库15中。
用于访问产生式规则文本的索引的初始数据是从分析后的句子框 架中取得的。如上所述,形态分析后的框架有四行,包括词干的索引 {Iξi (u)},句子上下文的单词,与指定单词相对应的引语部分和特征,以 及它们的疑问句。该信息的各种组合均包含在产生式规则条件中,并 以逻辑结论为基础,确定(精确或近似)与指定引语部分关联的句子 成分。根据句子框架的词干的索引{Iξi (u)},以及规则的条件或结论的单 词组合的值{Iξi (su)},访问产生式规则索引表。
为了使用产生式规则执行逻辑结论功能,使用随机索引的文本和 产生式的解释器4。因此,把产生式规则转换为随机索引的语义结构 (2)。根据产生式规则条件的单词组合(Iξi (su))(在根据Iξi (su)索引访问随 机索引的单词组合的数据库15后,在确定指定单词组合的词干的随机 索引{Iξi (u)}后),可以检索句子框架的对应单元格,并从所述单元格中 读出单词的名称,引语部分的特征及其疑问句。根据结论的单词组合 {Iξi (su)},填充句子框架的第五至第十级单元格,后者确定句子成分的 名称,其分组,独立成分,复杂句中的简单句的类型,以及其疑问句。 因此,相对于条件的所有单词组合检查产生式规则;如果用逻辑“and” 连接的所有条件的单词组合均为真(并找到产生式规则条件单词组合 描述的所有特征和数据),则认为该条件为真。把在规则条件单词组 合中确定的数据输入到句子框架的第五至第十级单元格中。如果结论 有一个初步结果或单词组合,据此找到逻辑上连接的规则,则通过相 对于单词组合的词干的索引访问相应知识库的索引表搜索它们。由于 基于随机索引随机访问表格,所以无需审查产生式规则的全部集合。 因此,能够保证取得逻辑结论的时间和参与处理的产生式规则的数目 之间的线性依存关系。访问知识库和处理产生式规则的目的是用正确 数据填充句子框架的所有单元格。
如果句法分析不能准确确定某些句子成分,则为了准确确定,该 系统继续对句子的单词进行语义分析,同时在语义分析规则方面对系 统进行自我指导。首先,确定带有介词的名称或副动词等表示的实词, 定语和副词。
为了准确确定句子成分,使用基于ISLSEK导出的功能的语义分 析并从文本中选出段落和句子,文本描述各种对象之间的各种类型的 关系。该系统请求执行该功能,当句法分析不能准确确定引语部分在 所考虑的句子中的句子成分时,在自我指导和知识抽取模式控制子系 统3中自动生成所述功能。
为此使用自我指导和知识抽取模式控制子系统3,逻辑结论子系 统6和随机索引的文本和产生式的解释器4。当句法分析不能准确确 定时,通过从许多文本中选择描述预定对象之间的关系的句子,通过 确定它们之间的关系类型,准确确定句子成分。通过使用随机索引的 文本的解释器4,自动生成的系统请求和选定句子的语义分析可以确 定预定对象之间的以下类型的关系:
-性;
-集合(部分-整体);
-宾语关系;
-定义关系;
-状语;
-允许,不允许。
把状语关系细分为以下种类:
-方式;
-地点;
-时间;
-量度或程度;
-原因;
-目的;
-条件;
-让步。
在文本中,利用每个句子的表语库描述对象之间的所述关系,表 语库由实词和谓词组成,同时利用不同句子成分之间的单词组合,首 先利用描述带有副词的谓词的关系(状语)或带有宾语的谓词的关系 (宾语关系)的单词组合。为了对关系类型分类,由谓词和与其关联 的宾语或副词组成的单词组合扮演决定色。依据所述两个句子成分 的内容,确定实词和宾语或副词规定的主题宾语之间的指定句子中存 在的关系的类型。定语关系使用一致或不一致定语组成的单词组合描 述实词,并与或副词的属性。在分析句子成分时,对关系类型的分类 能够定义最复杂的情况(句法分析不能提供准确结果)中的句子成分。
为了对单词组合中的关系类型分类,根据控制子系统3发出的指 令,从随机索引的语言文本的数据库8参考字典的索引表中,向解释 器4中写入上述关系的典型单词组合的随机索引。在语义分析期间, 通过使用与参考字典文本的索引表相应的逻辑结论,通过生成随机索 引的语义结构,把研究的每个单词组合和写入到解释器4中的一个单 词组合联系起来。在用于建立系统回复的随机索引语义结构的过程的 描述中,解释根据文本的索引表导出逻辑结论的过程。
通常,使用以下五个信息源用于单词和单词组合的语义分析:
-知识库9,包含“请求回复”类型的文本元素,是在操作ISLSEK处 理典型请求期间形成的(以下详细解释所述数据库);
-随机索引的语言文本的数据库8,包含参考字典,百科全书以及通 用和专用基础科学方法参考文献的索引表,能够抽取有关指定主题的 对象及其关系类型的知识;
-语义分析的知识库14,包含准确确定句子成分的规则,用于确保语 义分析所需的句子成分的等效转换,并评价生成的输入请求的回复的 关联性;以下详细说明所述知识库;
-形态分析的知识库12,包括用于确定引语部分及其等效转换的规则;
-句法分析的知识库13,包括用于确定引语部分及其等效转换的规则。
第一个所述知识库是基于处理用户请求期间生成的随机索引的简 短回复创建的,包括“请求回复”类型的许多文本元素。该知识表示用 户请求的有关回复的语义基础,并且包括疑问句。一个句子相当于一 个用户请求,在疑问词(或疑问短语)后,句子还包括与其相应的回 复词组。词组包括一个或多个单词组合,表示独立的句子成分或从句 分组。在所述知识的每个元素中,准确确定回复词组的疑问句,以便 对指定句子表示的主题对象之间的关系分类,由此确定指定回复词组 中的主导词的句子成分。
利用众多随机索引的文本,参考字典,百科全书,通用和专用基 础科学教育参考文献,表示语言文本的数据库。包括通用词汇和指定 主题的专用术语的详细描述。利用用索引表表示的文本资料抽取其中 包含的知识,通过把它们和上述分类系统联系起来,刻画指定题目中 不同主题的主要属性和它们之间的关系。
语义分析的知识库14由产生式规则组成,该规则的自动导出的, 通过使用前两个知识库包含的逻辑结论和信息,对文本进行语义分析。
在语义分析中,利用形态分析和句法分析的知识库对文本进行等 效转换。以下详细说明等效转换处理。
为了确保知识的合理处理,把所述第一数据库表示为索引表,其 条目包括“请求回复”知识陈述的单词的词干。表格的每一行有许多单 元格,包括文本索引,作为表达指定句子的基础的段落索引和段落号, 句子内的许多单词,单词的词尾;以及句子的前一个单词和后一个单 词的索引。通过使用词干索引,利用系统的请求随机访问对应表格的 各行,从中分离所需的单元格,如果需要的话,复原对应“请求回复” 的原文。
在句子的语法分析中,所述知识库能够确定最复杂情况中的句子 成分,例如,通过准确分类,区别动词的直接宾语或间接宾语。为此, 语义分析系统生成知识库的适当请求。在第一种情况中,当需要确定 实词时(例如在句子The rain soaked the umbrella或the umbrella the rain soaked中),根据系统的请求确定其宾语,获得谓词表示的关系。 因此,采用与允许关系相对应的宾语作为实词。
如果知识库不能提供所述请求的答案,则问题指向与指定主题有 关的文本的索引表,以便在有关该题目的第二知识库的所有原文文档 中,查找包含对象之间的所需关系的单词组合。
在第二种情况中,以知识库的系统请求为基础,确定被认为是宾 语和副词的句子成分回答的问题,由此确定指定单词句子成分。为此, 在知识库的系统请求中,提及所需单词和推测答案。如果知识库有相 应的“请求回复”,其中在回复单词组合中主导词和疑问句与系统请求 的内容一致,意味着所分析的句子成分准确回答该问题。这里,系统 请求处理的所述结果能够准确确定特定单词的句子成分。例如,在分 析句子“A man’s taking a walk in a park”或“A man’s taking walk in a suit”时,为了确定单词组合in a park或in a suit的句子成分,生成两 个系统请求。第一个包括疑问词where?,和单词组合in a park,句法 分析准确推断出in a park是地点状语。在第二种情况中,生成以下系 统请求in what?-in a suit。如果系统的请求处理导致肯定答复,意味 着第一个单词组合为副词,第二个为宾语。如果系统的请求产生错误 断言(如,where?-in a suit),则答案将是否定的。这意味着单词组 合in a suit不是地点状语。
用于生成语义分析系统的第一知识库的请求的上述方法,可以应 用于句子句法分析的更复杂的情况。例如,在确定副动词结构的副词 的类型时,在确定从句的类型时。为此,生成一个特殊请求,包含指 定的副动词结构或从句,基于所述请求在大量“请求回复”类型知识库 中查找其类似语,精确度为同义词的程度。如果所述数据库中的回复 词组中包含所述类似语,则使用文本的索引表进行抽取。从而确定与 该副动词结构或从句对应的疑问句,进而准确确定其所属类型。
如果第一知识库不包括请求的类似语,则通过使用第二和第三知 识库以及逻辑结论子系统6,准确确定句子成分。如上所述,第三知 识库包含产生式规则,该规则通过使用语义分析,确定句子成分的名 称,副动词结构或复杂句中的从句类型,以形成它们的疑问句。
使用知识库执行语义分析的一个主要版本是,通过使用产生式规 则,把每个句子成分固有的语义属性翻译为包含规定单词和某个基础 单词的单词组合的集合。基于语义把基础单词单独连接到指定句子成 分,并与该成分相对应(不能与其他句子成分一起使用)。在根据最 初分析的文本生成产生式规则中描述的单词组合时,通过使用逻辑结 论,基于形态分析和句法分析知识库的规则,对原文进行等效转换。
在获取所需单词组合后,通过访问第二个索引文本的数据库,检 查其许可,其中该数据库允许选择包括所需单词组合的段落和独立的 句子。如果在许多原文文档中找到使用该单词组合的一个或多个句子, 则该单词组合的单词之间的关系是允许的。因此,认为该单词属于特 定句子成分。
可以使用更复杂的结构(如,分词,副动词结构,复杂句中的从 句)代替独立的单词组合。因此,当句法分析不能提供准确结果时, 特定单词组合表示的语义知识的组合,与确定众多原文文档中的单词 之间的许可关系的处理一起,准确确定句子成分。
在完成原文文档的句子的形态、语义和句法分析后,以获得的句 子框架为基础,生成文本的索引表(表2),包括确定表格的每个单 元格的内容的列表{Iξi (s)}。接着,该方法对与所需主题有关的下一篇文 本进行随机索引处理。同时,进行自我指导,为语义分析的知识库14 提供产生式规则,其中通过使用上述过程和随机索引的语义结构(2), 以相应的文本片段为基础导出该规则。请注意,基于从对应语言文本 中获取的许多片段,通过利用上述过程独立生成相同的随机索引语义 结构(2),保证每条规则的正确性。然后,把随机索引的语义结构转换 为“如果(条件),则(结论)”形式的产生式规则。利用随机索引的 文本和产生式的解释器4和文本的等效转换子系统5完成该处理。
在处理有关该题目的所有原文文档时,生成与该题目有关的文本 的索引表(表3)。利用原文文档中包含的词干的非重复索引{Iξi (u)}表 示各行。表格中的各列对应于在语法和语义分析期间处理的文本的随 机索引{Iξi (t)}。该表格的单元格包含由文本{Iξi (t)}的段落索引{Iξi (a)}组成 的列表的索引{Iξi (s)},包括词干的对应索引{Iξi (u)}。把列表中的条目存 储在独立文件中,根据适当索引{Iξi (s)}进行访问。
在生成所述索引表并在ISLSEK的自我指导模式中生成知识库 后,在自我指导和知识抽取模式控制子系统3的控制下,该方法继续 处理用户请求,以便从与该请求有关的原文文档中抽取知识。
在抽取知识时,该过程大量使用用户请求和文本片段的句子的等 效转换。以下详细说明转换文本句子的过程。
ISLSEK提供以下层次的文本的等效转换:
第一层等效转换是在句子成分的分组内实现的:包括实词,谓词, 宾语,副词的单词组合。该转换涉及引语部分的改变,利用不一致的 定语替换一致定语。该层次对应于以下项目的转换:a computer network-a network of computers,computer service-service of computers。
第二层等效转换对应于简单句(自主句和构成复杂句的句子)内 的句子成分的等效转换。通过使用公根引语部分的转换,执行以下类 型的句子成分替换:
用谓词替换实词;
用实词替换谓词;
用实词替换宾语;
用副词替换谓词,等。
在特殊情况中,引语部分可以不变(只有格改变)。
第三层等效转换对应于复杂句内的等效转换。此时,把一种类型 的从句替换为另一种类型的从句,或分词,动词副词短语。有时通过 利用规则确定的相配介词替换连词,把复杂句转换为简单句。
以下考虑通过替换单词组合中的句子成分(即,用不一致的定语 替换一致定语,用实词替换直接宾语)进行等效转换的例子。原句为: “Software and hardware means protect the computer programs”。在该系 统中,利用以下随机索引的语义结构表示带有{Iξ1 (p)}索引的原句:
Iξ1 (p):Iξ12 (su)→ Iξ13 (su)→ Iξ14 (su)    (5a)
该结构具有原句的以下单词组合:
Iξ12 (su)=(software and hardware means),
Iξ13 (su)=(protect);
Iξ14 (su)=(the computer programs)。
句子成分的上述等效转换允许创建以下单词组合:
Iξ22 (su)=(programs of a computer),
Iξ23 (su)=(are protected);
Iξ24 (su)=(by software and hardware means)。
上述转换导致与具有索引{Iξ1 (p)}的原句相等的句子,该句的索引为 {Iξ2 (p)},并具有以下随机索引语义结构:
Iξ2 (p):Iξ22 (su)→ Iξ23 (su)→ Iξ24 (su)    (5b)
基于该结构,生成以下句子:“Programs of computer ar eprotected by software and hardware means”,该句与原句相等。可以理解,在新 句中,实词Iξ22 (su)对应于原句的直接宾语Iξ14 (su)的单词组合,其中用不 一致定语替换一致定语。这里,把第一句的实词Iξ12 (su)转换为第二句 中的直接宾语Iξ24 (su),谓词Iξ13 (su)具有反身动词Iξ23 (su)的形式。所述转 换通常用于文本的随机索引句和用户请求的等效转换。
用户请求是用自然语言编辑的。接着,把用户请求转换为许多新 请求,新请求包括定义该请求的语义的疑问词和单词组合,并与原请 求相同。通过使用同义词(近似含义的单词)替换引语部分和句子成 分,对原用户请求进行所述等效转换。因此,由于应用形态、句法和 语义分析的随机索引规则来获取该请求的疑问句的单词组合的等效结 构,由于保持单词组合之间的语义链接,所以能够保持原请求的含义。
然后,根据转换后的用户请求,初步选择具有该请求的所有单词 组合的原文文档的片段。如果该请求无法初步选择符合上述需求的原 文文档的片段,则对该请求进行新的等效转换。
以下说明请求的处理过程以及根据不同的原文文档,段落和句子 生成回复的算法。当语言处理器1收到用户的请求时,把该请求输入 到随机索引处理并分离出文本片段的子系统2中,从而形成词干的随 机索引并分离出词尾。接着,经由自我指导和知识抽取模式控制子系 统3,把随机索引的请求写入到逻辑结论子系统6中。这里,以知识 库12和13中的产生式规则为基础,对该请求进行形态分析和句法分 析。因此,生成疑问句框架。此后,解释器4提供疑问句作为具有主 导词和从属词的单词组合的集合,以及与所述单词组合相对应词干的 随机索引。
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}    (6)
其中Iξi (u)Iξj (u)为单词组合中的主导词和从属词的词干的随机索引。
Iξi (r)Iξj (r)为所述单词组合中的主导词和从属词的引语部分的随机索引。
Iξi (z)Iξj (z)分别为所述单词组合中的主导词和从属词的引语部分的形态 和句法特征的随机索引。
基于获得的索引,生成该请求的随机索引语义结构,该结构通常 表示为:
P:Iξ1 (su)ΛIξ2 (su)→ Iξ3 (su)→ Iξ4 (su)ΛIξ5 (su)    (7)
其中Iξ1 (su)为疑问词组合的索引,
Iξ2 (su)为实词的单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→ Iξ3 (su)为连接实词和谓词的表语句数据库;Iξ3 (su)→ Iξ4 (su)为确定句子中的 关系类型的谓词和宾语(副词)之间的关系;Iξ4 (su)为宾语(副词)的 单词组合的索引;Iξ5 (su)为副词(宾语)的单词组合的索引。
根据表达式(6,7)的索引,通过访问有关预定题目的随机索引 文本的数据库10,使用有关预定主题的文本的索引表,找到包含该请 求的所有单词组合的片段集合,包括疑问词组合。每个文本片段由一 个或多个段落组成。
如果找到满足所述条件的一个或多个文本,则该方法通过使用每 个文本的索引表继续处理这些文本的段落。请注意,在带有Iξ1 (u)索引 的某个文本的索引表中(在该表格的某个单元格的列表Iξ1 (s)中),出 现具有疑问句索引和与其关联的主导词的词干索引的疑问词组合,表 示指定文本的所述段落包含由回复Iξ0 (su)的词组组成的句子,该词组与 疑问词组合(Iξ0 (su)→Iξ1 (su))的主导词连接。
如果找不到符合所述条件的至少一个文本,则该方法通过用同义 词或近似含义的单词替换文本段落不包含的单词,通过在不改变请求 的含义的情况下替换引语部分和句子成分,继续对用户的请求进行等 效转换。
通过参照指定文本的索引表,进一步处理满足所述条件的文本。 为此,通过访问数据库10中的文本索引表,通过使用疑问词组合Iξ1 (su) 的索引,找到包含回复的词组的句子,该词组对应于该请求的疑问词 组合,并且连接到该请求的主导词。如果该请求的单词组合
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}
包含在各种文本的不同段落
V:{(Iξi (t)Iξj (a))中,
则形成该回复的单一逻辑连接文本的必要条件为,在至少一个段落中, 出现与该请求的疑问词组合的Iξ1 (t)相应的回复Iξ0 (su)的词组,以及其通 式包含实词和谓词组合的索引的表达式(7)的表语数据库Iξ2 (su)→Iξ3 (su)。 如果满足所述条件,则使用分离出的段落集合进行进一步处理,因为 基于初步选择的段落可以形成该请求的单一逻辑连接文本。否则,该 方法继续输入有关该主题的新文本并进行索引处理。
首先,考虑生成回复的简单情况,即能够以指定文本的一个或多 个连续段落为基础,形成包含该请求的所有单词组合的文本片段。此 时,首先按以下表达式的方式,形成该回复的随机索引语义结构的数 据库:
P:Iξ0 (su)→Iξ1 (su)ΛIξ2 (su)→Iξ3 (su)    (8)
其中Iξ0 (su)为回复词组索引;Iξ1 (su)为疑问词组合的索引;Iξ2 (su)为实词的 单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→ Iξ3 (su)为句子的表 语数据库。为此,在指定文本片段中确定包含与疑问词组合的主导词 (Iξ0 (su)→Iξ1 (su))连接的索引回复词组的句子后,找到包含谓词数据库 (Iξ2 (su)→Iξ3 (su))的句子。
由于所述词组通常包括不同措辞,因此为了创建语义结构模式(8), 使用指定文本片段的索引句执行逻辑结论过程。为此,把包含回复词 组的第i个句子表示为
P:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ3i (su)→Iξ4i (su)ΛIξ5i (su)    (9)
其中Iξ0 (su)为回复词组索引;Iξ1 (su)为疑问词组合的索引;Iξ2i (su)为实词 词组索引;Iξ3i (su)为谓词的单词组合索引;Iξ2i (su)→ Iξ3i (su)为句子的表语 数据库;Iξ3i (su)→ Iξ4i (su)为定义指定句子中的关系类型的谓词和宾语(副 词)之间的关系;Iξ4i (su)为宾语(副词)的单词组合的索引;Iξ5i (su)为副 词(宾语)的单词组合。
为了基于表达式(9)实现逻辑结论,通过使用传递关系,生成第i 个句子的题目→注释类型随机索引语义结构:
TR:Iξ2i (su)→ Iξ3i (su)→Iξ4i (su)=Iξ2i (su)→ Iξ4i (su)    (10)
其中题目为实词组合的索引Iξ2i (su),注释为宾语(副词)单词组合索引 Iξ4i (su)。
包含该请求的表语数据库的第j个句子通常具有以下随机索引语 义结构:
P:Iξ2 (su)→ Iξ3 (su)→Iξ4j (su)ΛIξ5j (su)    (11)
其中Iξ2 (su)为请求的实词单词组合索引;Iξ3 (su)为请求的谓词的单词组合 索引;Iξ2 (su)→Iξ3 (su)为请求句的表语数据库;Iξ3 (su)→ Iξ4j (su)为定义第j 个句子中的关系类型的实词和宾语(副词)之间的关系;Iξ4j (su)为宾语 (副词)的单词组合的索引;Iξ5j (su)为副词(宾语)的单词组合的索引。 把表达式(11)转换为第j个句子的题目→注释语义结构:
TR:Iξ2 (su) →Iξ4j (su)    (12)
请注意,文本信息的完全句之间有语义连接,因此有语法(句法) 连接。句子的结构相关(即,它们之间的句法连接)有两种方法。第 一种方法为连续连接,第二种方法为并列连接。
连续连接表示连接文本中思想的连续发展。题目(主题)为初始 点,思想发展的开始,“特定的”;注释为思想发展,其基础,核心,“新 的”。
把连续连接的语义结构表示为两个相邻句的结构相关。通常,前 一句的某个成分(如宾语)成为后一句的实词。连续连接的最常见结 构类型为:“宾语-实词”,“宾语-宾语”,“实词-宾语”,“实词-实 词”等。
利用a)词汇反复(当句子的相关成分的表现相同时);b)同义词; c)代词表示连续连接中的句子之间的结构相关。
连续连接为自主句中最重要使用最广泛的连接方法。
与连续连接类似,并列连接存在于关联句的结构相关。然而相关 的性质不同。句子中的并列连接的主要结构特征为:a)结构平行(通 用类型或句法近似的关联句);b)平行(类似)词序;c)所有或某些 句子成分的相同语法表示。
语义“进入”段落中的连续和并列连接结构是,文本的指定段落或 许多连续段落的关联句中的原句的题目。
因此,以题目→注释类型的每个句子的基本语义结构为基础,通 过逻辑结论,可以找到用来定语连续和并列类型的句子之间的连接的 更复杂的语义结构。为此,第i个句子中的回复词组和第j个句子中 的请求句的表语数据库之间的语义连接的必要条件为基于逻辑结论的 证据,其中指定文本片段的单一语义结构包括逻辑结论。按照随机索 引形式,该结构表示为:
Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)ΛIξ4j (su)ΛIξ4k (su)Λ...ΛIξ2m (su)→Iξ2 (su)Λ Iξ2 (su)→Iξ4j (su)=Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)→Iξ4k (su)...Iξ2i (su)→Iξ4j (su) (13)
用于确定所述词组之间存在语义连接的逻辑结论,是基于与指定 题目有关的随机索引原文文档数据库10的文本的索引表导出的。为 此,使用逻辑结论子系统6和等效转换子系统5。逻辑结论从第i个句 子开始,该句子包括与疑问词组合的主导词相连的回复的词组,请求 的表语数据库,并具有随机索引语义结构(9)。
在把所述句子表示为类型题目→注释(10)的语义结构后,根据索引 表,找到指定句的注释转入下一个句子的题目的下一个句子。为此, 使用与指定段落的索引Iξj (a)对应并与第i个句子的宾语或副词的单词 组合索引Iξ4i (su)对应的单元格。根据所述单元格,找到指定段落中的句 子数,其中指定单词组合包括实词。接着,使用单元格地址信息,找 到所述句子的谓词的索引以及宾语或副词的单词组合的关联索引 Iξ4k (su),即,根据表达式(13),找到与前一个句子逻辑连接的下一个句 子的注释。逻辑结论继续,直至关系(Iξ2 (su)→Iξ4j (su))定义的下一个句子 包括与该请求的表语数据库对应的索引(Iξ2 (su)→Iξ3 (su))。
如果在逻辑结论期间,任何句子的注释索引Iξ4n (su)与下一个句子的 题目Iξ2n+1 (su)均不相符,意味着所述下一个句子或者使用指定单词的同 义词,或者使用代词。在前一种情况中,根据该单词组合的词干的索 引Iξ2n+1 (su),访问随机索引的语言文本的数据库8的同义词字典中的索 引表。这里,找到同义词的词干{Iξs (u)},根据该词干形成下一个句子 的注释的索引Iξ4n (su)。在后一种情况中,下一个句子的题目的索引 Iξ2n+1 (su)对应于与单词组合Iξ4n (su)一致的代词,根据数据库7的字典的 索引表进行检查。如果满足第一或第二条件,则逻辑结论继续直至找 到包含查找的请求单词组合的句子,此时为请求表语数据库的 (Iξ2 (su)→Iξ3 (su))。因此,在逻辑结论期间,综合与表达式(13)相应的随机 索引语义结构。
在考虑的情况中,如果该请求的所有单词组合均包含在一个段落 或某个文本的一组连续段落中,则指定文本片段中的逻辑结论将继续, 以生成包含该请求的所有单词组合的单一随机索引语义结构,单词组 合包括宾语Iξ4 (su)和副词Iξ5 (su)的单词组合:
S:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)→Iξ4k (su)...Iξ2 (su)→ Iξ4 (su)...Iξ2m (su)→Iξ4 (su)...Iξ2n (su)→Iξ5 (su)    (14)
为此,按照顺序题目→注释执行上述逻辑结论功能,直至语义结 构(14)包括由指定段落的不同句子组成的请求的所有单词组合。请注 意,综合所述语义结构(14)的必要条件是,该请求的单词组合对应于 相同句子成分,并且该单词组合与文本段落中的单词组合相同。因此, 如果与文本的句子中的请求单词组合相同的单词组合涉及其他句子成 分,则对这些句子进行等效转换,从而所述单词组合涉及请求的句子 成分。在等效转换子系统5中,根据上述过程执行该功能。
在生成语义结构(14)时,该方法继续检查是否没有矛盾。为此,利 用基础关系检查每个句子包含的谓词{Iξ3i (su)}的单词组合的语义相关, 其中语义结构(14)是基于该句子生成的。此类关系为性方面的关系, “部分-整体”或“因果”(条件-结论)类型的关系。这些关系是通过 根据所述索引访问随机索引文本的数据库8确定的,目的是查找参考 字典索引表中谓词{Iξ3i (su)}的语义。在该步骤中,检查带有上述基础关 系或写入到解释器(4)中的同义词的{Iξ3i (su)}索引的谓词的语义的同一 性。如果满足上述条件,则在生成的语义结构(14)中保持传递关系。 因此,可以把查找的具有Iξj (su)索引的请求单词组合传送到生成的回复 句中,其方法是在具有Iξi-1 (su)索引的单词组合后,在生成的题目→注 释类型语义结构中使用逻辑结论。如果不满足该条件,则指定段落不 包含与用户请求有关的回复。此时,该方法继续分析下一个预先选择 的段落或一组段落。
当在段落的不同句子中找到所述单词组合时,用于确定请求单词 组合之间的语义关系的上述逻辑结论过程继续,直至生成该用户的简 短回复,作为包括回复词组,疑问词组合,表语数据库和该回复包含 的所有其他单词组合的句子。把生成的简短回复表示为以下随机索引 语义结构:
P:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ3 (su)→Iξ4 (su)ΛIξ5 (su)    (15)
其中Iξ0 (su)为回复词组索引,Iξ1 (su)为疑问词组合索引;Iξ2 (su)为实词单词 组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→Iξ3 (su)为句子的表语数 据库;Iξ3 (su)→ Iξ4 (su)为谓词和宾语(副词)之间的关系,该关系定义指 定句子中的关系类型;Iξ4 (su)为宾语(副词)的单词组合的索引;Iξ5 (su) 为副词(宾语)的单词组合的索引。
根据上述过程,通过以原文文档的不同的预先选择的随机索引片 段为基础,生成若干相同的随机索引语义结构(15),确保简短回复的 正确性。
生成的结构(15)意味着简短回复导致的逻辑结论与该请求的疑问 句相同。因此,该回复与用户请求关联。在将其转换为指定语言的文 本形式后,向用户输出该回复,作为系统根据该请求提供的知识。
如果用户请求提供更完整的回复,则该方法以生成简短回复的段 落为基础,继续转换文本的原始段落;如果需要的话,转换后续文本 段落。其目的是以所述段落为基础,获取在指定文本片段内提供简短 回复之细节的单一的随机索引语义结构。以下论述执行上述功能生成 完整回复的方法。
在初步搜索索引表时,如果找不到其段落包含该请求的所有单词 组合的文本,则根据获得的请求索引,查找其段落集合包含该请求的 所有单词组合的文本。如果找不到此类文本片段集合,意味着随机索 引原文文档的数据库10的内容不能生成与用户请求有关的回复。此 时,该方法继续从搜索系统中输入与指定主题有关的新文本,并进行 索引处理。
在初步选择期间,通过使用与该请求的单词组合S:{Iξi (u)→Iξj (u)} 的索引相应的文本的索引表,为每个文本选择包含该请求的所有单词 组合的段落集合形式的片段:
V:{Iξi (t),Iξj (a)}
其中Iξi (t),Iξj (a)分别为包含用户请求的单词组合的指定文本的文本索引 和段落索引。如果请求单词组合的索引Iξi (su):{Iξi (u)→Iξj (u)}没有完全包 含在至少一个文本Iξi (t)的任一段落(Iξi (t),Iξj (a))中,而是包含在一个文本 的不同段落中或不同文本的不同段落中
V:{Iξi (t),Iξj (a)},
则基于预先选择的文本片段的段落,生成包含该请求的所有单词组合 (包括疑问词组合)的单一逻辑连接文本
S:={Iξi (su)}。
此时,如果不同文本{Iξi (t),Iξj (a)}的不同段落包含单词组合S: ={Iξi (su)},则生成单一逻辑连接文本的必要条件为,在至少一个段落中, 出现回复词组的索引Iξ0 (su),该请求的疑问词组合Iξ1 (su)的主导词和表 达式(15)的表语数据库(Iξ2 (su)→Iξ3 (su)),其中表达式的通式包括实词和谓 词组合的索引。
如果满足所述条件,则使用选定的段落集合进行进一步处理,因 为可以以预先选择的段落为基础,生成单一逻辑连接的回复文本。否 则,该方法继续输入有关指定主题的新文本,并进行索引处理。
如果满足所述条件,则该方法继续形成所述段落的逻辑连接集合。 为此,检查以下条件的一致性:每个单词组合包含在至少两个不同段 落中:
Iξi (su)→(Iξi (t),Iξj (a)),...,(Iξk (t),IξI (a))    (16)
如果不满足所述条件,则该方法检查只包含一个请求单词组合 Iξi (su)的段落是否具有预选段落包含的利用某一基础语义关系与Iξi (su)单 词组合相连的其他单词组合Iξk (su)。对于所述检查,自我指导和知识抽 取模式控制子系统3生成一个请求,该请求所述随机索引的语言文本 的数据库8,查找包含题目→注释关系连接的所述索引的句子:
Iξk (su)→Iξi (su)    (16a)
把找到的句子传送到随机索引的文本和产生式的解释器4,后者 检查关系(16a)是否与性、集合或因果关系相对应。
如果不满足条件(16)和(16a),则推断出不能使用该文本片段生成 回复。
如果满足所述条件,则该方法继续检查以选定段落为基础生成单 一语义结构的可能性。为此,首先通过使用包含预选段落的每个文本 的索引表,编辑单词组合索引列表。单词组合索引包含在适当索引标 识的段落中:
(Iξi (t),Iξj (a))→(Iξi (su)),...,(Iξk (su))    (17)
接着,通过使用所述段落列表中的单词组合的相同索引,该方法 确定每个指定段落关联的段落。基于所述列表,为每个段落索引编辑 新列表,每个列表包括利用相同单词组合索引连接到指定段落的其他 段落的索引。因此,如果每个列表包括至少一个其他列表包含的至少 一个段落,则通过使用列表之间直接和间接传递关系,生成包含所有 段落之索引的单一列表。此时,认为预选段落能够形成单一文本片段 形式的逻辑连接的段落集合。否则,认为该段落集合不能构成组成单 一文本片段所需的逻辑结构。此时,从处理中排除所述集合,该方法 继续预选新的文本片段。
在确定预选段落构成逻辑连接段落的单一结构后,基于每个文本 对应索引表生成单一文本表。为此,按照请求疑问句中的段落包含的 请求单词组合序列的顺序确定的次序,排列所述段落。传送由此生成 的文本片段进行进一步处理,以便通过使用逻辑结论,确定包含该请 求的所有单词组合{Iξi (u)}的段落的句子之间的语义连接的类型。执行所 述功能,以便以上述算法获得的文本片段为基础,生成包含该请求的 所有单词组合的随机索引语义结构。此后,根据上述算法,通过使用 等效转换以及有关传递关系的逻辑结论,应用获得的语义结构,以生 成包含与用户请求有关的简短回复的句子的语义结构(15)。根据上述 过程,通过以原文文档的不同的预先选择的随机索引片段为基础,生 成若干相同的随机索引语义结构(15),确保简短回复的正确性。
把获得的简短回复和疑问词组合一起存储到“请求回复”知识库9 中,利用数据库9处理重复的典型用户请求,并且如上所述,对索引 文本进行语义分析。
在建立语义结构后,如果在指定文本片段的请求的单词组合{Iξi (su)} 之间不能保持所需的基础语义连接,则该方法继续搜索新文本,以生 成该用户的回复。
如果逻辑结论产生肯定结果,则生成其简短回复与该请求有关的 句子,向用户输出该句子作为指定语言的文本。此时,如果用户需要 更完整的回复,则该方法根据以下所述方法,通过转换先前获得的文 本片段,继续生成完整回复的步骤。
以下举例说明执行上述算法生成简短回复的过程。假设在等效转 换接收的用户请求后,该请求获得以下文本形式:“What program is used in case of incorrect computer operation termination as a result of voltage failure in the mains?”。这允许从完全包含转换后的请求的所有 单词组合的原文文档中预选以下两个逻辑连接的段落:
“Logical errors may occur on the hard disc.The logical errors are disorders in the file structure.To find out the logical errors,the“Disc check”routine is used.The logical errors occur when computer operation is terminated incorrectly.”
第二段:“In case of voltage failure in the mains,file structure disorders occur on the hard disc.In such case the“Disc check”routine is used.”
在随机索引形式中,其中请求的实际出来发生并生成简短回复, 该请求如下:
Iξ0 (P):Iξ01 (su)ΛIξ02 (su)→Iξ03 (su)→Iξ04 (su)ΛIξ05 (su)ΛIξ041 (su)ΛIξ051 (su) (18)
以下单词组合与随机索引Iξ0j (su)相对应:
Iξ01 (su)=(what program)
Iξ02 (su)=(program)
Iξ03 (su)=(is used)
Iξ04 (su)=(in case of incorrect termination)
Iξ05 (su)=(computer operation)
Iξ41 (su)=(as a result of failure)
Iξ051 (su)=(voltage in the mains)
把随机索引形式的第一段中的句子表示为:
Iξ1 (P):Iξ12 (su)→Iξ13 (su)→Iξ14 (su)
Iξ2 (P):Iξ22 (su)→Iξ23 (su)→Iξ24 (su)
Iξ3 (P):Iξ32 (su)→Iξ33 (su)→Iξ34 (su)ΛIξ35 (su)
Iξ4 (P):Iξ42 (su)→Iξ43 (su)→Iξ44 (su)ΛIξ45 (su)    (19)
以下单词组合对应于随机索引Iξij (su):
Iξ12 (su)=(logical errors)
Iξ13 (su)=(may occur)
Iξ14 (su)=(on the hard disc)
Iξ22 (su)=(logical errors)
Iξ23 (su)=(is)
Iξ24 (su)=(disorders in the file structure)
Iξ32 (su)=(“Disc check”routine)
Iξ33 (su)=(is used)
Iξ34 (su)=(to find out)
Iξ35 (su)=(logical errors)
Iξ42 (su)=(logical errors)
Iξ43 (su)=(occur)
Iξ44 (su)=(in case of incorrect termination)
Iξ45 (su)=(of computer operation)
把随机索引形式的第二段中的句子表示为:
Iξ5 (P):Iξ52 (su)→Iξ53 (su)→Iξ54 (su)ΛIξ55 (su)ΛIξ551 (su)
Iξ6 (P):Iξ62 (su)→Iξ63 (su)→Iξ64 (su)    (20)
以下单词组合对应于随机索引Iξij (su):
Iξ52 (su)=(disorders in the file structure)
Iξ53 (su)=(occur)
Iξ54 (su)=(on the hard disc)
Iξ55 (su)=(as a result of failure)
Iξ551 (su)=(voltage in the mains)
Iξ62 (su)=(“Disc check”routine)
Iξ63 (su)=(is used)
Iξ64 (su)=(to find out)
Iξ65 (su)=(logical error)
Iξ651 (su)=(in such case)
以所述随机索引语义结构为基础,根据上述过程建立包含所有请 求的单词组合Iξij (su)的随机索引语义结构。作为基础,选择包含与疑问 词组合Iξ31 (p)对应回复词组Iξ32 (su)的结构Iξ3 (p)。考虑以下单词组合的同 一性(与词干相同):
Iξ02 (su)=Iξ31 (su)=Iξ64 (su)
Iξ03 (su)=Iξ33 (su)
Iξ04 (su)=Iξ44 (su)
Iξ04 (su)=Iξ45 (su)
Iξ041 (su)=Iξ55 (su)
Iξ051 (su)=Iξ551 (su)
Iξ12 (su)=Iξ22 (su)=Iξ42 (su)
Iξ24 (su)=Iξ52 (su)    (21)
因此,所述随机索引结构具有以下形式:
Iξ0 (P):Iξ32 (su)→Iξ33 (su)→Iξ34 (su)ΛIξ35 (su)→Iξ24 (su)→Iξ55 (su)ΛIξ551 (su) →Iξ35 (su) →Iξ44 (su)ΛIξ45 (su)    (22)
考虑到对应索引的同一性以及指定语义结构中的索引之间的关系 具有性和因果特性,通过使用逻辑结论获得以下结构:
Iξ0 (P):Iξ32 (su)ΛIξ02 (su)→Iξ03 (su)→Iξ04 (su)ΛIξ05 (su)ΛIξ041 (su)ΛIξ051 (su)  (23)
因此,建立的简短回复的随机索引语义结构为:“The“Disc check” routine is used when computer operation is terminated incorrectly as a result of voltage failure in the mains.”
在利用疑问词组合“What program”替换““Disc check”routine”回 复词组后,获得的简短回复与以下请求相同:“What program is used in case of incorrect computer operation termination as a result of voltage failure in the mains?”。这就是获得的该请求的简短回复的关联标准。 因此,可以向用户输出获得的简短回复。
为了以预选段落或获得的文本片段为基础生成完整回复,仅仅选 择生成的简短回复句的逻辑结论中包含的句子。按照逻辑连接引起的 顺序排列所述段落或文本片段的句子。逻辑连接的顺序与确认请求的 单词组合之间的语义连接所用的顺序相同。不同句子包含的单词组合 与同一请求单词组合关联,其中具有回复词组和疑问词组合的主导词 的句子包含请求的单词组合。与先前生成的简短回复中的所述连接相 对应的请求单词组合的连续次序确定句子连接的连续次序。为了提供 句子的一致性,生成完整回复包括通过替换引语部分或句子成分等效 转换某些句子,而并不改变所述句子的含义。如果句子的等效转换要 求替换介词,则与特定介词组合时,在考虑引语部分必需具有的特征 的情况下进行替换。如果需要的话,可能需要替换引语部分的格,以 便与名词或形容词,代词或带有新介词的分词一致。为此,利用适当 规则连接介词和格,其中所述引语部分与指定介词一致。
如果请求的疑问词或单词组合(how?in what manner?)设想非简 短的单句回复,而是步骤序列或过程或现象的描述,此时简短回复的 措辞为包含以下类型的回复词组的起始句:“as follow”,“thus”。回 复的后续句子公开包含完整回复的步骤序列或描述的内容。如果该回 复的典型词组不存在,则另外引入相同词组以生成起始句。此后,采 用起始句中的回复词组作为未来完整回复的起始题目。另外,通过使 用逻辑结论,选择构成指定用户请求的完整回复的语义连接句的集合 的一个或多个段落的句子序列。逻辑连接句子的连续连接确定回复的 边界,当完成一个段落时连接结束,前提是所述段落的最后一个句子 的题目与下一段的第一个句子的注释没有联系。在生成包含起始句的 完整回复的文本片段后,向用户输出所述片段。
本文开发的方法适合于综合自我指导系统,后者用于从采用指定 外语的搜索系统使用的原文文档中抽取知识。通过使用指定外语的随 机索引语言文本,根据上述过程,在形态、句法和语义分析规则方面 对该系统进行自动指导。对采用指定外语表示的导出规则进行随机索 引处理,然后写入到形态、句法和语义分析的对应知识库12-14中。 基础词和新词的随机索引字典的数据库7和随机索引的原文文档的数 据库10是用指定外语生成的。
在根据上述过程生成所述数据和知识库后,采用指定外语转换用 户的请求,初步选择所需题目的原文文档的片段。接着,对原文文档 片段的数据进行等效转换;生成随机索引语义结构,使用所述结构导 出逻辑结论,以生成与指定外语的请求有关的简短回复。
本文开发的方法适合于综合自我指导系统,后者用于从采用众多 指定外语之任一外语的搜索系统使用的原文文档中抽取知识。为此, 使用随机索引人工智能系统形式的自我指导机制,其基础是应用用于 随机索引处理的随机索引的双态信号的唯一组合以及搜索指定基础语 言中的语言文本片段,该片段包括语法和语义分析的描述。该机制通 过等效转换任意指定外语的文本的随机索引片段,在语法和语义分析 规则方面为系统提供自动自我指导,提供逻辑结论并根据所述片段生 成连接语义结构,对所述结构进行随机索引处理以便用产生式规则表 示。
首先,通过使用上述机制,对电子形式的指定基础语言中的语言 文本进行形态分析和随机索引处理,同时在形态分析规则方面对系统 进行指导。同时创建指定外语的随机索引字典的数据库7和数据库8 的语言文本的索引表,以及创建形态分析的知识库12,后者包含用于 指定基础语言和指定外语的导出产生式规则。
接着,对于搜索系统中电子形式的指定外语中的指定题目涉及的 原文文档进行形态分析和句法分析,并进行随机索引处理。然后,形 成指定主题的原文文档的索引表,存储在随机索引文本的数据库10 中,同时在句法分析规则方面对系统进行自动指导。通过使用指定基 础语言中的随机索引语言文本,根据上述过程实现所述指导。然后创 建基础语言和指定外语的句法分析的知识库13。
接着,对电子形式的指定基础语言中的指定主题的随机索引原文 文档进行语义分析,同时在语义分析规则方面对系统进行自动指导, 并创建基础语言和指定外语的语义分析的知识库14。
在完成知识库11和12后,该系统从自动自我指导模式转到用户 请求处理模式。在这种情况下,用户请求是采用指定外语的自然语言 生成的,在对包含定义该请求语义的疑问词组合和单词组合的疑问句 进行随机索引处理后,用电子形式表示该请求。然后,通过使用上述 过程,把随机索引形式的用户请求转换为与指定外语的原始请求相等 的众多新请求。接着,根据用户请求,预选包含转换后的请求的所有 单词组合的电子形式的指定外语中的原文文档的随机索引片段。通过 使用所述原文文档片段,生成随机索引语义结构。基于生成的随机索 引语义结构,通过使用提供各种文本的随机索引元素之间的连接的逻 辑结论,通过使用文本的等效转换,生成一个简短回复,后者包含定 义请求语义的随机索引单词组合以及与该请求的疑问词组合对应的回 复词组。通过以原文文档的不同的预先选择的随机索引片段为基础, 生成若干相同的随机索引语义结构,确保简短回复的正确性。
通过用相应的随机索引的疑问词组合替换回复词组,生成随机索 引的疑问句,并比较获得的疑问句和该请求,检查获得的简短回复与 该请求的关联性。基于所述句子的比较,当获得的疑问句与该请求相 同时,确定简短回复与该请求关联,并采用指定外语向用户显示该请 求。
考虑应用综合自我指导系统的方法的另一种方案,其中所述系统 从指定外语的原文文档中抽取知识。此时,首先根据上述过程,通过 使用指定基础语言中的随机索引语言文本,在形态、句法和语义分析 规则方面对系统进行自动指导。随机索引语言文本数据库8包含以选 定的基础语言为基础学习指定外语的教育指导手册。在外来词的随机 索引字典的数据库11中写入字典,后者提供从基础语言到任一指定外 语的各个单词的直接翻译或反向翻译。接着,创建随机索引字典的数 据库7以及指定基础语言的形态、句法和语义分析的知识库12-14。 此后,自动自我指导模式控制子系统3自动生成所述数据库和知识库 的请求,以便初步选择基础语言中的语言文本片段,该片段包括学习 指定外语所需的知识。接着,对该文本进行等效转换,生成随机索引 语义结构,以及与预定结构相应的逻辑结论,以便生成与导出的自动 请求关联的回复。利用上述回复生成指定外语的原文文档的形态、句 法和语义分析的产生式规则。例如,如果基础语言为俄语,则在自动 导出的规则中,用于学习英语的句法分析的知识库包括以下规则:
1.如果不带介词的名词位于句子的开始,
and所述名词位于具有of(in,from)介词的名词之前,
and所述名词之后有一个动词,
则第一个名词为实词。
例如:The work of the engineer is on the table.
2.如果单词组合由系动词(人称形式的to be动词)和形容词表示的 名词性部分组成,
则该单词组合为复合名词性谓词。
例如:The tree is big.
在随机索引处理后,把导出的规则写入到形态、句法和语义分析 的知识库12-14中,以便从用户请求的指定外语的原文文档中抽取知 识。通过使用相应外语,创建与指定题目有关的随机索引字典的数据 库和原文文档的索引表。请注意,在语义分析与所需外语的预定题目 有关的原文文档时,为了确定语义连接类型,通过使用随机索引的外 来词字典的数据库11,把某些单词组合翻译为基础语言。根据基础语 言参考字典的索引表,通过使用逻辑结论,使得某些单词组合与其索 引已写入随机索引的文本和产生式的解释器4中的一类语义关系相互 关联。因此,根据上述过程,语义分析能够指定与引语部分相对应的 单词,并且在生成该请求的回复的随机索引语义结构时,确定单词组 合之间的关系类型。
通过使用所述数据库和知识库,在自我指导和知识抽取模式控制 子系统3的控制下,采用指定外语对用户请求进行等效转换。接着, 预选与指定题目有关的原文文档的片段;执行等效转换,生成随机索 引语义结构和导出所述结构的逻辑结论。从而确保准备与指定外语的 用户请求关联的回复。
在处理请求时,如果发现需要访问搜索系统以便输入指定题目的 外语的新的原文文档,则自我指导和知识抽取模式控制子系统3启动 多语种语言处理器1。该处理器接收指令,以输入基础语言中的新文 档,其中指令规定题目和外语的名称。多语种语言处理器1通过使用 随机索引外语字典的数据库11,选择所需字典,并将指示题目名称的 单词翻译为适当外语。基于接收的信息,多语种语言处理器1向搜索 系统提供指定语言的形式化请求,以便输入与指定题目有关的新的外 语文档。把所述文档传送到子系统2,后者对原文文档进行随机索引 处理,分离出用于上述处理的文本片段,然后存储到随机索引的原文 文档的数据库10中。
工业适用性
用于综合从搜索系统使用的原文文档中抽取知识的自我指导系统 的发明方法,通过使用从文本中抽取知识的多语种系统,可以创建基 于因特网的知识产业。实现该技术将在人类活动的不同领域中从质量 上提供全新的信息服务,上述领域包括工业,科学,教育,文化,因 为这是文明社会发展的时代要求。该方法的工业应用的其他远景方向 是移动系统(移动因特网)。借助创建智能信息搜索系统的可能性支 持所述方向,该搜索系统能够根据用户请求从因特网存储的大量原文 文档中抽取特定知识和数据,所以只需花费最少的时间来传输、接收 用户需要的信息。用户可以采用自然语言或语音向该系统输入请求。 根据权利提出要求的方法的工业应用的一个重要方向是,在各种主题 和问题领域内创建新一代的智能指导系统。
表1.句子框架
  简单句的疑问句   基于句法分析知识库生成简单句的疑问句   复杂句或复合句包含的简   单句的命名   简单句的特征   句子成分的分组的疑问句   基于作为指定分组的基础的句子成分的疑问句   生成句子成分的分组的疑问句   句子成分的分组的命名   分组包括:   谓词   宾语   副词   句子独立成分   插入词,单词组合和插入结构   句子的成分的疑问句   根据字典格式(包括介词)和索引表,把引语   部分的疑问句翻译为句子成分的疑问句   句子成分的命名   实词,   谓词(简单动词,复合动词,复合名词),   定语(一致,不一致),   宾语(直接,间接),   状语(方式,地点,时间,量度或程度,原因,   目的,条件,让步)   引语部分的疑问句   根据字典格式   引语部分及其特征   根据字典格式   单词   在句子上下文中   词干的随机索引   根据特殊算法计算或从字典格式中分离
表2.文本索引

表3.与指定题目有关的文本索引
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈