按如下方式定义描述中使用的术语:
知识库-一个或多个特殊排列的文件,用于存储与某一题目有 关的概念、规则和事实的系统集合。
疑问词组合是具有疑问代词或副词作为与单词组合中的主导词 (名词或动词)关联的疑问词的单词组合。
语法分析-形态和语义分析。
知识是原文文档中未明确包含的新的文本信息,该信息是系统使 用等效转换和逻辑结论(回复)自动生成的,该信息与用户请求有关, 用于解决与该请求相对应的问题。
语言文本是供学习指定语言的教育方法,科学,参考(参考字典, 百科全书)和其他文本。
逻辑结论是处理知识的技术,该技术模拟智力推理过程,并且基 于语言单位,允许综合具有明确含义的语义结构。
形态分析是句子单词的分析研究,目的是确定形态成分,各个单 词的特征的细节涉及一个或另一个引语部分;从而首先确定单词的永 久形态特征,该特征不依赖于其在句子中的
位置;然后分析与其词尾 变化或动词变化有关的单词的语法形式。
词干是表示其词汇意义的单词部分;有词尾变化和动词变化的单 词有词干和词尾,其他类型的单词只有词干。
搜索系统是能够自动搜索有关关键字、题目等信息的系统。
产生式规则是诸如复杂句“如果(条件),则(结论)”之类的知 识表示形式,其中条件包括包含指定专题领域中对象之间的
断言关系 和其他关系的不同单词组合,并且用逻辑“and”连接;结论包括定义 语义结果的单词组合或单词组合的集合,如果条件的所有单词组合为 真,则结果为真或开始操作。
关联是确定文档满足用户请求规定的标准的程度的度量。
语义结构是不同句子的独立语言单位相对于它们之间的关系类型 的关系形式,该结构表示所分析的文本的明确语义。
语义分析是独立语言单位的含义、重要性的分析,语言单位为: 单词,句子的单词组合,与专题领域的对象和实际现象之间的特定种 类的关系的相互相互关系。
句法分析是句子的分析研究,用于确定其句法构成,单词的特征 的分类,单词组合,其类型,单词组合和句子中的单词之间的关系的 种类,句子的结构,句子的结构类型。
人工智能系统是一个软/
硬件系统,其基础部分包括逻辑结论子系 统,知识库,以及其他人工智能软/硬件装置;目的是支持人类的智力 活动或取代控制过程中的操作员。
词的词尾变化是按格
修改名词(对于大部分名词,还要按单/复数 进行修改),对于形容词和其他受支配词,按性修改。
单词组合是基于相关关系(即,呼应,支配或连接),基于所述 关系引起的词汇语法关系,由两个或多个单词构成的句法句法单位。
词形是指定语法形式中存在的单词。
词的动词变化是相对于人称,数,时态和词尾变化,修改动词; 在单数形式的过去时和虚拟语气中,还要按性修改。
等效转换是利用另一个语言单位替换各个独立的语言单位,但保 持句子语义结构内或文本的一组句子中的关系,该句子能够表示相同 语义。
利用图1所示的结构示例和用于抽取搜索系统的知识的智能自学 习系统(ISLSEK),详细说明
权利要求提出的方法的实施方式。人工智 能的随机索引系统包括:
-多语言处理器1;
-对原文文档进行随机索引处理并选择文本片段的子系统2;
-控制自我指导和知识抽取模式的子系统3;
-随机索引的文本和产生式的解释器4;
-文本的等效转换子系统5;
-逻辑结论子系统6;
-基础词和新词的随机索引字典的数据库7;
-随机索引的语言文本的数据库8;
-“请求回复”知识库9;
-与指定主题有关的随机索引的原文文档的数据库10;
-外来词的随机索引字典的数据库11;
-形态分析的知识库12;
-句法分析的知识库13;
-语义分析的知识库14;
-随机索引的单词组合的数据库15。
所述系统基于使用符号信息的随机转换和索引处理,用来控制自 我指导模式的产生式规则的索引表的编辑,以及文本索引。根据随机 索引,通过使用从选定的文本片段中抽取知识以及用产生式规则表示 知识或提供用户请求之回复的随机索引规则,该系统提供对文本信息 片段,逻辑结论和文本的等效转换的访问。
通过创建ISLSEK,提供以语言文本为基础,在文本信息的形态、 句法和语义分析规则方面对系统进行自我指导的机制。所述文本包括 通用字典,专用字典,同义词字典,参考字典,与指定语言的语法有 关的教育方法课本。
用户通过多语种语言处理器1与系统通信。语言处理器1输入用 自然语言书写的用户请求,输出系统生成的回复。可采用任意指定语 言实现用户和系统之间的信息交换。语言处理器1在自我指导和知识 抽取模式控制子系统3的控制下,提供与ISLSEK相连的搜索系统的 交互。交互的目的在于,在子系统3的控制下输入与某个主题有关的 指定语言的搜索系统中的新的原文文档,以便进一步处理。同时,多 语种语言处理器1采用电子形式将指定语言的语言文本输入到该系统 中。
在编辑基础字典并将所述字典输入到基础词和新词的随机索引字 典的数据库7期间,在自我指导和知识抽取模式控制子系统3的控制 下,实现语言文本的形态分析以及在形态分析规则方面对系统进行的 自我指导。在使用对原文文档进行随机索引处理并选择文本片段的子 系统2对语言文本做索引时,执行上述功能。
为编辑随机索引的基础字典,使用电子形式的通用字典,后者是 经由多语种语言处理器1输入到系统中的。根据所述字典的指定词形, 确定每个单词的引语部分,其词干和词尾集合。使用对原文文档进行 随机索引处理并选择文本片段的子系统2对词干进行随机索引,把所 述词干存储到词干索引栏目中随机索引的基础字典表中的基础词和新 词的随机索引字典的数据库7中。
作为所述字典的单词的上述处理的结果,多语种语言处理器1生 成所有单词的词干的随机索引和词干本身,同时把词尾集合存储到基 础词和新词的随机索引字典的数据库7中。
基础词和新词的随机索引字典的数据库7中存储的随机索引基础 字典具有许多表格格式,每个对应于明确的引语部分。表格的标题包 括由形态特征名称(性,数,格,人称,时态等)组成的单元格,以 及与指定单词的词形对应的疑问句,词形是指定单词的词尾变化或动 词变化时生成的。一个词干对应于由单词的所述词形的词尾组成的一 行。请注意,在开始填充随机索引的基础字典的表格时,只知道每个 单词的很少词形,即通用单词字典中提供的词形。用于填充随机索引 的基础字典的表格的其他词形及其词尾、后缀和前缀,是在开始对适 当的语言文本做索引后在形态分析方面对系统进行自我指导时确定 的。
该机制的主要原理是使用对原文文档进行随机索引处理的全新方 法,该方法是在对原文文档进行随机索引处理并选择文本片段的子系 统2中实现的。该过程基于符号信息的随机转换功能,以及词干、句 子、段落和包含参考书目提要的原文文档之标题的独特二元组合形式 的随机索引的生成。符号信息的随机转换,词干的随机索引{Iξi (u)},句 子的随机索引{Iξi (p)},段落的随机索引{Iξi (a)}和所处理文本的标题的随 机索引{Iξi (t)}的生成,与每个句子的
框架(表1)和指定文本的索引表 (表2)的生成是同时进行的。
在对原文文档进行随机索引处理并选择文本片段的子系统2中创 建的所述框架(表1),包括十级(行)插槽(单元格)。插槽单元 格是在对文本进行随机索引处理期间,在每个句子的形态、句法和语 义分析期间填充的。
在语言文本的随机索引处理期间,第一级插槽中书写的是词干的 随机索引{Iξij (u)}和其词尾。第二级插槽包含与第i个句子中的顺序相应 的单词。把介词、虚词、连词和标点符号与其关联的单词的插槽中。 为了填充第三级插槽,使用第一级插槽中书写的词干的随机索引{Iξij (u)} 和其词尾。
根据词干索引,访问随机索引的基础字典的对应表格的各行,利 用用于确定与指定单词关联的引语部分相同索引来标识各行。把来自 基础词和新词的随机索引字典的数据库7的所述信息,写入到与第二 级插槽中的单词对应的句子框架的第三级插槽中。
把引语部分的特征写入到框架的第三级插槽中,在对文本进行形 态分析和句法分析期间,填充第四至第十级插槽,同时在形态分析和 句法分析规则方面对系统进行指导。以下详细说明该过程。
以填充前四级插槽的文本句子框架为基础,对原文文档进行随机 索引处理并选择文本片段的子系统2生成指定文本的索引表。
表2表示索引表,其中利用词干的随机索引{Iξi (u)}标识各行;按照 在文本中的出现顺序,利用段落索引{Iξj (a)}标识各列,位于行列交叉点 的单元格包含列表索引{Iξij (s)}。把列表{Iξij (s)}中指定的信息写入到独立 文件中,通常包括以下数据:
{Iξij (p)}是包含指定单词的句子的索引;
Ni (n)是包含指定单词的句子的数目;
(uiuj)是指定单词在句子(Iξi (p)Ni (n))中的词尾;
Iξj-1 (u)是文本的句子或段落中的前一个单词的索引,其中
如果Iξj (u)是句子(段落)的第一个单词,则索引Iξj-1 (u)后跟一个句 号。Iξj-1 (u)对应于指定段落或前一段落内的前一个句子的最后一个单 词。如果Iξj-1 (u)后跟一个逗号,意味着Iξj (u)引起分词或副动词结构,从 句或复杂句内的简单句;
Iξ(j+1) (u)是句子、段落、文本内的后续单词的索引,从而如果
Iξj (u)是句子(段落)的最后一个单词,则Iξj-1 (u)之前有一个句号;
Iξj-1 (u)对应于引起该段落或下一段落中的新句子的单词。如果Iξj-1 (u) 前有逗号,意味着Iξj (u)可以结束副动词,分词结构,或复杂句内的简 单句;
Iξj (vu)是关于句子成分的指定单词的疑问句的索引;
Iξj (pu)是与指定单词关联的句子成分的标识的索引;
Iξj (vpru)是引起Iξj (u)的副动词或分词结构或从句相对应的疑问句的 索引;
Iξj (pru)是引起Iξj (u)的副动词或分词结构或从句相对应的句子成分 的标识的索引;
所述索引和符号对应于Iξj (a)段落的一个Iξj (p)句子中有Iξi (u)词干的 单词,并且具有预定格式,后者定义指定组内的索引和符号的位置。 如果索引不存在,则在对应位置插入一个“空”标记。如果Iξi (a)段落的 n个{Iξi (p)}句子中包含指定单词Iξi (u),则列表内所述组的数量也是n。
请注意,Iξij (s)列表的前六个索引是在文本的随机索引处理期间生 成的。因此,根据词干索引Iξi (u),通过访问随机索引的基础字典,总 能确定与指定单词有关的引语部分。在形态分析和句法分析期间填充 文本的句子框架的第四至第十级插槽,然后确定列表Iξij (s)的剩余数据, 其中在句子的语法分析规则方面对系统进行自我指导时进行上述分 析。
在所有语言文本(包括由句子的语法分析的描述组成的文本)的 随机索引处理后,把所述文本存储到随机索引的语言文本的数据库8 中,该方法继续推导文本的形态分析规则,同时填充基础词和新词的 随机索引字典的数据库7。
因此,从包含与指定引语部分有关的词干的随机索引的基础字典 的每个表格中,选择每个词干以及其词尾或介词的预定集合的随机索 引。接着,根据所述索引访问随机索引的语言文本的数据库8,以选 择使得所述引语部分索引和所述词尾或介词的集合与词尾变化或动词 变化生成的对应词尾、介词或疑问句的全集相互关联的文本片段。然 后,把该文本片段输入到随机索引的文本和产生式规则的解释器4中, 其中生成随机索引的语义结构,作为所述片段包含的每个句子的单词 组合的集合:
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))} (1)
其中Iξi (u)Iξj (u)分别是单词组合的单词的主词干和次词干的随机索引; Iξi (z)Iξj (z)分别是所述单词组合的主导词和从属词的引语部分的形态特 征的随机索引;→标记确定该单词组合的主导词和从属词之间的关系。
式(1)表示的每个随机索引的语义结构的主链接是动词,后者确定 指定结构模式内的关系的语义。由不同句子组成的不同随机索引的语 义结构1中的关系存在,前提是它们有相同的单词组合,同义词,主 导词重复或用于与第一个句子的某一单词组合相应的代词的第二个句 子,以及与主导词组合中的代词。由此找到句子或句子的一部分,其 中由索引的初始请求组成的随机索引的语义结构与具有回复的索引数 据的随机索引的语义结构相关。为确定动词语义,根据动词词干的随 机索引,访问随机索引的语言文本的数据库8,以访问同义词字典的 索引表。
如果第一和第二语义结构经由需要定义其引语部分的单词组合互 连,并且与引语部分关联的动词的含义和请求的动词或推测的回复相 同或意思相同,则所述结构进入文本的等效转换子系统5。子系统5 把两个所述语义结构转换为产生式规则的单一随机索引语义结构,该 结构具有包含请求和结论(回复)的条件。所述随机索引语义结构通 常表示为:
其中Iξ1 (su)是来自式(1)的对应单词组合Iξi (su):(Iξi (u)Iξi (r)Iξi (z)) →(Iξj (u)Iξj (r)Iξj (z))的随机索引,在普通逻辑意义上,把解释为从式(2) 的左部的条件中推导出式(2)的右部的逻辑结论的标记,前提是条件的 所有单词组合为真(符合请求的初始数据)。请注意,根据上述过程 并且基于从对应语言文本中选择的片段的数目,通过单独生成相同的 随机索引的语义结构(2),来保证每条规则的正确性。
把利用式(2)表示的等效转换子系统5导出的每条产生式规则,传 送到随机索引的文本和产生式的解释器4,以便把式(2)转换为产生式 的文本格式,即格式“If(条件),then(结论)”。把索引形式的导 出规则传送到形态分析的知识库12。以下详细说明用于综合包含随机 索引规则的知识库的过程。
在填充基础词和新词的随机索引字典的数据库7时导出对文本进 行形态分析的规则,第一个随机索引的语义结构(1)包括词干的随机索 引,该索引表示引语部分和词尾或介词的预定集合。经由相同的引语 部分索引,把第二结构(2)链接到第一结构,并确定由引语部分的词尾 变化或动词变化生成的词尾、介词、疑问句的全集。
根据上述过程,通过访问与随机索引的语言文本的数据库8的语 言文本相应的同义词字典的索引表,检查第一和第二语义结构的动词 的语义与请求和推测的回复的一致性。接着,确定链接第一和第二结 构的单词组合。如果结果是肯定的,则把所述文本片段的两个部分传 送到文本的等效转换子系统5,然后传送到随机索引的文本和产生式 的解释器4。因此,把所述文本片段转换为利用“如果(条件),则(结 论)”表示的产生式规则格式。规则条件包括与引语部分关联的单词组 合索引,以及字典格式中提供的、确定单词词尾变化或动词变化时修 改词形的词尾和介词的预定集合。结论包括作为对应引语部分的单词 的词尾变化或动词变化生成的词尾、介词和疑问句的全集。把公式化 的产生式规则写到形态分析的知识库12中。在导出用于确定引语部分 的规则后,在自我指导和知识抽取模式控制子系统3的控制下,该过 程转到综合公根词的等效转换规则的步骤。为此使用形态分析的知识 库12中存储的用于引语部分转换的通用规则,基于随机索引的基础字 典的表格,基于另一个公根引语部分选择具体说明某一引语部分的形 成过程的合适的语言文本:
“如果一个引语部分需要变换为另一个,则首先分离出第一个引语 部分的词干,然后访问随机索引的基础字典格式,从而找到其词干具 有包含该词根(可能是两个词根,可能带有前缀,可能有修改,添加, 不包括某些浊音和辅音)的通用部分的第二引语部分,带有第一引语 部分词干;在分离出词根后,使用引语部分的词干,分离出后缀;接 着,通过访问有关引语部分词干的随机索引的语言文本索引表,选择 描述将引语部分转换为另一个引语部分的适当方法的片段;通过访问 字典格式,确定关于第一引语部分的词干的第二引语部分词干的形成 方式(替换,删除,添加后缀);接着,确定替换引语部分的方法是 否与根据第一引语部分形成第二引语部分所需的方法相对应;在肯定 情况中,采用第二引语部分作为新生成的引语部分。”
作为使用一般规则转换特定单词的一部分,以一般规则为基础导 出相应的特定规则,特定规则规定根据另一个引语部分形成某个引语 部分的转换后的引语部分,后缀和方法。这发生在随机索引的文本和 产生式的解释器4中和文本的等效转换子系统5中。上述过程首先把 指定片段转换为产生式规则(2)的单一随机索引语义结构,接着转换为 “如果(条件),则(结论)”形式的产生式格式。在随机索引处理后, 把该规则输入到形态分析的知识库12中。
在对下一篇原文文档做索引时,如果出现基础字典中找不到其词 干的新词,则该方法转到定义新词的引语部分以及定义词尾变化或动 词变化生成的词尾的过程。
首先,为了定义新词所属的引语部分,从文本中选择该词的至少 两个不同词形;通过比较这些词形,确定新词的不变部分(可能是词 干)及其词尾。接着,确定基础字典格式是否包含其词根(可能带有 前缀)与新词相同的单词。词根是通根词(包括至少两个字母,包括 一个浊音)的词干的公共不可见部分,通过对该部分添加前缀、后缀 和词尾,形成公根引语部分。根据该过程,通过比较新词词干和从基 础字典格式中取得的单词词干,直至找到两个比较单词(新词和基础 字典的下一个单词)的公共不可见部分,从而分离出公根。
然后,访问形态分析的知识库12,以便选择用来确定与新词关联 的引语部分的规则。为此,应用相称的等效转换规则。
为了使用等效转换规则确定新词的引语部分,假设所述等效转换 一般规则中的第二引语部分与新词有关并且是已知的;与其有公根的 第一引语部分已经在字典中找到,因此是已知的。接着,通过使用该 规则描述的转换,检查是否能够根据已知的引语部分导出未知引语部 分的新词的词干。因此,应用根据一般规则导出的形态分析的知识库 12包含的一系列特定规则,以便将已知引语部分转换为其他引语部 分。如果通过应用某条规则导致新词的词干,则该词所属的引语部分 成为已知的,并且对应于该规则中规定的第二引语部分。通过使用形 态分析的知识库12的产生式规则,能够更详细地确定每个引语部分的 特征。例如,在对俄文进行形态分析时,形态分析的知识库12的规则 不仅能够确定新词的引语部分,而且能够确定名词的词尾(实词,形 容词),主格,单数,从而所述规则能够确定与新词有关的词尾变化 类型(1,2,3)。在实词,形容词,序数,某些类型的代词和介词的 情况中,能够准确确定词尾变化生成的词尾的全集。此时,对于所述 引语部分,能够在字典格式中找到其主格、单数的结尾与新词的结尾 相同的对应单词。所述引语部分的词尾的全集对应于新词的词尾的集 合,其中与词干一起把词尾输入到新词字典格式中。然后,形成词干 的随机索引,将生成的新词特征写入到新词字典格式中。
如果新词为动词,则在根据上述过程分离出其词干并访问形态分 析的知识库12之后,通过使用适当规则确定并找到其引语部分和不定 式。基于不定式的后缀(-Tь或-TИ),通过访问基础字典格式,找到 具有相同不定式后缀(-Tь或-TИ)的动词。采用由动词变化生成的输 入到字典格式中的动词的词尾的全集,作为推测的新词的词尾的全集。 为了更准确地确定动词变化类型(1,2),为了确定词尾的全集,在 文本索引处理期间找到其动词具有第三人称复数形式的句子,即,具 有用复数名词(代词)表示实词的句子,从而与具有人称后缀“-yT/-юT” (第一动词变化)或“-aT/-ЯT”(第二动词变化)的所述动词表示的谓 词协调一致。根据所述动词的人称后缀,在字典格式中找到具有相同 的第三人称复数词尾的动词。采用该动词的词尾的全集作为新词的词 尾的全集,并与其词干一起写到新词字典格式中。在形成新的动词词 干的随机索引后,把所有所述信息写入到新词字典格式中。
在文本索引处理期间,如果出现的新词的不同词形未出现在基础 词和新词的随机索引字典的数据库7中,则通过比较对原文文档进行 随机索引处理并选择文本片段的子系统2中的所述词形,分离出新词 词干及其词尾的特定集合。然后,形成新词词干的随机索引,与其词 尾一起输入到基础词和新词的随机索引字典的数据库7中的新词字典 格式中。在处理该词的词形的所述集合后,字典格式已经接纳各类词 尾,访问索引的基础字典表格。经过填充的所述字典包括通用单词的 索引和词干,和不同引语部分的各种词尾,与指定单词有关的由词尾 变化或动词变化生成的类型,以及引语部分特征的标识。有关字典的 请求包括单词的词干的随机索引,词干本身,以及各种可用词形词尾。 在基础词和新词的随机索引字典的数据库7中,通过使用字典格式, 找到其词尾与词尾全集内的词尾相同的单词。这意味着新词属于与字 典中具有相同词尾的单词相同的引语部分。在确定新词的引语部分后, 把请求中包含的所有信息输入到与建立的格式相应的新词字典中。同 时,根据上述过程,随机索引的文本和产生式的解释器4和文本的等 效转换子系统5,首先把所述片段转换为产生式规则的单一的随机索 引语义结构(2),然后转换为“如果(条件),则(结论)”形式的产生 式规则格式。
因此,导出产生式规则,其条件包括词尾的预定集合,结论包括 条件引用其词尾的单词的引语部分的名称;同时,在字典格式中,词 尾的全集定义由单词的词尾变化或动词变化生成的词形的修改。当同 样有词尾变化或动词变化时,结论还包括引语部分的词形的疑问句, 根据字典格式确定的过程排列疑问句。
因而,在处理包含不同词形的新词的文本时,自动确定新词的引 语部分,并把新词输入到基础词和新词的随机索引字典的数据库7中 的字典格式中,并在形态分析规则方面对系统进行指导。将这些规则 存储到形态分析的知识库12中,根据以下过程对其进行随机索引处 理,并与随机索引的基础字典格式一起使用,以确定新词的引语部分 和特征,如果该单词不在新词字典格式中的话。
在对语言文本进行形态分析和随机索引处理后,在创建形态分析 的知识库12,随机索引的语言文本的数据库8和基础词和新词的随机 索引字典的数据库7后,该方法对与指定主题有关的文本进行随机索 引处理,同时在句法分析规则方面对系统进行指导。
在控制自我指导和知识抽取模式的子系统3的控制下,通过在随 机索引的语言文本的数据库8中搜索用来定义句子句法分析过程的片 段,在句法分析规则方面对系统进行自动指导。首先,把与上述过程 相应的片段转换为产生式规则的随机索引语义结构的集合,通常具有 式(2)的形式。
逻辑结论子系统6通过使用获得的描述句子句法分析过程的产生 式规则的随机索引语义结构(2),实现逻辑结论,以生成新的产生式规 则的随机索引语义结构。在基于单词形态特征导出用来规定句子句法 分析的产生式规则期间,这些语义结构把句法元素链接到预定的引语 部分。把导出的规则存储到随机索引的用索引表表示的句法分析数据 库12中。
如上所述,句法分析以确定其执行过程开始,该过程是在与指定 语言的语法有关的教育方法原文文档中描述的。为了从所述文本中抽 取定义句法分析过程的知识,控制自我指导和知识抽取模式的子系统 3首先编辑随机索引的语言文本的数据库8的请求,以访问教育方法 课本的索引表。根据包含指定语言的“句法分析过程”的所述请求,在 所述文本中查找包含所述短语的段落和定义句法分析过程的项。
在处理适当教育方法辅助材料的文本片段后,生成以下产生式规 则,例如,对于俄语:
“如果某个句子需要进行语法分析,则句法分析过程如下:单词组 合(复杂或复合关系),简单句(实词,谓词,定语,宾语,副词), 简单句的类型(陈述句,疑问句,祈使句),句子结构(一个或两个 成分,引伸或不引伸),谓词(简单,复合动词,复合名词),具有 相似成分的句子,具有独立成分的句子,直接引语句子,复杂句,具 有一个从句的复合句,具有几个从句的复合句,不带连词的复杂句, 具有不同关系种类的复杂句”。在基于单词组合的索引{Iξi (su)}将该规则 公式化为式(2)后,形成产生式规则本身{Iξi (pp)}的随机索引,作为预定 长度的独特的二元组合:
(3)
F是产生式规则的随机转换的函数。
然后,通过编辑随机索引的语言文本的数据库8的请求,依次公 开产生式规则(3)的结论中提及的每一项。结果为定义规则Iξi (pp)包含的 每个句法项的众多{Iξij (pp)}规则。通过使用条件或结论中的相同句法项 的产生式规则之间的关系,子系统6实现逻辑结论。由此形成以下产 生式规则的逻辑关系序列:
Iξi (pp)→{Iξi1 (pp)}→{Iξi2 (pp)}→{Iξi3 (pp)}→{Iξik (pp)} (4)
这里,索引{Iξij (pp)}把与某层句法分析有关的规则集表示为规则 Iξi (pp)中的预定规则。例如,可以为单词组合(复杂或复合关系),简 单句(实词,谓词,定语,宾语,副词)简单句的类型(陈述句,疑 问句,祈使句)等。
因此,该系统实现演绎逻辑结论,其目的在于把句法项连接到特 定单词的引语部分,其特征,并且在所述规则下执行连续不断的句法 分析。例如,对于俄语,在所述逻辑结论中,对于“实词”项,可以找 到以下文本片段:“可以用以下单词表示句子中的实词:主格形式的名 词,主格形式的代词,不定式,单一单词组合”。把获取的文本片段传 送到解释器4,文本的等效转换子系统5和逻辑结论子系统6。所述转 换通过使用式(2),提供把单词形态特征链接到句子成分的名称的产生 式规则集:
“如果句子具有作为主格名词的单词,则该单词可能为实词”。
“如果句子具有作为主格代词的单词,则该单词可能为实词”。
“如果句子具有作为不定式的单词,则该单词可能为实词”。
“如果句子具有作为单一单词组合的单词,则该单词可能为实词”。
在抽取文本片段以形成用来定义任意单词组合和独立句子成分的 产生式规则时,句子单词的形态特征充当初始信息。根据所述初始信 息,选择文本片段,其中通过相同单词组合,把所述信息链接到引用 句子成分名称的可能回复。这些单词组合对应于具有初始形态特征的 单词。
因此,可以把定义带有指定形态特征的单词和句子成分之间的关 系的选定文本片段,传送到随机索引语义结构(2),前提是保证上述过 程的正确性。接着,用“如果(条件),则(结论)”格式的产生式规 则表示随机索引语义结构(2)。通过使用解释器4,文本的等效转换子 系统5和产生式规则,执行所述过程。规则条件包括初始单词形态特 征,其结论包括与该单词相应的句子成分的名称,和与该单词相应的 疑问句。
因此,导出产生式规则,以便确定主要句子成分(实词和谓词), 从属句子成分(定语,宾语,副词),及其单词组合。通过确定谓词 确定其类型:简单,动词,复合名词。首先,确定句子的表语成分, 其中实词和谓词配合,同时确定其他单词组合和与其对应的关系。包 括实词和定语,谓词和宾语,谓词和副词等。
于是,在文本信息处理期间,在进行句子句法分析时,在确定主 句成分和从句成分的规则方面对系统进行自我指导。把导出的规则存 储到句法分析的知识库13中。接着,根据句法分析过程,该系统自我 指导用于确定独立句子成分的规则。这里,初始数据为:引语部分, 句子成分及其特征,其中在文本转换后,包含到产生式规则的条件中。 规则的结论定义独立成分的分组类型,句子成分的名称和与其相应的 疑问句。
因此,描述独立的一致的定语(分词结构,带有从属词的形容词), 独立的不协调的定语,独立同位语,独立宾语,独立副词,包括与其 相应的疑问句。
此后,自我指导模式推导产生式规则,基于初始数据对简单句进 行句法分析,确定指定句子中的单词的句子成分,它们构成的单词组 合以及独立的句子成分组。结果为产生式规则,用于确定指定句子为 两个复合句还是为单句(如果是单句,确定该句子关联的类型:不定 人称的,无人称的,主格的等)。因此,选择带有类似成分的句子, 独立的句子成分,直接引语句。
然后,基于选择的文本片段,导出用于复杂句的句法分析的规则。 此时,产生式规则包含的初始数据为复杂句中包含的简单句的类型和 特征。规则的结论允许确定指定复杂句关联的类型:复杂句,有一个 从句的复合句,有许多从句的复合句,不带连词的复杂句,具有各种 关系类型的复杂句。同时,规则的结论定义与指定复杂句内的简单疑 问句相应的疑问句。
生成产生式规则的上述层次符合句子分析模式,其中按照逻辑表 达式(4),根据自我指导和知识抽取模式控制子系统3的指令,在开始 自我指导时配置以上模式。
把通过实现自我指导获取的产生式规则存储到句法分析的知识库 13中。请注意,在通过分析每个句子相对于指定题目处理初始数据时, 在句子句法分析规则方面对系统进行自我指导。所述分析允许填充文 本的每个句子的框架的第五至第十级,反过来利用该框架填充指定文 本的索引表(表2)以及作为每个单元格的内容的上述列表。然后, 对句法分析的知识库进行随机索引处理,并用索引表表示。由于根据 与产生式规则相应的条件的索引进行随机访问以获取搜索结果,所以 能够显著提高句子分析的效率。
以下为对知识库进行随机索引处理并用于句子的语法分析的过程 的详细描述。
在生成知识库后,知识库为“如果(条件),则(结论)”格式的 随机索引的文本表示的产生式规则的集合,把每条产生式规则传送到 随机索引的文本和产生式的解释器4。这里,再次建立随机索引的语 义结构(2),该结构包括指定规则的所有单词组合:
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}(5)
为每个单词组合指派相应的索引Iξi (su):
(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))
接着,基于所述索引,根据式(3),形成每条产生式规则Iξi (pp)的唯一的 随机索引。
另外,类似于常规原文文档的索引,生成指定知识库的索引表。 作为段落,采用的是具有索引Iξi (pp)的产生式规则。因此,进入产生式 规则索引表的项目为产生式规则字典的单词的{Iξi (u)}词干组成的行(产 生式规则包含的许多非重复词干)。与某个索引(Iξi (u))对应的行的每个 单元格包括单词组合的索引Iξi (su)和包含指定单词的规则索引(Iξi (pp)), 产生式规则中的单词的词尾和数字,以及指定规则中的前一个单词的 索引(Iξi-1 (u))和后一个单词的索引(Iξi+1 (u))。与原文文档的情况类似,允 许基于索引编辑产生式规则的文本。把表达式
Iξi (su):(Iξi (u)Iξi (r)Iξi (z)→(Iξj (u)Iξj (r)Iξj (z))
作为表格的行写入到随机索引的单词组合数据库15中。
用于访问产生式规则文本的索引的初始数据是从分析后的句子框 架中取得的。如上所述,形态分析后的框架有四行,包括词干的索引 {Iξi (u)},句子上下文的单词,与指定单词相对应的引语部分和特征,以 及它们的疑问句。该信息的各种组合均包含在产生式规则条件中,并 以逻辑结论为基础,确定(精确或近似)与指定引语部分关联的句子 成分。根据句子框架的词干的索引{Iξi (u)},以及规则的条件或结论的单 词组合的值{Iξi (su)},访问产生式规则索引表。
为了使用产生式规则执行逻辑结论功能,使用随机索引的文本和 产生式的解释器4。因此,把产生式规则转换为随机索引的语义结构 (2)。根据产生式规则条件的单词组合(Iξi (su))(在根据Iξi (su)索引访问随 机索引的单词组合的数据库15后,在确定指定单词组合的词干的随机 索引{Iξi (u)}后),可以检索句子框架的对应单元格,并从所述单元格中 读出单词的名称,引语部分的特征及其疑问句。根据结论的单词组合 {Iξi (su)},填充句子框架的第五至第十级单元格,后者确定句子成分的 名称,其分组,独立成分,复杂句中的简单句的类型,以及其疑问句。 因此,相对于条件的所有单词组合检查产生式规则;如果用逻辑“and” 连接的所有条件的单词组合均为真(并找到产生式规则条件单词组合 描述的所有特征和数据),则认为该条件为真。把在规则条件单词组 合中确定的数据输入到句子框架的第五至第十级单元格中。如果结论 有一个初步结果或单词组合,据此找到逻辑上连接的规则,则通过相 对于单词组合的词干的索引访问相应知识库的索引表搜索它们。由于 基于随机索引随机访问表格,所以无需审查产生式规则的全部集合。 因此,能够保证取得逻辑结论的时间和参与处理的产生式规则的数目 之间的线性依存关系。访问知识库和处理产生式规则的目的是用正确 数据填充句子框架的所有单元格。
如果句法分析不能准确确定某些句子成分,则为了准确确定,该 系统继续对句子的单词进行语义分析,同时在语义分析规则方面对系 统进行自我指导。首先,确定带有介词的名称或副动词等表示的实词, 定语和副词。
为了准确确定句子成分,使用基于ISLSEK导出的功能的语义分 析并从文本中选出段落和句子,文本描述各种对象之间的各种类型的 关系。该系统请求执行该功能,当句法分析不能准确确定引语部分在 所考虑的句子中的句子成分时,在自我指导和知识抽取模式控制子系 统3中自动生成所述功能。
为此使用自我指导和知识抽取模式控制子系统3,逻辑结论子系 统6和随机索引的文本和产生式的解释器4。当句法分析不能准确确 定时,通过从许多文本中选择描述预定对象之间的关系的句子,通过 确定它们之间的关系类型,准确确定句子成分。通过使用随机索引的 文本的解释器4,自动生成的系统请求和选定句子的语义分析可以确 定预定对象之间的以下类型的关系:
-性;
-集合(部分-整体);
-宾语关系;
-定义关系;
-状语;
-允许,不允许。
把状语关系细分为以下种类:
-方式;
-地点;
-时间;
-量度或程度;
-原因;
-目的;
-条件;
-让步。
在文本中,利用每个句子的表语库描述对象之间的所述关系,表 语库由实词和谓词组成,同时利用不同句子成分之间的单词组合,首 先利用描述带有副词的谓词的关系(状语)或带有宾语的谓词的关系 (宾语关系)的单词组合。为了对关系类型分类,由谓词和与其关联 的宾语或副词组成的单词组合扮演决定
角色。依据所述两个句子成分 的内容,确定实词和宾语或副词规定的主题宾语之间的指定句子中存 在的关系的类型。定语关系使用一致或不一致定语组成的单词组合描 述实词,并与或副词的属性。在分析句子成分时,对关系类型的分类 能够定义最复杂的情况(句法分析不能提供准确结果)中的句子成分。
为了对单词组合中的关系类型分类,根据控制子系统3发出的指 令,从随机索引的语言文本的数据库8参考字典的索引表中,向解释 器4中写入上述关系的典型单词组合的随机索引。在语义分析期间, 通过使用与参考字典文本的索引表相应的逻辑结论,通过生成随机索 引的语义结构,把研究的每个单词组合和写入到解释器4中的一个单 词组合联系起来。在用于建立系统回复的随机索引语义结构的过程的 描述中,解释根据文本的索引表导出逻辑结论的过程。
通常,使用以下五个信息源用于单词和单词组合的语义分析:
-知识库9,包含“请求回复”类型的文本元素,是在操作ISLSEK处 理典型请求期间形成的(以下详细解释所述数据库);
-随机索引的语言文本的数据库8,包含参考字典,百科全书以及通 用和专用基础科学方法参考文献的索引表,能够抽取有关指定主题的 对象及其关系类型的知识;
-语义分析的知识库14,包含准确确定句子成分的规则,用于确保语 义分析所需的句子成分的等效转换,并评价生成的输入请求的回复的 关联性;以下详细说明所述知识库;
-形态分析的知识库12,包括用于确定引语部分及其等效转换的规则;
-句法分析的知识库13,包括用于确定引语部分及其等效转换的规则。
第一个所述知识库是基于处理用户请求期间生成的随机索引的简 短回复创建的,包括“请求回复”类型的许多文本元素。该知识表示用 户请求的有关回复的语义基础,并且包括疑问句。一个句子相当于一 个用户请求,在疑问词(或疑问短语)后,句子还包括与其相应的回 复词组。词组包括一个或多个单词组合,表示独立的句子成分或从句 分组。在所述知识的每个元素中,准确确定回复词组的疑问句,以便 对指定句子表示的主题对象之间的关系分类,由此确定指定回复词组 中的主导词的句子成分。
利用众多随机索引的文本,参考字典,百科全书,通用和专用基 础科学教育参考文献,表示语言文本的数据库。包括通用词汇和指定 主题的专用术语的详细描述。利用用索引表表示的文本资料抽取其中 包含的知识,通过把它们和上述分类系统联系起来,刻画指定题目中 不同主题的主要属性和它们之间的关系。
语义分析的知识库14由产生式规则组成,该规则的自动导出的, 通过使用前两个知识库包含的逻辑结论和信息,对文本进行语义分析。
在语义分析中,利用形态分析和句法分析的知识库对文本进行等 效转换。以下详细说明等效转换处理。
为了确保知识的合理处理,把所述第一数据库表示为索引表,其 条目包括“请求回复”知识陈述的单词的词干。表格的每一行有许多单 元格,包括文本索引,作为表达指定句子的基础的段落索引和段落号, 句子内的许多单词,单词的词尾;以及句子的前一个单词和后一个单 词的索引。通过使用词干索引,利用系统的请求随机访问对应表格的 各行,从中分离所需的单元格,如果需要的话,复原对应“请求回复” 的原文。
在句子的语法分析中,所述知识库能够确定最复杂情况中的句子 成分,例如,通过准确分类,区别动词的直接宾语或间接宾语。为此, 语义分析系统生成知识库的适当请求。在第一种情况中,当需要确定 实词时(例如在句子The rain soaked the umbrella或the umbrella the rain soaked中),根据系统的请求确定其宾语,获得谓词表示的关系。 因此,采用与允许关系相对应的宾语作为实词。
如果知识库不能提供所述请求的答案,则问题指向与指定主题有 关的文本的索引表,以便在有关该题目的第二知识库的所有原文文档 中,查找包含对象之间的所需关系的单词组合。
在第二种情况中,以知识库的系统请求为基础,确定被认为是宾 语和副词的句子成分回答的问题,由此确定指定单词句子成分。为此, 在知识库的系统请求中,提及所需单词和推测答案。如果知识库有相 应的“请求回复”,其中在回复单词组合中主导词和疑问句与系统请求 的内容一致,意味着所分析的句子成分准确回答该问题。这里,系统 请求处理的所述结果能够准确确定特定单词的句子成分。例如,在分 析句子“A man’s taking a walk in a park”或“A man’s taking walk in a suit”时,为了确定单词组合in a park或in a suit的句子成分,生成两 个系统请求。第一个包括疑问词where?,和单词组合in a park,句法 分析准确推断出in a park是地点状语。在第二种情况中,生成以下系 统请求in what?-in a suit。如果系统的请求处理导致肯定答复,意味 着第一个单词组合为副词,第二个为宾语。如果系统的请求产生错误 断言(如,where?-in a suit),则答案将是否定的。这意味着单词组 合in a suit不是地点状语。
用于生成语义分析系统的第一知识库的请求的上述方法,可以应 用于句子句法分析的更复杂的情况。例如,在确定副动词结构的副词 的类型时,在确定从句的类型时。为此,生成一个特殊请求,包含指 定的副动词结构或从句,基于所述请求在大量“请求回复”类型知识库 中查找其类似语,精确度为同义词的程度。如果所述数据库中的回复 词组中包含所述类似语,则使用文本的索引表进行抽取。从而确定与 该副动词结构或从句对应的疑问句,进而准确确定其所属类型。
如果第一知识库不包括请求的类似语,则通过使用第二和第三知 识库以及逻辑结论子系统6,准确确定句子成分。如上所述,第三知 识库包含产生式规则,该规则通过使用语义分析,确定句子成分的名 称,副动词结构或复杂句中的从句类型,以形成它们的疑问句。
使用知识库执行语义分析的一个主要版本是,通过使用产生式规 则,把每个句子成分固有的语义属性翻译为包含规定单词和某个基础 单词的单词组合的集合。基于语义把基础单词单独连接到指定句子成 分,并与该成分相对应(不能与其他句子成分一起使用)。在根据最 初分析的文本生成产生式规则中描述的单词组合时,通过使用逻辑结 论,基于形态分析和句法分析知识库的规则,对原文进行等效转换。
在获取所需单词组合后,通过访问第二个索引文本的数据库,检 查其
许可,其中该数据库允许选择包括所需单词组合的段落和独立的 句子。如果在许多原文文档中找到使用该单词组合的一个或多个句子, 则该单词组合的单词之间的关系是允许的。因此,认为该单词属于特 定句子成分。
可以使用更复杂的结构(如,分词,副动词结构,复杂句中的从 句)代替独立的单词组合。因此,当句法分析不能提供准确结果时, 特定单词组合表示的语义知识的组合,与确定众多原文文档中的单词 之间的许可关系的处理一起,准确确定句子成分。
在完成原文文档的句子的形态、语义和句法分析后,以获得的句 子框架为基础,生成文本的索引表(表2),包括确定表格的每个单 元格的内容的列表{Iξi (s)}。接着,该方法对与所需主题有关的下一篇文 本进行随机索引处理。同时,进行自我指导,为语义分析的知识库14 提供产生式规则,其中通过使用上述过程和随机索引的语义结构(2), 以相应的文本片段为基础导出该规则。请注意,基于从对应语言文本 中获取的许多片段,通过利用上述过程独立生成相同的随机索引语义 结构(2),保证每条规则的正确性。然后,把随机索引的语义结构转换 为“如果(条件),则(结论)”形式的产生式规则。利用随机索引的 文本和产生式的解释器4和文本的等效转换子系统5完成该处理。
在处理有关该题目的所有原文文档时,生成与该题目有关的文本 的索引表(表3)。利用原文文档中包含的词干的非重复索引{Iξi (u)}表 示各行。表格中的各列对应于在语法和语义分析期间处理的文本的随 机索引{Iξi (t)}。该表格的单元格包含由文本{Iξi (t)}的段落索引{Iξi (a)}组成 的列表的索引{Iξi (s)},包括词干的对应索引{Iξi (u)}。把列表中的条目存 储在独立文件中,根据适当索引{Iξi (s)}进行访问。
在生成所述索引表并在ISLSEK的自我指导模式中生成知识库 后,在自我指导和知识抽取模式控制子系统3的控制下,该方法继续 处理用户请求,以便从与该请求有关的原文文档中抽取知识。
在抽取知识时,该过程大量使用用户请求和文本片段的句子的等 效转换。以下详细说明转换文本句子的过程。
ISLSEK提供以下层次的文本的等效转换:
第一层等效转换是在句子成分的分组内实现的:包括实词,谓词, 宾语,副词的单词组合。该转换涉及引语部分的改变,利用不一致的 定语替换一致定语。该层次对应于以下项目的转换:a computer network-a network of computers,computer service-service of computers。
第二层等效转换对应于简单句(自主句和构成复杂句的句子)内 的句子成分的等效转换。通过使用公根引语部分的转换,执行以下类 型的句子成分替换:
用谓词替换实词;
用实词替换谓词;
用实词替换宾语;
用副词替换谓词,等。
在特殊情况中,引语部分可以不变(只有格改变)。
第三层等效转换对应于复杂句内的等效转换。此时,把一种类型 的从句替换为另一种类型的从句,或分词,动词副词短语。有时通过 利用规则确定的相配介词替换连词,把复杂句转换为简单句。
以下考虑通过替换单词组合中的句子成分(即,用不一致的定语 替换一致定语,用实词替换直接宾语)进行等效转换的例子。原句为: “Software and hardware means protect the computer programs”。在该系 统中,利用以下随机索引的语义结构表示带有{Iξ1 (p)}索引的原句:
Iξ1 (p):Iξ12 (su)→ Iξ13 (su)→ Iξ14 (su) (5a)
该结构具有原句的以下单词组合:
Iξ12 (su)=(software and hardware means),
Iξ13 (su)=(protect);
Iξ14 (su)=(the computer programs)。
句子成分的上述等效转换允许创建以下单词组合:
Iξ22 (su)=(programs of a computer),
Iξ23 (su)=(are protected);
Iξ24 (su)=(by software and hardware means)。
上述转换导致与具有索引{Iξ1 (p)}的原句相等的句子,该句的索引为 {Iξ2 (p)},并具有以下随机索引语义结构:
Iξ2 (p):Iξ22 (su)→ Iξ23 (su)→ Iξ24 (su) (5b)
基于该结构,生成以下句子:“Programs of computer ar eprotected by software and hardware means”,该句与原句相等。可以理解,在新 句中,实词Iξ22 (su)对应于原句的直接宾语Iξ14 (su)的单词组合,其中用不 一致定语替换一致定语。这里,把第一句的实词Iξ12 (su)转换为第二句 中的直接宾语Iξ24 (su),谓词Iξ13 (su)具有反身动词Iξ23 (su)的形式。所述转 换通常用于文本的随机索引句和用户请求的等效转换。
用户请求是用自然语言编辑的。接着,把用户请求转换为许多新 请求,新请求包括定义该请求的语义的疑问词和单词组合,并与原请 求相同。通过使用同义词(近似含义的单词)替换引语部分和句子成 分,对原用户请求进行所述等效转换。因此,由于应用形态、句法和 语义分析的随机索引规则来获取该请求的疑问句的单词组合的等效结 构,由于保持单词组合之间的语义链接,所以能够保持原请求的含义。
然后,根据转换后的用户请求,初步选择具有该请求的所有单词 组合的原文文档的片段。如果该请求无法初步选择符合上述需求的原 文文档的片段,则对该请求进行新的等效转换。
以下说明请求的处理过程以及根据不同的原文文档,段落和句子 生成回复的
算法。当语言处理器1收到用户的请求时,把该请求输入 到随机索引处理并分离出文本片段的子系统2中,从而形成词干的随 机索引并分离出词尾。接着,经由自我指导和知识抽取模式控制子系 统3,把随机索引的请求写入到逻辑结论子系统6中。这里,以知识 库12和13中的产生式规则为基础,对该请求进行形态分析和句法分 析。因此,生成疑问句框架。此后,解释器4提供疑问句作为具有主 导词和从属词的单词组合的集合,以及与所述单词组合相对应词干的 随机索引。
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))} (6)
其中Iξi (u)Iξj (u)为单词组合中的主导词和从属词的词干的随机索引。
Iξi (r)Iξj (r)为所述单词组合中的主导词和从属词的引语部分的随机索引。
Iξi (z)Iξj (z)分别为所述单词组合中的主导词和从属词的引语部分的形态 和句法特征的随机索引。
基于获得的索引,生成该请求的随机索引语义结构,该结构通常 表示为:
P:Iξ1 (su)ΛIξ2 (su)→ Iξ3 (su)→ Iξ4 (su)ΛIξ5 (su) (7)
其中Iξ1 (su)为疑问词组合的索引,
Iξ2 (su)为实词的单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→ Iξ3 (su)为连接实词和谓词的表语句数据库;Iξ3 (su)→ Iξ4 (su)为确定句子中的 关系类型的谓词和宾语(副词)之间的关系;Iξ4 (su)为宾语(副词)的 单词组合的索引;Iξ5 (su)为副词(宾语)的单词组合的索引。
根据表达式(6,7)的索引,通过访问有关预定题目的随机索引 文本的数据库10,使用有关预定主题的文本的索引表,找到包含该请 求的所有单词组合的片段集合,包括疑问词组合。每个文本片段由一 个或多个段落组成。
如果找到满足所述条件的一个或多个文本,则该方法通过使用每 个文本的索引表继续处理这些文本的段落。请注意,在带有Iξ1 (u)索引 的某个文本的索引表中(在该表格的某个单元格的列表Iξ1 (s)中),出 现具有疑问句索引和与其关联的主导词的词干索引的疑问词组合,表 示指定文本的所述段落包含由回复Iξ0 (su)的词组组成的句子,该词组与 疑问词组合(Iξ0 (su)→Iξ1 (su))的主导词连接。
如果找不到符合所述条件的至少一个文本,则该方法通过用同义 词或近似含义的单词替换文本段落不包含的单词,通过在不改变请求 的含义的情况下替换引语部分和句子成分,继续对用户的请求进行等 效转换。
通过参照指定文本的索引表,进一步处理满足所述条件的文本。 为此,通过访问数据库10中的文本索引表,通过使用疑问词组合Iξ1 (su) 的索引,找到包含回复的词组的句子,该词组对应于该请求的疑问词 组合,并且连接到该请求的主导词。如果该请求的单词组合
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}
包含在各种文本的不同段落
V:{(Iξi (t)Iξj (a))中,
则形成该回复的单一逻辑连接文本的必要条件为,在至少一个段落中, 出现与该请求的疑问词组合的Iξ1 (t)相应的回复Iξ0 (su)的词组,以及其通 式包含实词和谓词组合的索引的表达式(7)的表语数据库Iξ2 (su)→Iξ3 (su)。 如果满足所述条件,则使用分离出的段落集合进行进一步处理,因为 基于初步选择的段落可以形成该请求的单一逻辑连接文本。否则,该 方法继续输入有关该主题的新文本并进行索引处理。
首先,考虑生成回复的简单情况,即能够以指定文本的一个或多 个连续段落为基础,形成包含该请求的所有单词组合的文本片段。此 时,首先按以下表达式的方式,形成该回复的随机索引语义结构的数 据库:
P:Iξ0 (su)→Iξ1 (su)ΛIξ2 (su)→Iξ3 (su) (8)
其中Iξ0 (su)为回复词组索引;Iξ1 (su)为疑问词组合的索引;Iξ2 (su)为实词的 单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→ Iξ3 (su)为句子的表 语数据库。为此,在指定文本片段中确定包含与疑问词组合的主导词 (Iξ0 (su)→Iξ1 (su))连接的索引回复词组的句子后,找到包含谓词数据库 (Iξ2 (su)→Iξ3 (su))的句子。
由于所述词组通常包括不同措辞,因此为了创建语义结构模式(8), 使用指定文本片段的索引句执行逻辑结论过程。为此,把包含回复词 组的第i个句子表示为
P:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ3i (su)→Iξ4i (su)ΛIξ5i (su) (9)
其中Iξ0 (su)为回复词组索引;Iξ1 (su)为疑问词组合的索引;Iξ2i (su)为实词 词组索引;Iξ3i (su)为谓词的单词组合索引;Iξ2i (su)→ Iξ3i (su)为句子的表语 数据库;Iξ3i (su)→ Iξ4i (su)为定义指定句子中的关系类型的谓词和宾语(副 词)之间的关系;Iξ4i (su)为宾语(副词)的单词组合的索引;Iξ5i (su)为副 词(宾语)的单词组合。
为了基于表达式(9)实现逻辑结论,通过使用传递关系,生成第i 个句子的题目→注释类型随机索引语义结构:
TR:Iξ2i (su)→ Iξ3i (su)→Iξ4i (su)=Iξ2i (su)→ Iξ4i (su) (10)
其中题目为实词组合的索引Iξ2i (su),注释为宾语(副词)单词组合索引 Iξ4i (su)。
包含该请求的表语数据库的第j个句子通常具有以下随机索引语 义结构:
P:Iξ2 (su)→ Iξ3 (su)→Iξ4j (su)ΛIξ5j (su) (11)
其中Iξ2 (su)为请求的实词单词组合索引;Iξ3 (su)为请求的谓词的单词组合 索引;Iξ2 (su)→Iξ3 (su)为请求句的表语数据库;Iξ3 (su)→ Iξ4j (su)为定义第j 个句子中的关系类型的实词和宾语(副词)之间的关系;Iξ4j (su)为宾语 (副词)的单词组合的索引;Iξ5j (su)为副词(宾语)的单词组合的索引。 把表达式(11)转换为第j个句子的题目→注释语义结构:
TR:Iξ2 (su) →Iξ4j (su) (12)
请注意,文本信息的完全句之间有语义连接,因此有语法(句法) 连接。句子的结构相关(即,它们之间的句法连接)有两种方法。第 一种方法为连续连接,第二种方法为并列连接。
连续连接表示连接文本中思想的连续发展。题目(主题)为初始 点,思想发展的开始,“特定的”;注释为思想发展,其基础,核心,“新 的”。
把连续连接的语义结构表示为两个相邻句的结构相关。通常,前 一句的某个成分(如宾语)成为后一句的实词。连续连接的最常见结 构类型为:“宾语-实词”,“宾语-宾语”,“实词-宾语”,“实词-实 词”等。
利用a)词汇反复(当句子的相关成分的表现相同时);b)同义词; c)代词表示连续连接中的句子之间的结构相关。
连续连接为自主句中最重要使用最广泛的连接方法。
与连续连接类似,并列连接存在于关联句的结构相关。然而相关 的性质不同。句子中的并列连接的主要结构特征为:a)结构平行(通 用类型或句法近似的关联句);b)平行(类似)词序;c)所有或某些 句子成分的相同语法表示。
语义“进入”段落中的连续和并列连接结构是,文本的指定段落或 许多连续段落的关联句中的原句的题目。
因此,以题目→注释类型的每个句子的基本语义结构为基础,通 过逻辑结论,可以找到用来定语连续和并列类型的句子之间的连接的 更复杂的语义结构。为此,第i个句子中的回复词组和第j个句子中 的请求句的表语数据库之间的语义连接的必要条件为基于逻辑结论的 证据,其中指定文本片段的单一语义结构包括逻辑结论。按照随机索 引形式,该结构表示为:
Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)ΛIξ4j (su)ΛIξ4k (su)Λ...ΛIξ2m (su)→Iξ2 (su)Λ Iξ2 (su)→Iξ4j (su)=Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)→Iξ4k (su)...Iξ2i (su)→Iξ4j (su) (13)
用于确定所述词组之间存在语义连接的逻辑结论,是基于与指定 题目有关的随机索引原文文档数据库10的文本的索引表导出的。为 此,使用逻辑结论子系统6和等效转换子系统5。逻辑结论从第i个句 子开始,该句子包括与疑问词组合的主导词相连的回复的词组,请求 的表语数据库,并具有随机索引语义结构(9)。
在把所述句子表示为类型题目→注释(10)的语义结构后,根据索引 表,找到指定句的注释转入下一个句子的题目的下一个句子。为此, 使用与指定段落的索引Iξj (a)对应并与第i个句子的宾语或副词的单词 组合索引Iξ4i (su)对应的单元格。根据所述单元格,找到指定段落中的句 子数,其中指定单词组合包括实词。接着,使用单元格地址信息,找 到所述句子的谓词的索引以及宾语或副词的单词组合的关联索引 Iξ4k (su),即,根据表达式(13),找到与前一个句子逻辑连接的下一个句 子的注释。逻辑结论继续,直至关系(Iξ2 (su)→Iξ4j (su))定义的下一个句子 包括与该请求的表语数据库对应的索引(Iξ2 (su)→Iξ3 (su))。
如果在逻辑结论期间,任何句子的注释索引Iξ4n (su)与下一个句子的 题目Iξ2n+1 (su)均不相符,意味着所述下一个句子或者使用指定单词的同 义词,或者使用代词。在前一种情况中,根据该单词组合的词干的索 引Iξ2n+1 (su),访问随机索引的语言文本的数据库8的同义词字典中的索 引表。这里,找到同义词的词干{Iξs (u)},根据该词干形成下一个句子 的注释的索引Iξ4n (su)。在后一种情况中,下一个句子的题目的索引 Iξ2n+1 (su)对应于与单词组合Iξ4n (su)一致的代词,根据数据库7的字典的 索引表进行检查。如果满足第一或第二条件,则逻辑结论继续直至找 到包含查找的请求单词组合的句子,此时为请求表语数据库的 (Iξ2 (su)→Iξ3 (su))。因此,在逻辑结论期间,综合与表达式(13)相应的随机 索引语义结构。
在考虑的情况中,如果该请求的所有单词组合均包含在一个段落 或某个文本的一组连续段落中,则指定文本片段中的逻辑结论将继续, 以生成包含该请求的所有单词组合的单一随机索引语义结构,单词组 合包括宾语Iξ4 (su)和副词Iξ5 (su)的单词组合:
S:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)→Iξ4k (su)...Iξ2 (su)→ Iξ4 (su)...Iξ2m (su)→Iξ4 (su)...Iξ2n (su)→Iξ5 (su) (14)
为此,按照顺序题目→注释执行上述逻辑结论功能,直至语义结 构(14)包括由指定段落的不同句子组成的请求的所有单词组合。请注 意,综合所述语义结构(14)的必要条件是,该请求的单词组合对应于 相同句子成分,并且该单词组合与文本段落中的单词组合相同。因此, 如果与文本的句子中的请求单词组合相同的单词组合涉及其他句子成 分,则对这些句子进行等效转换,从而所述单词组合涉及请求的句子 成分。在等效转换子系统5中,根据上述过程执行该功能。
在生成语义结构(14)时,该方法继续检查是否没有矛盾。为此,利 用基础关系检查每个句子包含的谓词{Iξ3i (su)}的单词组合的语义相关, 其中语义结构(14)是基于该句子生成的。此类关系为性方面的关系, “部分-整体”或“因果”(条件-结论)类型的关系。这些关系是通过 根据所述索引访问随机索引文本的数据库8确定的,目的是查找参考 字典索引表中谓词{Iξ3i (su)}的语义。在该步骤中,检查带有上述基础关 系或写入到解释器(4)中的同义词的{Iξ3i (su)}索引的谓词的语义的同一 性。如果满足上述条件,则在生成的语义结构(14)中保持传递关系。 因此,可以把查找的具有Iξj (su)索引的请求单词组合传送到生成的回复 句中,其方法是在具有Iξi-1 (su)索引的单词组合后,在生成的题目→注 释类型语义结构中使用逻辑结论。如果不满足该条件,则指定段落不 包含与用户请求有关的回复。此时,该方法继续分析下一个预先选择 的段落或一组段落。
当在段落的不同句子中找到所述单词组合时,用于确定请求单词 组合之间的语义关系的上述逻辑结论过程继续,直至生成该用户的简 短回复,作为包括回复词组,疑问词组合,表语数据库和该回复包含 的所有其他单词组合的句子。把生成的简短回复表示为以下随机索引 语义结构:
P:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ3 (su)→Iξ4 (su)ΛIξ5 (su) (15)
其中Iξ0 (su)为回复词组索引,Iξ1 (su)为疑问词组合索引;Iξ2 (su)为实词单词 组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→Iξ3 (su)为句子的表语数 据库;Iξ3 (su)→ Iξ4 (su)为谓词和宾语(副词)之间的关系,该关系定义指 定句子中的关系类型;Iξ4 (su)为宾语(副词)的单词组合的索引;Iξ5 (su) 为副词(宾语)的单词组合的索引。
根据上述过程,通过以原文文档的不同的预先选择的随机索引片 段为基础,生成若干相同的随机索引语义结构(15),确保简短回复的 正确性。
生成的结构(15)意味着简短回复导致的逻辑结论与该请求的疑问 句相同。因此,该回复与用户请求关联。在将其转换为指定语言的文 本形式后,向用户输出该回复,作为系统根据该请求提供的知识。
如果用户请求提供更完整的回复,则该方法以生成简短回复的段 落为基础,继续转换文本的原始段落;如果需要的话,转换后续文本 段落。其目的是以所述段落为基础,获取在指定文本片段内提供简短 回复之细节的单一的随机索引语义结构。以下论述执行上述功能生成 完整回复的方法。
在初步搜索索引表时,如果找不到其段落包含该请求的所有单词 组合的文本,则根据获得的请求索引,查找其段落集合包含该请求的 所有单词组合的文本。如果找不到此类文本片段集合,意味着随机索 引原文文档的数据库10的内容不能生成与用户请求有关的回复。此 时,该方法继续从搜索系统中输入与指定主题有关的新文本,并进行 索引处理。
在初步选择期间,通过使用与该请求的单词组合S:{Iξi (u)→Iξj (u)} 的索引相应的文本的索引表,为每个文本选择包含该请求的所有单词 组合的段落集合形式的片段:
V:{Iξi (t),Iξj (a)}
其中Iξi (t),Iξj (a)分别为包含用户请求的单词组合的指定文本的文本索引 和段落索引。如果请求单词组合的索引Iξi (su):{Iξi (u)→Iξj (u)}没有完全包 含在至少一个文本Iξi (t)的任一段落(Iξi (t),Iξj (a))中,而是包含在一个文本 的不同段落中或不同文本的不同段落中
V:{Iξi (t),Iξj (a)},
则基于预先选择的文本片段的段落,生成包含该请求的所有单词组合 (包括疑问词组合)的单一逻辑连接文本
S:={Iξi (su)}。
此时,如果不同文本{Iξi (t),Iξj (a)}的不同段落包含单词组合S: ={Iξi (su)},则生成单一逻辑连接文本的必要条件为,在至少一个段落中, 出现回复词组的索引Iξ0 (su),该请求的疑问词组合Iξ1 (su)的主导词和表 达式(15)的表语数据库(Iξ2 (su)→Iξ3 (su)),其中表达式的通式包括实词和谓 词组合的索引。
如果满足所述条件,则使用选定的段落集合进行进一步处理,因 为可以以预先选择的段落为基础,生成单一逻辑连接的回复文本。否 则,该方法继续输入有关指定主题的新文本,并进行索引处理。
如果满足所述条件,则该方法继续形成所述段落的逻辑连接集合。 为此,检查以下条件的一致性:每个单词组合包含在至少两个不同段 落中:
Iξi (su)→(Iξi (t),Iξj (a)),...,(Iξk (t),IξI (a)) (16)
如果不满足所述条件,则该方法检查只包含一个请求单词组合 Iξi (su)的段落是否具有预选段落包含的利用某一基础语义关系与Iξi (su)单 词组合相连的其他单词组合Iξk (su)。对于所述检查,自我指导和知识抽 取模式控制子系统3生成一个请求,该请求所述随机索引的语言文本 的数据库8,查找包含题目→注释关系连接的所述索引的句子:
Iξk (su)→Iξi (su) (16a)
把找到的句子传送到随机索引的文本和产生式的解释器4,后者 检查关系(16a)是否与性、集合或因果关系相对应。
如果不满足条件(16)和(16a),则推断出不能使用该文本片段生成 回复。
如果满足所述条件,则该方法继续检查以选定段落为基础生成单 一语义结构的可能性。为此,首先通过使用包含预选段落的每个文本 的索引表,编辑单词组合索引列表。单词组合索引包含在适当索引标 识的段落中:
(Iξi (t),Iξj (a))→(Iξi (su)),...,(Iξk (su)) (17)
接着,通过使用所述段落列表中的单词组合的相同索引,该方法 确定每个指定段落关联的段落。基于所述列表,为每个段落索引编辑 新列表,每个列表包括利用相同单词组合索引连接到指定段落的其他 段落的索引。因此,如果每个列表包括至少一个其他列表包含的至少 一个段落,则通过使用列表之间直接和间接传递关系,生成包含所有 段落之索引的单一列表。此时,认为预选段落能够形成单一文本片段 形式的逻辑连接的段落集合。否则,认为该段落集合不能构成组成单 一文本片段所需的逻辑结构。此时,从处理中排除所述集合,该方法 继续预选新的文本片段。
在确定预选段落构成逻辑连接段落的单一结构后,基于每个文本 对应索引表生成单一文本表。为此,按照请求疑问句中的段落包含的 请求单词组合序列的顺序确定的次序,排列所述段落。传送由此生成 的文本片段进行进一步处理,以便通过使用逻辑结论,确定包含该请 求的所有单词组合{Iξi (u)}的段落的句子之间的语义连接的类型。执行所 述功能,以便以上述算法获得的文本片段为基础,生成包含该请求的 所有单词组合的随机索引语义结构。此后,根据上述算法,通过使用 等效转换以及有关传递关系的逻辑结论,应用获得的语义结构,以生 成包含与用户请求有关的简短回复的句子的语义结构(15)。根据上述 过程,通过以原文文档的不同的预先选择的随机索引片段为基础,生 成若干相同的随机索引语义结构(15),确保简短回复的正确性。
把获得的简短回复和疑问词组合一起存储到“请求回复”知识库9 中,利用数据库9处理重复的典型用户请求,并且如上所述,对索引 文本进行语义分析。
在建立语义结构后,如果在指定文本片段的请求的单词组合{Iξi (su)} 之间不能保持所需的基础语义连接,则该方法继续搜索新文本,以生 成该用户的回复。
如果逻辑结论产生肯定结果,则生成其简短回复与该请求有关的 句子,向用户输出该句子作为指定语言的文本。此时,如果用户需要 更完整的回复,则该方法根据以下所述方法,通过转换先前获得的文 本片段,继续生成完整回复的步骤。
以下举例说明执行上述算法生成简短回复的过程。假设在等效转 换接收的用户请求后,该请求获得以下文本形式:“What program is used in case of incorrect computer operation termination as a result of voltage failure in the mains?”。这允许从完全包含转换后的请求的所有 单词组合的原文文档中预选以下两个逻辑连接的段落:
“Logical errors may occur on the hard disc.The logical errors are disorders in the file structure.To find out the logical errors,the“Disc check”routine is used.The logical errors occur when computer operation is terminated incorrectly.”
第二段:“In case of voltage failure in the mains,file structure disorders occur on the hard disc.In such case the“Disc check”routine is used.”
在随机索引形式中,其中请求的实际出来发生并生成简短回复, 该请求如下:
Iξ0 (P):Iξ01 (su)ΛIξ02 (su)→Iξ03 (su)→Iξ04 (su)ΛIξ05 (su)ΛIξ041 (su)ΛIξ051 (su) (18)
以下单词组合与随机索引Iξ0j (su)相对应:
Iξ01 (su)=(what program)
Iξ02 (su)=(program)
Iξ03 (su)=(is used)
Iξ04 (su)=(in case of incorrect termination)
Iξ05 (su)=(computer operation)
Iξ41 (su)=(as a result of failure)
Iξ051 (su)=(voltage in the mains)
把随机索引形式的第一段中的句子表示为:
Iξ1 (P):Iξ12 (su)→Iξ13 (su)→Iξ14 (su)
Iξ2 (P):Iξ22 (su)→Iξ23 (su)→Iξ24 (su)
Iξ3 (P):Iξ32 (su)→Iξ33 (su)→Iξ34 (su)ΛIξ35 (su)
Iξ4 (P):Iξ42 (su)→Iξ43 (su)→Iξ44 (su)ΛIξ45 (su) (19)
以下单词组合对应于随机索引Iξij (su):
Iξ12 (su)=(logical errors)
Iξ13 (su)=(may occur)
Iξ14 (su)=(on the hard disc)
Iξ22 (su)=(logical errors)
Iξ23 (su)=(is)
Iξ24 (su)=(disorders in the file structure)
Iξ32 (su)=(“Disc check”routine)
Iξ33 (su)=(is used)
Iξ34 (su)=(to find out)
Iξ35 (su)=(logical errors)
Iξ42 (su)=(logical errors)
Iξ43 (su)=(occur)
Iξ44 (su)=(in case of incorrect termination)
Iξ45 (su)=(of computer operation)
把随机索引形式的第二段中的句子表示为:
Iξ5 (P):Iξ52 (su)→Iξ53 (su)→Iξ54 (su)ΛIξ55 (su)ΛIξ551 (su)
Iξ6 (P):Iξ62 (su)→Iξ63 (su)→Iξ64 (su) (20)
以下单词组合对应于随机索引Iξij (su):
Iξ52 (su)=(disorders in the file structure)
Iξ53 (su)=(occur)
Iξ54 (su)=(on the hard disc)
Iξ55 (su)=(as a result of failure)
Iξ551 (su)=(voltage in the mains)
Iξ62 (su)=(“Disc check”routine)
Iξ63 (su)=(is used)
Iξ64 (su)=(to find out)
Iξ65 (su)=(logical error)
Iξ651 (su)=(in such case)
以所述随机索引语义结构为基础,根据上述过程建立包含所有请 求的单词组合Iξij (su)的随机索引语义结构。作为基础,选择包含与疑问 词组合Iξ31 (p)对应回复词组Iξ32 (su)的结构Iξ3 (p)。考虑以下单词组合的同 一性(与词干相同):
Iξ02 (su)=Iξ31 (su)=Iξ64 (su)
Iξ03 (su)=Iξ33 (su)
Iξ04 (su)=Iξ44 (su)
Iξ04 (su)=Iξ45 (su)
Iξ041 (su)=Iξ55 (su)
Iξ051 (su)=Iξ551 (su)
Iξ12 (su)=Iξ22 (su)=Iξ42 (su)
Iξ24 (su)=Iξ52 (su) (21)
因此,所述随机索引结构具有以下形式:
Iξ0 (P):Iξ32 (su)→Iξ33 (su)→Iξ34 (su)ΛIξ35 (su)→Iξ24 (su)→Iξ55 (su)ΛIξ551 (su) →Iξ35 (su) →Iξ44 (su)ΛIξ45 (su) (22)
考虑到对应索引的同一性以及指定语义结构中的索引之间的关系 具有性和因果特性,通过使用逻辑结论获得以下结构:
Iξ0 (P):Iξ32 (su)ΛIξ02 (su)→Iξ03 (su)→Iξ04 (su)ΛIξ05 (su)ΛIξ041 (su)ΛIξ051 (su) (23)
因此,建立的简短回复的随机索引语义结构为:“The“Disc check” routine is used when computer operation is terminated incorrectly as a result of voltage failure in the mains.”
在利用疑问词组合“What program”替换““Disc check”routine”回 复词组后,获得的简短回复与以下请求相同:“What program is used in case of incorrect computer operation termination as a result of voltage failure in the mains?”。这就是获得的该请求的简短回复的关联标准。 因此,可以向用户输出获得的简短回复。
为了以预选段落或获得的文本片段为基础生成完整回复,仅仅选 择生成的简短回复句的逻辑结论中包含的句子。按照逻辑连接引起的 顺序排列所述段落或文本片段的句子。逻辑连接的顺序与确认请求的 单词组合之间的语义连接所用的顺序相同。不同句子包含的单词组合 与同一请求单词组合关联,其中具有回复词组和疑问词组合的主导词 的句子包含请求的单词组合。与先前生成的简短回复中的所述连接相 对应的请求单词组合的连续次序确定句子连接的连续次序。为了提供 句子的一致性,生成完整回复包括通过替换引语部分或句子成分等效 转换某些句子,而并不改变所述句子的含义。如果句子的等效转换要 求替换介词,则与特定介词组合时,在考虑引语部分必需具有的特征 的情况下进行替换。如果需要的话,可能需要替换引语部分的格,以 便与名词或形容词,代词或带有新介词的分词一致。为此,利用适当 规则连接介词和格,其中所述引语部分与指定介词一致。
如果请求的疑问词或单词组合(how?in what manner?)设想非简 短的单句回复,而是步骤序列或过程或现象的描述,此时简短回复的 措辞为包含以下类型的回复词组的起始句:“as follow”,“thus”。回 复的后续句子公开包含完整回复的步骤序列或描述的内容。如果该回 复的典型词组不存在,则另外引入相同词组以生成起始句。此后,采 用起始句中的回复词组作为未来完整回复的起始题目。另外,通过使 用逻辑结论,选择构成指定用户请求的完整回复的语义连接句的集合 的一个或多个段落的句子序列。逻辑连接句子的连续连接确定回复的 边界,当完成一个段落时连接结束,前提是所述段落的最后一个句子 的题目与下一段的第一个句子的注释没有联系。在生成包含起始句的 完整回复的文本片段后,向用户输出所述片段。
本文开发的方法适合于综合自我指导系统,后者用于从采用指定 外语的搜索系统使用的原文文档中抽取知识。通过使用指定外语的随 机索引语言文本,根据上述过程,在形态、句法和语义分析规则方面 对该系统进行自动指导。对采用指定外语表示的导出规则进行随机索 引处理,然后写入到形态、句法和语义分析的对应知识库12-14中。 基础词和新词的随机索引字典的数据库7和随机索引的原文文档的数 据库10是用指定外语生成的。
在根据上述过程生成所述数据和知识库后,采用指定外语转换用 户的请求,初步选择所需题目的原文文档的片段。接着,对原文文档 片段的数据进行等效转换;生成随机索引语义结构,使用所述结构导 出逻辑结论,以生成与指定外语的请求有关的简短回复。
本文开发的方法适合于综合自我指导系统,后者用于从采用众多 指定外语之任一外语的搜索系统使用的原文文档中抽取知识。为此, 使用随机索引人工智能系统形式的自我指导机制,其基础是应用用于 随机索引处理的随机索引的双态信号的唯一组合以及搜索指定基础语 言中的语言文本片段,该片段包括语法和语义分析的描述。该机制通 过等效转换任意指定外语的文本的随机索引片段,在语法和语义分析 规则方面为系统提供自动自我指导,提供逻辑结论并根据所述片段生 成连接语义结构,对所述结构进行随机索引处理以便用产生式规则表 示。
首先,通过使用上述机制,对电子形式的指定基础语言中的语言 文本进行形态分析和随机索引处理,同时在形态分析规则方面对系统 进行指导。同时创建指定外语的随机索引字典的数据库7和数据库8 的语言文本的索引表,以及创建形态分析的知识库12,后者包含用于 指定基础语言和指定外语的导出产生式规则。
接着,对于搜索系统中电子形式的指定外语中的指定题目涉及的 原文文档进行形态分析和句法分析,并进行随机索引处理。然后,形 成指定主题的原文文档的索引表,存储在随机索引文本的数据库10 中,同时在句法分析规则方面对系统进行自动指导。通过使用指定基 础语言中的随机索引语言文本,根据上述过程实现所述指导。然后创 建基础语言和指定外语的句法分析的知识库13。
接着,对电子形式的指定基础语言中的指定主题的随机索引原文 文档进行语义分析,同时在语义分析规则方面对系统进行自动指导, 并创建基础语言和指定外语的语义分析的知识库14。
在完成知识库11和12后,该系统从自动自我指导模式转到用户 请求处理模式。在这种情况下,用户请求是采用指定外语的自然语言 生成的,在对包含定义该请求语义的疑问词组合和单词组合的疑问句 进行随机索引处理后,用电子形式表示该请求。然后,通过使用上述 过程,把随机索引形式的用户请求转换为与指定外语的原始请求相等 的众多新请求。接着,根据用户请求,预选包含转换后的请求的所有 单词组合的电子形式的指定外语中的原文文档的随机索引片段。通过 使用所述原文文档片段,生成随机索引语义结构。基于生成的随机索 引语义结构,通过使用提供各种文本的随机索引元素之间的连接的逻 辑结论,通过使用文本的等效转换,生成一个简短回复,后者包含定 义请求语义的随机索引单词组合以及与该请求的疑问词组合对应的回 复词组。通过以原文文档的不同的预先选择的随机索引片段为基础, 生成若干相同的随机索引语义结构,确保简短回复的正确性。
通过用相应的随机索引的疑问词组合替换回复词组,生成随机索 引的疑问句,并比较获得的疑问句和该请求,检查获得的简短回复与 该请求的关联性。基于所述句子的比较,当获得的疑问句与该请求相 同时,确定简短回复与该请求关联,并采用指定外语向用户显示该请 求。
考虑应用综合自我指导系统的方法的另一种方案,其中所述系统 从指定外语的原文文档中抽取知识。此时,首先根据上述过程,通过 使用指定基础语言中的随机索引语言文本,在形态、句法和语义分析 规则方面对系统进行自动指导。随机索引语言文本数据库8包含以选 定的基础语言为基础学习指定外语的教育指导手册。在外来词的随机 索引字典的数据库11中写入字典,后者提供从基础语言到任一指定外 语的各个单词的直接翻译或反向翻译。接着,创建随机索引字典的数 据库7以及指定基础语言的形态、句法和语义分析的知识库12-14。 此后,自动自我指导模式控制子系统3自动生成所述数据库和知识库 的请求,以便初步选择基础语言中的语言文本片段,该片段包括学习 指定外语所需的知识。接着,对该文本进行等效转换,生成随机索引 语义结构,以及与预定结构相应的逻辑结论,以便生成与导出的自动 请求关联的回复。利用上述回复生成指定外语的原文文档的形态、句 法和语义分析的产生式规则。例如,如果基础语言为俄语,则在自动 导出的规则中,用于学习英语的句法分析的知识库包括以下规则:
1.如果不带介词的名词位于句子的开始,
and所述名词位于具有of(in,from)介词的名词之前,
and所述名词之后有一个动词,
则第一个名词为实词。
例如:The work of the engineer is on the table.
2.如果单词组合由系动词(人称形式的to be动词)和形容词表示的 名词性部分组成,
则该单词组合为复合名词性谓词。
例如:The tree is big.
在随机索引处理后,把导出的规则写入到形态、句法和语义分析 的知识库12-14中,以便从用户请求的指定外语的原文文档中抽取知 识。通过使用相应外语,创建与指定题目有关的随机索引字典的数据 库和原文文档的索引表。请注意,在语义分析与所需外语的预定题目 有关的原文文档时,为了确定语义连接类型,通过使用随机索引的外 来词字典的数据库11,把某些单词组合翻译为基础语言。根据基础语 言参考字典的索引表,通过使用逻辑结论,使得某些单词组合与其索 引已写入随机索引的文本和产生式的解释器4中的一类语义关系相互 关联。因此,根据上述过程,语义分析能够指定与引语部分相对应的 单词,并且在生成该请求的回复的随机索引语义结构时,确定单词组 合之间的关系类型。
通过使用所述数据库和知识库,在自我指导和知识抽取模式控制 子系统3的控制下,采用指定外语对用户请求进行等效转换。接着, 预选与指定题目有关的原文文档的片段;执行等效转换,生成随机索 引语义结构和导出所述结构的逻辑结论。从而确保准备与指定外语的 用户请求关联的回复。
在处理请求时,如果发现需要访问搜索系统以便输入指定题目的 外语的新的原文文档,则自我指导和知识抽取模式控制子系统3启动 多语种语言处理器1。该处理器接收指令,以输入基础语言中的新文 档,其中指令规定题目和外语的名称。多语种语言处理器1通过使用 随机索引外语字典的数据库11,选择所需字典,并将指示题目名称的 单词翻译为适当外语。基于接收的信息,多语种语言处理器1向搜索 系统提供指定语言的形式化请求,以便输入与指定题目有关的新的外 语文档。把所述文档传送到子系统2,后者对原文文档进行随机索引 处理,分离出用于上述处理的文本片段,然后存储到随机索引的原文 文档的数据库10中。
工业适用性
用于综合从搜索系统使用的原文文档中抽取知识的自我指导系统 的发明方法,通过使用从文本中抽取知识的多语种系统,可以创建基 于因特网的知识产业。实现该技术将在人类活动的不同领域中从质量 上提供全新的信息服务,上述领域包括工业,科学,教育,文化,因 为这是文明社会发展的时代要求。该方法的工业应用的其他远景方向 是移动系统(移动因特网)。借助创建智能信息搜索系统的可能性支 持所述方向,该搜索系统能够根据用户请求从因特网存储的大量原文 文档中抽取特定知识和数据,所以只需花费最少的时间来传输、接收 用户需要的信息。用户可以采用自然语言或语音向该系统输入请求。 根据权利提出要求的方法的工业应用的一个重要方向是,在各种主题 和问题领域内创建新一代的智能指导系统。
表1.句子框架
简单句的疑问句 基于句法分析知识库生成简单句的疑问句 复杂句或复合句包含的简 单句的命名 简单句的特征 句子成分的分组的疑问句 基于作为指定分组的基础的句子成分的疑问句 生成句子成分的分组的疑问句 句子成分的分组的命名 分组包括: 谓词 宾语 副词 句子独立成分 插入词,单词组合和插入结构 句子的成分的疑问句 根据字典格式(包括介词)和索引表,把引语 部分的疑问句翻译为句子成分的疑问句 句子成分的命名 实词, 谓词(简单动词,复合动词,复合名词), 定语(一致,不一致), 宾语(直接,间接), 状语(方式,地点,时间,量度或程度,原因, 目的,条件,让步) 引语部分的疑问句 根据字典格式 引语部分及其特征 根据字典格式 单词 在句子上下文中 词干的随机索引 根据特殊算法计算或从字典格式中分离
表2.文本索引
表3.与指定题目有关的文本索引