信息检索方法和系统专利检索-相似性得分人工智能专利检索查询-专利查询网

信息检索方法和系统

阅读：551发布：2021-06-27

专利汇可以提供信息检索方法和系统专利检索，专利查询，专利分析的服务。并且一种通过模糊检索可以检出接近人的感觉的字符串检索技术。按照本发明，提出一种使用含有字符串字形在文献内位置信息的索引文件，对于含有与指定字符串及字符排列相似的字符串的文献进行高速检索的方式。在这种方式中，可指定待检索字符串和检索精度 (大于0而小于1)，并能确定含有与待检索的字符串的“相似度”超过指定检索精度的具体“相似字符串”的文献及“相似字符串”在文献内的位置。，下面是信息检索方法和系统专利的具体信息内容。

权利要求

1.一种信息检索方法，用来通过计算机处理在按照可检索方式存储的文献中找出与检索字符串相似的文献字符串的相似度，该方法包括以下步骤：
(a)输入检索字符串的步骤；
(b)从上述检索字符串的开头取长度在M个字符以上((M 为2以上的预定整数)的部分字符串，在上述文献中检出与之一致的开始位置和结束位置的步骤(以下，将由该开始位置和结束位置决定的、长度在M个字符以上的部分字符串称为有效一致字符串)；
(c)如果在步骤(b)中出现未检出有效一致字符串的应答，则从上述检索字符串的部分字符串开始位置错开一个字符再取M 个字符以上长度(M为2以上的预定整数)的部分字符串，检索找上述有效一致字符串的步骤；
(d)如果出现检出有效一致字符串的应答，则分别从上述检索字符串的部分字符串开始位置和上述文献中的检索开始位置仅只错开相当于刚检出的有效一致字符串的长度，检索其开始位置与该刚检出的有效一致字符串的距离在L个字符以内(L为1以上的预定整数)的有效一致字符串的步骤；
(e)只要检出上述有效一致字符串，就继续进行上述步骤(d) 的步骤；
(f)至少在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中，根据在有效一致字符串中的存在的信息，从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的步骤。
2.按照权利要求1所述的信息检索方法，其特征在于：上述 M为2，上述L在3以上。
3.按照权利要求1所述的信息检索方法，其特征在于：在有效一致字符串在检索字符串中所占有的比例以及在有效一致字符串从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
4.按照权利要求1所述的信息检索方法，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
5.一种信息检索方法，用来通过计算机处理在按照可检索方式存储的文献中查找检索字符串出现的位置，该方法包括以下步骤：
(a)输入检索字符串的步骤；
(b)输入相似度的步骤；
(c)从上述检索字符串的开头取长度为在M个字符以上一 (M为2以上的预定整数—的部分字符串，在上述文献中检出与之一致的开始位置和结束位置的步骤—以下，将由该开始位置和结束位置决定的、长度在M个字符以上的部分字符串称为有效一致字符串一；
(d)如果在步骤(c)中出现未检出有效一致字符串的应答，则从上述检索字符串的部分字符串开始位置错开一个字符再取M 个字符以上长度—M为2以上的预定整数—的部分字符串，检索上述有效一致字符串的步骤；
(e)如果出现检出有效一致字符串的应答，则分别从上述检索字符串的部分字符串开始位置和上述文献中的检索开始位置仅只错开相当于刚检出的有效一致字符串的长度，并从其开始位置与该刚检出的有效一致字符串的距离在L个字符以内—L为1以上的预定整数—检索有效一致字符串的步骤；
(f)只要检出上述有效一致字符串，就继续进行上述步骤(e) 的步骤；
(g)至少在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中，根据在有效一致字符串中存在的信息，从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的步骤。
(h)如果经过上述计算得出相似度大于在上述步骤(b)中输入的相似度的应答，则显示上述文献中所含有的上述有效一致字符串的内容。
6.按照权利要求5所述的信息检索方法，其特征在于：上述 M为2，上述L在3以上。
7.按照权利要求5所述的信息检索方法，其特征在于：在有效一致字符串在检索字符串中所占的比例以及在有效一致字符串从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
8.按照权利要求5所述的信息检索方法，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
9.按照权利要求8所述的信息检索方法，其特征在于：上述加分为一个字符1分，上述减分为一个字符1/L分。
10.一种信息检索方法，用来通过计算机处理在按照可检索方式存储的多个文献的数据库中检出与检索字符串相似的文献字符串的相似度，该方法包括以下步骤：
(a)输入检索字符串；
(b)从上述检索字符串的开头取长度在M个字符以上—M 为2以上的预定整数—的部分字符串，在上述数据库的同一文献中检出与之一致的开始位置和结束位置的步骤—以下，将由该开始位置和结束位置决定的、长度在M个字符以上部分字符串称为有效一致字符串—；
(c)如果在步骤(b)中出现未检出有效一致字符串，则从上述检索字符串的部分字符串开始位置错开一个字符再取M个字符以上长度—M为2以上的预定整数—的部分字符串，检索上述有效一致字符串；
(d)如果出现检出有效一致字符串的应答，则分别从上述检索字符串的部分字符串开始位置和上述同一文献中的检索开始位置仅只错开相当于刚检出到的有效一致字符串的长度，检索其开始位置与该刚检出的有效一致字符串的距离在L个字符以内—L 为1以上的预定整提—的有效一致字符串的步骤；
(e)只要找到上述有效一致字符串，就继续进行上述步骤(d) 的步骤；
(f)至少在从上述文献的最初有效一致字符串的开始位置到上述同一文献的最后有效一致字符串的结束位置之间的字符串中，根据有效一致字符串中存在的信息，从上述同一文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的步骤。
11.按照权利要求10所述的信息检索方法，其特征在于：上述M为2，上述L为3。
12.按照权利要求10所述的信息检索方法，其特征在于：在有效一致字符串在检索字符串中所占的比例和有效一致字符串从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
13.按照权利要求10所述的信息检索方法，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
14.一种信息检索方法，用来通过计算机处理在按照可检索方式存储的多个文献的数据库中查检出检索字符串出现的地方，该方法包括以下步骤：
(a)输入检索字符串的步骤；
(b)输入相似度的步骤；
(c)从上述检索字符串的开头取长度在M个字符以上—M 为2以上的预定整数—的部分字符串，在上述数据库的同一文献中检出与之一致的开始位置和结束位置的步骤—以下，将由该开始位置和结束位置决定的、长度在M个字符以上的部分字符串称为有效一致字符串—；
(d)如果在步骤(c)中出现未检出有效一致字符串的应答，则从上述检索字符串的部分字符串开始位置错开一个字符再取M 个字符以上长度—M为2以上的预定整数—的部分字符串，检索上述有效一致字符串的步骤；
(e)如果出现检出有效一致字符串的应答，则分别从上述检索字符串的部分字符串开始位置和上述同一文献中的检索开始位置仅只错开相当于刚检出的有效一致字符串的长度，检索其开始位置与该刚检出有效一致字符串的距离在L个字符以内—L为1 以上的预定整数的有效一致字符串的步骤；
(f)只要找到上述有效一致字符串，就继续进行上述步骤(e) 的步骤；
(g)至少在从上述同一文献的最初有效一致字符串的开始位置到同一上述文献的最后有效一致字符串的结束位置之间的字符串中，根据有效一致字符串中存在的信息，从上述同一文献的最初有效一致字符串的开始位置到上述同一文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的步骤。
(h)如果经过上述计算得出相似度大于在上述步骤(b)中输入的相似度的应答，则显示在上述文献中所含的上述有效一致字符串的内容。
15.按照权利要求14所述的信息检索方法，其特征在于：具有对上述多个文献预先标记固有编号或符号的步骤。
16.按照权利要求15所述的信息检索方法，其特征在于：上述固有编号或符号为按顺序的编号。
17.按照权利要求14所述的信息检索方法，其特征在于：上述M为2，上述L为3。
18.按照权利要求14所述的信息检索方法，其特征在于：在有效一致字符串在检索字符串中所占的比例以及在有效一致字符串从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
19.按照权利要求14所述的信息检索方法，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
20.按照权利要求19所述的信息检索方法，其特征在于：上述加分为一个字符1分，上述减分为一个字符1/L分。
21.一种信息检索系统，用来通过计算机处理在按照可检索方式存储的文献中检出检索字符串出现的位置，该系统具有以下装置：
(a)输入检索字符串的装置；
(b)取检索字符串的长度为M个字符以上—M为2以上的预定整数—的部分字符串，在上述文献中检索与之一致的开始位置和结束位置的装置—以下，将由该开始位置和结束位置决定的 M个字符以上长度的部分字符串称为有效一致字符串；
(c)从上述检索字符串的开头，应用上述装置(b)，如果出现检出有效一致字符串的应答，则分别从上述检索字符串的部分字符串开始位置和上述文献中的检索开始位置仅只错开相当于刚检出的有效一致字符串的长度，检索其开始位置与该刚检出的有效一致字符串的距离在L个字符以内—L为1以上的预定整数— 的有效一致字符串，如果未出现检出有效一致字符串的应答，则从上述检索字符串的部分字符串开始位置错开一个字符再取M 个字符以上长度(M为2以上的预定整数)的部分字符串，检索上述有效一致字符串的装置；
(d)只要检出上述有效一致字符串，继续进行上述步骤(d)的装置；
(e)至少在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中，根据在有效一致字符串中存在的信息，从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的装置。
22.一种信息检索系统，用来通过计算机处理在按照可检索方式存储的文献中检出检索字符串出现的位置，该系统具备以下装置：
(a)输入检索字符串的装置；
(b)输入相似度的装置；
(c)取检索字符串的长度为M个字符以上—M为2以上的预定整数—的部分字符串，在上述文献中检索与之一致的开始位置和结束位置的装置—以下，将由该开始位置和结束位置决定的 M个字符以上长度的部分字符串称为有效一致字符串—；
(d)从上述检索字符串的开头，应用上述装置(c)，如果出现检出有效一致字符串的应答，则据此分别从上述检索字符串的部分字符串开始位置和上述文献中的检索开始位置仅只错开相当于刚检出的有效一致字符串的长度，检索其开始位置与该刚检出的有效一致字符串的距离在L个字符以内—L为1以上的预定整数—的有效一致字符串，如果未出现检出有效一致字符串的应答，则从上述检索字符串的部分字符串开始位置错开一个字符再取M个字符以上长度(M为2以上的预定整数)的部分字符串，检索上述有效一致字符串的装置；
(e)只要检出上述有效一致字符串，继续进行上述步骤(d)的装置；
(f)至少在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中，根据在有效一致字符串中存在的信息，从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的装置；
(g)如上述所计算的相似度大于在上述步骤(b)中输入的相似度，则显示在上述文献中所含的上述有效一致字符串的内容的装置。
23.按照权利要求22所述的信息检索系统，其特征在于：上述M为2，上述L为3。
24.按照权利要求22所述的信息检索系统，其特征在于：在有效一致字符串在检索字符串中所占的比例以及在有效一致字符串在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
25.按照权利要求22所述的信息检索系统，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
26.按照权利要求25所述的信息检索系统，其特征在于：上述加分为一个字符1分，上述减分为一个字符1/L分。
27.一种信息检索系统，用来通过计算机处理在按照可检索方式存储的多个文献的数据库中检出检索字符串出现的位置，该系统具备以下装置：
(a)输入检索字符串的装置；
(b)输入相似性的装置；
(c)从上述检索字符串的开头取长度为M个字符以上—M 为2以上的预定整数—的部分字符串，在上述文献中检索与之一致的开始位置和结束位置的装置—以下，将由该开始位置和结束位置决定的M个字符以上长度的部分字符串称为有效一致字符串—；
(d)从上述检索字符串的开头，应用上述装置(c)，如果出现检出有效一致字符串的应答，则分别从上述检索字符串的部分字符串开始位置和上述同一文献中的检索开始位置仅只错开相当于刚检出的有效一致字符串的长度，检索其开始位置与该刚检出的有效一致字符串的距离在L个字符以内—L为1以上的预定整数 —的有效一致字符串，如果未出现检出有效一致字符串的应答，则从上述检索字符串的部分字符串开始位置错开一个字符再取 M个字符以上长度—M为2以上的预定整数—的部分字符串，检索上述有效一致字符串的装置；
(e)只要检出上述有效一致字符串，继续进行上述步骤(d)的装置；
(f)至少在从上述同一文献的最初有效一致字符串的开始位置到上述同一文献的最后有效一致字符串的结束位置之间的字符串中，根据有效一致字符串中存在的信息，从上述同一文献的最初有效一致字符串的开始位置到上述同一文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的装置；
(g)如上述计算得出的相似度大于在上述步骤(b)中输入的相似度，则显示在上述文献中所含上述有效一致字符串的内容的装置。
28.按照权利要求27所述的信息检索系统，其特征在于：上述M为2，上述L为3。
29.按照权利要求27所述的信息检索系统，其特征在于：在有效一致字符串在检索字符串中所占的比例以及在有效一致字符串从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
30.按照权利要求27所述的信息检索系统，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，而不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
31.按照权利要求30所述的信息检索系统，其特征在于：上述加分为一个字符1分，上述减分为一个字符1/L分。
32.一种索引文件的编制方法，使用该方法，通过计算机处理，能够在按照可检索方式存储的文献中高速检索长度为N个字符的字形，该方法包括以下步骤：
(a)顺序扫描上述文献，并将在上述文献中连续出现的任意 N个字符的字形及该N个字符的字形在上述文献中出现位置的信息写入存储区内的步骤；
(b)如在上述步骤(a)中出现上述文献全部扫描完毕的应答，则将写入上述存储区内的信息按上述字形排序，并在每个相互不同的上述字形上附加与其对应的上述位置信息的步骤；
(c)为了能够检索与该字形相对应的附加的上述位置信息，以字形作为关键字编制并输出文件的步骤。
33.按照权利要求32所述的索引文件编制方法，其特征在于：上述步骤(c)的检索为对分检索。
34.按照权利要求1或权利要求5所述的信息检索方法，其特征在于：在上述文献中对于M个字符以上字形的检索，是使用按照权利要求33的方法编成的索引文件并利用由该索引文件检出的位置信息进行的。
35.一种索引文件的编制方法，使用该方法，通过计算机处理，能够在按照可检索方式存储的多个文献的数据库中高速检索长度为N个字符的字形，该方法包括以下步骤：
(a)对上述多个文献中的每个文献附加用来对其进行单独识别的符号或编号的步骤；
(b)顺序扫描上述数据库，并将在上述数据库的每个文献中连续出现的任意N个字符的字形及该N个字符的字形在该文献中出现位置的信息写入与附加该文献识别符号或编号相对应的存储区内的步骤；
(c)如在步骤(b)中出现上述数据库的文献全部扫描完毕的应答，则将写入上述存储区内的信息按上述字形排序，并在每个相互不同的上述字形上附加与其对应的上述文献识别符号或编号以及该文献内的位置信息的步骤；
(d)为了能够检索与该字形相对应的附加的上述文献识别符号或编号以及上述位置信息，以字形作为关键字编制并输出文件的步骤。
36.按照权利要求35所述的索引文件编制方法，其特征在于：上述步骤(d)的检索为对分检索。
37.按照权利要求10或权利要求14所述的信息检索方法，其特征在于：上述文献中对于M个字符以上字形的检索，是使用按照权利要求36的方法编成的索引文件，并利用由该索引文件检出的位置信息进行的。
38.按照权利要求37所述的索引文件编制方法，其特征在于：上述M和N都为2，上述L在3以上。
39.一种索引文件的编制方法，使用该方法出通过计算机处理，能够在按照可检索方式存储的文献中高速检索长度为N个字符的字形，该方法包括以下步骤：
(a)顺序扫描上述文献，并将在上述文献中出现的预先指定的分隔符及该分隔符在上述文献中出现位置的信息写入存储区内，同时将在上述文献中连续出现的任意N个字符的字形及该 N个字符的字形在上述文献中出现位置的信息写入存储区内的步骤；
(b)如在步骤(a)中出现上述文献全部扫描完毕的应答，则将写入上述存储区内的信息按照上述字形排序，并在每个相互不同的上述字形上附加与其对应的上述位置信息的步骤；
(c)为了能够检索与该字形相对应的附加的上述位置信息，以字形作为关键字编制并输出文件的步骤。
40.按照权利要求1或权利要求5所述的信息检索方法，其特征在于：在上述文献中对M个字符以上字形的检索，是使用按照权利要求39的方法编成的索引文件，并利用由该索引文件检出的位置信息进行的。
41.按照权利要求40所述的信息检索方法，其特征在于：在上述文献中对分隔符进行检索，并将在上述文献中对M个字符以上字形进行检索时检出的位置信息附加在相应的位置上的步骤。
42.一种索引文件的编制系统，使用该系统，通过计算机处理，能够在按照可检索方式存储的文献中高速检索长度为N个字符的字形，该系统具有以下装置：
(a)顺序扫描上述文献，并将在上述文献中连续出现的任意 N字符的字形及该N个字符的字形在上述文献中出现位置的信息写入存储区内的装置；
(b)如在上述装置(a)中出现上述文献全部扫描完毕的应答，则将写入上述存储区内的信息按照上述字形排序，并在每个相互不同的上述字形上附加与其对应的上述位置信息的装置；
(c)为了能够检索与该字形相对应的附加的上述位置信息，以字形作为关键字编制并输出文件的装置。
43.一种索引文件的编制系统，使用该系统，通过计算机处理，能够在按照可检索方式存储的多个文献的数据库中高速检索长度为N个字符的字形，该系统具有以下装置：
(a)对上述多个文献中的每个文献附加用来对其进行单独识别的符号或编号；
(b)顺序扫描上述数据库，并将在上述数据库的每个文献中连续出现的任意N个字符的字形及该N个字符的字形在该文献中出现位置的信息写入与附加该文献识别符号或编号相对应的存储区内的装置；
(c)如在手段(b)中出现上述数据库的文献全部扫描完毕的应答，则将写入上述存储区内的信息按上述字形排序，并在每个相互不同的上述字形上附加与其对应的上述文献识别符号或编号以及该文献内的位置信息的装置；
(d)为了能够检索与该字形相对应的附加的文献识别符号或编号以及上述位置信息，以字形作为关键字编制并输出文件的装置。
44.按照权利要求43所述的索引文件编制系统，其特征在于：上述N都为2。
45.一种索引文件的编制系统，使用该系统，通过计算机处理，能够在按照可检索方式存储的文献中高速检索长度为N个字符的字形，该系统具有以下装置：
(a)顺序扫描上述文献，并将在上述文献中出现的预先指定的分隔符及该分隔符在上述文献中出现位置的信息写入存储区内，同时将在上述文献中连续出现的任意N个字符的字形及该 N个字符的字形在上述文献中出现位置的信息写入存储区内的装置；
(b)如在装置(a)中出现上述文献全部扫描完毕的应答，则将写入上述存储区内的信息按照上述字形排序，并在每个相互不同的上述字形上附加与其相对应的上述位置信息的装置；
(c)为了能够检索与该字形相对应的附加的上述位置信息，以字形作为关键字编制并输出文件的装置。
46.一种索引文件的编制系统，使用该系统，通过计算机处理，能够在按照可检索方式存储的多个文献的数据库中高速检索长度为N个字符的字形，该系统具有以下装置：
(a)对上述多个文献中的每个文献附加用来对其单独识别的符号或编号的装置；
(b)顺序扫描上述数据库，并将在上述数据库的每个文献中出现的预先指定的分隔符及该分隔符在上述文献中出现位置的信息写入附加该文献识别符号或编号的相应存储区内，同时将在上述数据库的每个文献中连续出现的任意N个字符的字形及该N 个字符的字形在该文献中出现位置的信息写入附加了该文献识别符号或编号的相应存储区内的装置；
(c)如在装置(b)中出现上述数据库的文献全部扫描完毕的应答，则将写入上述存储区内的信息按照上述字形排序，并在每个相互不同的上述字形上附加与其相对应的上述文献识别符号或编号以及该文献内的位置信息的装置；
(d)为了能够检索与该字形相对应的附加的上述文献识别符号或编号以及上述位置信息，以字形作为关键字编制并输出文件的装置。
47.一种信息检索方法，用来通过计算机处理，能够在按照可检索方式存储的多个文献的数据库中检出检索字符串出现的位置，该方法包括以下步骤：
(a)输入检索字符串的步骤；
(b)输入相似度的步骤；
(c)从上述检索字符串的开头取长度在M个字符以上—M 为2以上的预定整数—的部分字符串，在上述数据库的同一文献中检索与之一致的开始位置和结束位置的步骤，以下，将由该开始位置和结束位置决定的、长度在M个字符以上的部分字符串称为有效一致字符串；
(d)取
第i个有效一致字符串在文献中的开始位置为s(D，i)
第i个有效一致字符串在文献中的结束位置为e(D，i)
第i个有效一致字符串在待检索的字符串中的开始位置为s (C，i)
第i个有效一致字符串在待检索的字符串中的结束位置为e (C，i)
检索满足以下两个条件的第i+1个有效一致字符串的步骤：
e(D，i)+1≤s(D，i+1)≤e(D，i)+L+1
且
s(C，i+1)＞e(C，i)-(M-1)
在上式中，L为1以上的预定整数，
(e)只要检出上述有效一致字符串，就继续进行上述步骤(d) 的步骤；
(f)至少在从上述同一文献的最初有效一致字符串的开始位置到同一上述文献的最后有效一致字符串的结束位置之间的字符串中，根据有效一致字符串中存在的信息，从上述同一文献的最初有效一致字符串的开始位置到上述同一文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的步骤。
(g)如果经过上述计算得出的相似度大于在上述步骤(b)中输入的相似度，则在上述文献中显示所含的上述有效一致字符串的内容。
48.按照权利要求47所述的信息检索方法，其特征在于：上述M为2，上述L为3以上。
49.按照权利要求47所述的信息检索方法，其特征在于：在有效一致字符串在检索字符串中所占的比例以及在有效一致字符串在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中所占的比例二者之中，上述相似度的计算取小值。
50.按照权利要求47所述的信息检索方法，其特征在于：在检索字符串在有效一致字符串中所占的比例以及在上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的有效一致字符串所占的比例两者之间，在上述的类似度计算中取小值。
51.一种信息检索方法，用来通过计算机处理在按照可检索方式存储的多个文献的数据库中检出检索字符串出现的地方，该方法包括以下步骤：
(a)输入检索字符串的步骤；
(b)输入相似度的步骤；
(c)从上述检索字符串的开头取长度在M个字符以上—M 为2以上的预定整数—的部分字符串，在上述数据库的同一文献中检出与之一致的开始位置和结束位置的步骤—以下，将由该开始位置和结束位置决定的、长度在M个字符以上的部分字符串称为有效一致字符串…；
(d)取
第i个有效一致字符串在文献中的开始位置为s(D，i)
第i个有效一致字符串在文献中的结束位置为e(D，i)
第i个有效一致字符串在希望检索的字符串中的开始位置为 s(C，i)
第i个有效一致字符串在希望检索的字符串中的结束位置为 e(C，i)
检索满足以下条件的第i+1个有效一致字符串的步骤：
s(C，i+1)＞e(C，i)-(M-1)
s(D，i+1)＞e(D，i)
且
s(D，i+1)-e(D，i)-1+max(e(C，i)-s(C，i+1)
+1.0)≤L
(在上式中，L为1以上的预定整数)
(e)只要检出上述有效一致字符串，就继续进行上述步骤(d) 的步骤；
(f)至少在从上述同一文献的最初有效一致字符串的开始位置到同一上述文献的最后有效一致字符串的结束位置之间的字符串中，根据有效一致字符串中存在的信息，从上述同一文献的最初有效一致字符串的开始位置到上述同一文献的最后有效一致字符串的结束位置间的字符串计算其与上述检索字符串之间的相似度的步骤。
(g)如果经过上述计算得出的相似度大于在上述步骤(b)中输入的相似度，则显示在上述文献中所含的上述有效一致字符串的内容。
52.按照权利要求51所述的信息检索方法，其特征在于：上述M为2，上述L在3以上。
53.按照权利要求51所述的信息检索方法，其特征在于：在有效一致字符串在检索字符串中所占的比例以及在有效一致字符串在从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中占有的比例二者之中，上述相似度的计算取小值。
54.按照权利要求51所述的信息检索方法，其特征在于：对于从上述文献的最初有效一致字符串的开始位置到上述文献的最后有效一致字符串的结束位置之间的字符串中的每一个字符，当其属于有效一致字符串时加分，而不属于时减分，上述相似度的计算利用结果得分除以完全一致得分值后所得的值。
55.按照权利要求51所述的信息检索方法，其特征在于：上述加分为一个字符1分，上述减分为一个字符1/L分。
56.对于属于第i个有效一致字符串且其对应的检索字符串字符又属于第i-1个有效一致字符串这样的字符，减1/(2L) 分。

说明书全文

本发明涉及高速、且以所要求的容许模糊度进行检索，例如，对于以文本文件形式存储在磁盘内的大量文献进行检索的系统和方法。

迄今为止，一直希望以高速检索存储在磁盘内的以自然语言书写的新闻报道、专利公报、科学技术文献等大量文献资料，并提出了各种各样的检索方式。这些检索方式大致区分如下。 (a)关键字检索方式

在这种方式中，要预先针对表示每个文献及该文献内容的关键字作成索引。这时，确定关键字的方法，有根据字形分解等自动检出关键字法、人工键入关键字法、及二者组合法。但是，这种方式只能针对有关键字索引的字符串进行检索，而且根据字形分解，自动检出关键字的精度要取决于单词、语法词典的精度，所以要在词典的编订工作上花费大量人力，这是它的缺点。 (b)无索引全文检索方式

这是一种虽然不使用索引但在每次都要当指定待检索的字符串作为检索对象的文献全文扫描的方式。也是一种要使用特殊硬件以提高检索速度的方式。但是，使用特殊硬件的系统要增加费用，同时还要受到客户服务环境方面的约制，局限于某些可以使用的机型。 (c)按索引全文检索方式

本发明即属于按索引全文检索方式。这是通过使用索引，试图达到对全文进行高速检索，已知的有如下所示的几种技术方法。

在特开平4-205560号公报中公布将作为检索对象的字符串按检索时使用的检索单位划分，对该每个检索单位附加升序符号，对该分成的检索单位附加表示其逻辑划分的属性符号，并对作为检索对象的字符串附加表示各个字符在检索单位中所处位置的字符位置顺序符号，作成由检索单位识别符号、字符位置顺序符号和属性符号组成的字符位置信息，并将该字符位置信息存储在每种字符区内，编制成检索文件。

在特开平4-215181号公报中公布：为了减少在检索处理时对字符串的查对次数，并且为了能够采用通用信息处理装置进行高速查对，将表示构成检索对象字符串的各字符组在字符串中所处位置的字符组位置信息编制成按照各种字符组的类别分组的检索文件。

可是，也经常会遇到不但要检索与检索字符串完全一致的字符串，并且还想检索包含部分一致字符串的文献。例如，用户对检索字符串的记忆模糊，或者会遇到字符串出现各种各样的变形，而将这些变形全部列举有时又会遇到困难的情况。

现有技术中典型的部分字符串的指定方法是采用标准的表达方式。按照该方法，可以指定重复出现在0次以上的任意字符、重复出现在1次以上的任意字符、在行末位置、行首位置、以及在绝对字符码范围内的任意字符等。

另外，在特开平63-99830号公报公布在具备检索字符串数据和被检索字符串数据部分一致功能的系统中，设有存储表示与检索字符串数据有同类语关系的数据表以及表示该检索字符串数据是否在任何一个被检索字符串数据中出现的数据表。

在特开平62-221027号公报公布：当将部分对象字符串从开头断开的一段字符串在词典中未能检索的查到时，通过对只将其长度加1对下一个断开的字符串进行前推检索，既可减少无效检索次数，且可以较高的速度进行有效的单词读出。

在特开平4-326164号公报和特开平5-174067公报中公布：在数据库检索系统中储存了与检索对象的每个事件的自相关信息，针对每个事件求出检索关键字的自相关信息与检索对象的上述自相关信息的一致度，并按一致度的降序输出事件编号的检索手段。

但是，在上述现有技术的字符串检索方法中，要想指定应检索字符串的模糊度是困难的，因而在检索结果中所含的字符串有多并不是用户所要求的，或者是不合逻辑的字符串。

本发明的目的是提供一种可任意指定应检索字符串的模糊度的字符串检索方法。

本发明的另一目的是提供用于实现可任意指定应检索字符串模糊度的字符串检索方法的索引结构。

本发明的又一目的是通过模糊检索提供一种可使检索接近人的感觉的字符串检索技术。

按照本发明，为了针对由多个文献构成的数据库进行全文检索，对每个文献附加一个唯一的编号(或符号)，并将各文献中的每个连续的N个字符和该N个字符所在的文献编号及其在文献中的位置的信息储存在索引文件中。索引文件适合于由字形文件和位置信息文件两个文件组成。在字形文件中存储着字形·分隔符和与其对应的文献编号和文献内位置编号在位置信息文件中所处的位置。在位置信息文件中存储着文献编号和文献内位置编号。

按照本发明，提供一种使用上述索引文件对含有与指定字符串和字符排列相似的字符串的文献进行高速检索的方式。在这种方式中，可以指定待检索的字符串和检索精度(大于0而小于1)，并能确定含有与待检索的字符串的″相似度″超过指定检索精度的″相似字符串″的文献，以及″相似字符串″在文献中的位置。

这种方式，具体地说，就是从文献中选定与待检索的字符串″ 相似的字符串″，并从哪些字符是连续一致、有多少多余的字符夹在其中的两个观点出发对″相似度″作数值化处理。

这时，如″相似度″的最高值为1，表示字符串完全一致，且当字符串完全一致时，则″相似度″必定为1。当在相似字符串中夹有不是待检索的字符串的多余字符或只有待检索的字符串的一部分出现在相似字符串中时，其″相似度″即为小于1的值，但按照本发明，如果这样的″相似度″值却相当符合人的感觉，那就是有用的。

上述索引文件由于能够高速检索文献中任意连续的N个字符，所以通过使用上述索引文件并连续与应检索字符串的N个字符顺序进行比较，就可以高速检出哪些字符是属于连续一致，和有多少多余的字符夹在其中间。

图1是表示硬件结构的框图。

图2是处理单元的框图。

图3是索引文件的结构图。

图4是表示索引文件编制处理的流程图。

图5是使用索引文件的字符串检索处理流程图。

图6是使用索引进行模糊检索处理的流程图。

以下参照附图说明本发明的实施例。 A.硬件构成

参照图1，图中示出了用来实施本发明的系统结构简图。该结构为将以下各部分连接于总线101的一般结构，其中包括具有运算和输入输出控制功能的中央处理机(CPU)102、装入程序并为 CPU102提供工作区的主存储器(RAM)104、用来键入命令和字符串等的键盘106、存储用来控制中央处理机的操作系统、数据库文件、检索工具、索引文件等的硬盘108、用来显示数据库检索结果的显示器110以及用来指定显示器110屏面的任意位置并将该位置信息传送给中央处理机的鼠标器112。

作为操作系统最好是以Windows(微软公司商标)、OS/2 (IBM商标)、AIX(IBM商标)升级的X-WINDOW系统(MIT 商标)等的标准支持GUI 多窗口环境，但本发明也可在PC-DOS (IBM商标)、MS-DOS(微软公司注册商标)等字符基准环境下实现，并不限定特定的操作系统环境。

另外，图1示出了独立环境的系统，但一般地说，由于数据库文件要求大容量的磁盘机，如果在客户服务器系统中采用本发明，则可将数据库文件和检索工具配置在服务机，而客户机对服务机通过以太网、令牌环等作局部区域网连接，也可只将查看检索结果的显示控制部分配置在服务机侧。 B.系统构成

下面，参照图2的框图，说明本发明的系统结构。应注意图2中用各个框图表示的单元是作为数据文件或程序文件单独或整体存储在图1的硬盘108中的。

本发明的主要设想是认为数据库202是存储新闻报道用的数据库、专利公报数据库等的多个文献。但应注意本发明的适用范围并不限定由多个文献组成的数据库，对单一文献内的检索也能适用。这时，单个文献的内容(例如)是以文本文件的形式按可检索方式存储的。另外，对每个文献附加唯一的文献编号。文献编号最好是从1开始的升序编号，但对专利公报数据库也可使用申请号或公布号等唯一的文献编号。为了识别每个文献，也可不用顺序编号，而使用″ABC″、″&XYZ″等符号。但是，为表示这种识别符号通常需要的字节数比数字多，所以实际上用顺序编号识别文献的方式是最理想的。

由于对于数据库202所存储的新闻报道或专利公报这样庞大的信息内容进行直接检索需要很长的处理时间，所以通常是预先针对数据库202所存储的新闻报道内容，利用索引生成·更新模块 206，编成索引文件204。在后面叙述的本发明的实施例中，按这种方式编成的索引文件204是由字形文件和位置信息文件两个文件组成。在字形文件中存储着字形·分隔符和与其对应的文献编号以及文献内的位置编号在位置信息文件中所处的位置。在位置信息文件中存储着文献编号和文献内位置编号。

数据库202也可以将每个文献作为单独的文件管理，或者，可将整个文献顺序排列成连续的单一文件，简言之，实质上是对每个文献附加一个唯一的编号，并可按该唯一的编号访问每个文献的内容。在前者的情况下，数据库202针对与每个文献的唯一编号和存储文献的实际文件名对应设置的数据表进行管理，而在后者的情况下，数据库202是针对与每个文献的唯一编号和单一数据库文件中的位偏移量及文献大小对应设置的数据表进行管理。检索工具208 是以来自检索字符输入模块210的检索字符串作为输入来检索索引文件204，并具有将含有输入检索字符串文献的文献编号(可为多个数字)和该输入检索字符串在文献中的位置(也可为多个数字) 返回的功能。检索字符输入模块210最好由多窗口环境的对话框构成，并具有用键盘106将所要求的应检索字符输入到该输入框的形式。

另外，按照本发明的特征，检索字符输入模块210可以按0～1 的数值(也可按百分数的0～100的数字)输入模糊检索的相似度。为此，检索字符输入模块210显示具有在0～1之间指示任意位置的指针的滑动块或卷滚条。该滑动块的指针(例如)可指示系统设定值1，或可用鼠标器112操作，拖拉移动指针指示其他值。

结果显示模块212根据来自检索工具208的检索结果的文献编号和检索字符在该文献中出现位置的值访问数据库202，并在适当的单独检索结果显示窗口显示与该文献中该位置对应的行。当检索结果在该窗口的一个屏面中容纳不下时，将显示卷滚条，用户可移动卷滚条依次注意查看检索结果。 C.索引文件的结构和编制方法

在本发明中，将所有的连续N个字符及其在文献内位置以及文献内分割信息编成文献，并附加索引形成文件。在文件中，文献内的典型分割信息计有“。”、“、”等文章所用的分隔符和“第1 章”、“摘要”等广义的文献分隔符。 C1.字符串的标准化

为了编制索引文件所必需的最初处理要进行如下所述的字符串标准化处理。这就是说，特别是当准备检索的文献是日语文本文件，而且是以半角和全角方式形成的混合文件。因此，要进行将半角字符换成相应的全角字符的处理。 C2.字形信息的取出

编制索引文件的下一个步骤是对标准化后字符串的全部字符由开头处截取从头开始的连续N个字符(以下称字形)，并将其连同文献编号、文献内位置编号一并存入索引文件。但应取N≥1，如为日语，取N＝2为适当。

文献内位置编号是针对文献内检索对象的全部字符附加的文献内部唯一顺序号。并将字形开头字符的文献内位置编号作为该字形的文献内位置编号。在文献结束处的后续字符总计不到N个时，要装入X‘00’等规定的填充字符使其总计为N个。

另外，在本实施例中，将每个单独的文献按照对检索有意义的划分方法分割成块，并将分割信息存储在索引文件内。分割信息的存储按照与前述的字形相同的形式进行。即不采用从标准化的字符串截取字形的方式存储，改用将特别规定的分隔符连同文献的文献编号和块的边界字符的文献内位置信息一并存储。

由于分隔符有多种类型，所以可以有多种不同的分割方法。但是，必须规定分隔符不得与按标准化字符串读取的字形重复。在本实施例中，当通过标准化处理是将1字节代码变换成2字节代码，因而将2个字节作为1个字看待时，如该1个字的值在255以下，则不适用常用的字符编码。因此，可将0～255的任意字值单独分配给多种类型的分隔符。

将分割信息按照与字形相同的形式存储的优点如下。

—索引的生成·更新简单。无须对分割信息另行处理。

—不会使索引的容量有明显增加。

例如，与对每个文献内位置编号附加其所属的块编号的形式相比，容量的增加非常小。 C3.文献内位置编号的具体例子

例如，将在开头含有“本日は晴天なり。ただぃま、マイクのテスト中。”(今天天晴，现正试验话筒。)这样一段文章的文献存储在数据库202(图2)内。如对该段文章的各字符附加文献内位置编号，则如下所示。

字符的文献内位置编号1 2 3 4 5 6 7 8 9 10111213141516171819202122

标准化的字符串本日は晴天なり。ただいま、マイクのテスト中。

分隔方式1 | |

分隔方式2 | | |

现设该文献的文献编号为1号，并设上述字形的字符数N＝2。这样一来，对每个字形(长度为2)附加有关的文献编号和文献内位置编号如下。字形文献编号文献内位置编号本日 1 1 日は 1 2 は晴 1 3 晴天 1 4 天な 1 5 なり 1 6 り。 1 7 。た 1 8 分隔符1 1 8 分隔符2 1 8 ただ 1 9 だぃ 1 10 いま 1 11 ま、 1 12 、マ 1 13 分隔符2 1 13 マイ 1 14 イク 1 15 クの 1 16 のテ 1 17 テス 1 18 スト 1 19 ト中 1 20 中。 1 21 。 1 22 分隔符1 1 22 分隔符2 1 22 C4.文献内分割信息的作用

以下说明文献内分割信息(分隔)在检索中的利用价值。 ·仅以特定块作为对象的检索

例如，文献由所谓的标题·摘要·正文组成时，一般希望仅以标题、摘要等特定部分作为对象进行检索。通过对标题的结束、摘要的结束存储分隔符及其位置信息，则可实现这样的检索。 ·多个字符串之间有密切关联的文献检索

一般都希望对于意识到在多个字符串之间从文理上有密切关联的进行检索。

例如，可以想像，字符串之间的关系仅在同一文献内相比，可能就不如在同一段落内的关系密切，而在同一个句子内的关系则会更为密切，通过对段落和句子的结束处添加分隔符并储存及其位置信息就可对存在同一存储块中的文献进行检索，这样就能够进行意识到关系密切的检索。 C5.索引文件的结构

字形、分隔符及其文献编号以及文献内位置编号必须按在检索时能够高效率取出的形式存储。为此，在本实施例中，索引文件由字形文件(主要存储字形、分隔符的文件)和位置信息文件(主要存储文献编号·文献内位置编号的文件)组成。在字形文件中存储着字形、分隔符以及与其对应的文献编号和文献内位置编号在位置信息文件中所处的位置。在位置信息文件中存储着文献编号、文献内位置编号。

这种字形文件和与其对应的位置信息文件的例子示于图3。

在图3中，字形文件302的项目是数据库202所有文献中的连续N个字符(这里，N＝2)的字形。为了能够进行折半检索，字形文件302的项目最好是以标准化字形的开头字符代码值按升序排序。“分隔符1”、“分隔符2”、“なり”、“は晴”等就是字形文件302的一个个的项目。例如，“分隔符1”为“，”、“、”、“。”等分隔文章、句子用的符号的总括表示，被分配给2字节的值。

图3的位置信息文件304存储与字形文件302的每个项目相对应的、至少是一个文献编号和与该每个文献编号有关的、至少是一个文献位置编号。

为了使字形文件302的项目与位置信息文件304的项目彼此对应，图中虽未列出，但在字形文件302的每个项目中应具有与之相对应的、在位置信息文件304中的项目信息、从位置信息文件 304的最前头开始的位移量和相应的位置信息文件304项目大小的信息。即在图3中，例如，字形文件302根据与“分隔符2”有关并存储在其中的位移量信息，从位置信息文件304的开头进行查找，并从查到的位置读取仅在项目大小的信息中指定的字节数。从而，可以一并读取与“分隔符2”有关的文献编号1中的8、13、22… 这样的文献内位置编号值以及与文献编号2有关的文献内位置编号值…(如果有的话)、及与文献编号n有关的文献内位置编号值。

与文献编号i有关的文献内位置编号值一般是以，例如，(文献编号i：4字节)(文献内位置编号数目k：4字节)(第1个文献内位置编号：4字节)…(第k个文献内位置编号：4字节)的形式存储的。在这个例子中，作为存储文献内位置编号的字段，虽然存储的是文献的绝对位置，要采用4个字节，但实际上是从前一个文献内位置编号的位移量起算存储，所以可节省1～3个字节。 C6.索引文件的编制处理

下面参照图4说明索引文件的编制处理。这种处理是在最初建立数据库202时，或者向数据库202追加或从数据库202中删除时，利用图2的索引生成·更新模块206进行的处理。

在图4中，首先在步骤402，进行确保存储区的处理。这种处理，例如，可通过调用操作系统的功能在RAM104上获得规定大小的工作区。

在步骤404，从数据库202将一个文献读入在上述步骤402获得的适当存储区。

在步骤406，对在步骤404读入的文献进行标准化处理。

在步骤408，通过扫描标准化后的文献，作成字形·分隔符，并将字形·分隔符连同该文献的文献编号及字形·分隔符的文献内位置编号存储在步骤402获得的存储区内。

在步骤408的处理中，随着将字形、文献编号及文献内位置编号存储在步骤402预先获得的存储区内，该获得的存储区的空闲区域可能还没有存满。因此，在步骤410，对所获得的存储区是否存满进行检查处理，如果已存满，则在步骤412，根据，例如，字形及分隔符的编码值、文献编号、文献内位置编号将存储区所存储的字形、分隔符和文献的文献编号以及字形、分隔符的文献内位置信息进行分类，并将其作为中间文件写入磁盘108(图1)，因此，写成中间文件的数据所占的存储区在以下的处理中还可开放使用。而后面的处理则进入步骤414。

如在步骤410判断出存储区尚有余裕，则处理直接进入步骤 414。

在步骤414，判断在数据库202内是否还留有在步骤404还未读完的文献。如果是，则处理返回步骤404。

在步骤414，如判断出数据库202的全部文献已读入处理完毕，则仍根据字形、分隔符的编码值、文献编号、文献内位置编号将留在步骤402获得的存储区内尚未写出的字形、分隔符和文献的文献编号以及字形·分隔符的文献内位置信息进行分类，并将其作成中间文件，写入磁盘108(图1)。

通过在步骤412和步骤416的中间文件写入处理，在磁盘108 内存有多个中间文件，由于该各中间文件已预先作过分类，所以在步骤418中利用众所周知的合并分类技术进行处理，并从上述多个中间文件编制成图3所示的字形文件302和位置信息文件304，并将其存储在磁盘108内。在原来的多个中间文件中，字形有可能重复出现几次，因此，将重复的同一字形的项目合并为一个，并对与其有关的文献编号和文献内位置编号进行相关的处理。 D.使用索引文件的检索处理

以下参照图5的流程图，说明使用上述编成的索引文件进行检索处理的例子。首先，在步骤502，显示，例如，具有输入框的对话框，对用户提示要进行输入处理，将检索字符串输入到该输入框中。

用户向输入框输入检索字符串，敲OK按钮，于是按需要进行检索字符串的标准化处理，然后从该检索字符串的开头数N个字符的字形使用上述索引文件进行检索处理。这里所说的N个字符的字形的长度是与上述索引文件的字符串字形长度N相同，因此，可以将取检索字符串的部分字符串的N个字符的字形作为关键字，对上述索引文件进行高速折半检索。日语文献的适当N值的一个例子是取N＝2。

在步骤506，如经判断发现找不到检索字符串开头的N个字符的字形，则在步骤508中在信息框中适当地显示出找不到检索字符串的信息，处理结束。

在步骤506，如经判断已经找到检索字符串开头的N个字符的字形，则由于从索引文件返回一个以上的文献编号和该文献编号的至少一个文献内位置编号，所以为了进行后面的处理要在步骤510 中将该信息先存入主存储器或磁盘上的规定缓冲区内。

在步骤512，判断检索字符串是否已按N个字符的字形的部分字符串全部检索完毕，如果是，则处理进入步骤520。如果不是，则在步骤514，根据检索字符串的下一个N个字符的字形使用上述索引文件进行检索处理。检索字符串的长度一般不限于N的倍数，因此，当检索一个个的N个字符的字形的处理一直进行到靠近检索字符串末端的部分字符串时，索引文件关键字的字符串有时会比 N个字符的字形短。遇到在这种情况，可取检索字符串最后的N 个字符中的部分字符串。这一来，结果就会与在这之前所取的N 个字符有所重复。当检索字符串不满N个字符时，折半检索有多个候选结果，其后的处理就是通过顺序检索找出多个候选结果。

在步骤516中，与步骤506相同，是判断是否在索引文件中找到与检索字符串的N个字符的字形。但是，步骤516与步骤506有本质上的差异，在步骤516，找到和未找到的意思是指：所找的是具有与检索字符串开头前N个字符相关的、在某个文献编号中的某个文献内位置编号只加N的文献内位置编号中的字形。

在步骤516，如经判断，发现找不到检索字符串的该N个字符的字形，则在步骤508中在信息框中显示找不到检索字符串的信息，于是处理结束。

在步骤516，如经判断，发现已找到检索字符串开头N个字符的字形，则只要顺序地循环从索引文件检索结果返回的文献编号及在该文献编号中至少一个文献内位置编号中的一个开头N个字符的字形的信息和同一文献内的位置编号，在步骤518，为进行以后的处理，先将信息存储在主存储器或磁盘上的规定缓冲区内。

在步骤512，如判断检索字符串已全部检索完毕，则进入步骤 520，由存储在缓冲区内的文献编号及文献内位置编号确定存在检索字符串的文献编号及其位置，在步骤522，用该文献编号及文献内位置编号访问数据库202的存储内容，并将存在文献检索字符串的文献中的该行在另一个窗口内恰当显示。

为了检查检索字符串是否出现在文献内的特定的块(例：第3 个块)，应计算上述检索字符串在文献内出现位置之前出现的上述文献内的分隔位置，借以检查上述检索字符串在上述文献内位于哪一个块(第几个块)，也可与指定块的编号进行比较。 E.模糊检索处理

图5所示使用索引文件进行的处理，可以说进行的是严谨的检索处理，但按照本发明，是包括使用索引文件，能够按照指定的字符串和与字符排列相似的字符串，对数据库每个文件高速执行称之为模糊检索的处理。特别是，在这种方式中，可指定待检索的字符串和检索精度(大于0而小于1)，并能确定所含与待检索的字符串的具体″相似度″超过指定检索精度的″相似字符串″的文献及″相似字符串″在文献内的位置。 E1.凭人的感觉确定字符串的相似

凭懂日语的人的感觉，发现字符的排列相似、且含义相近的日语字符串有下列几种情况。 (1)片假名的表达方式不同小字体和大字体 “ソフトウエフ”“ソフトウエア”(软件) 有无长音“-” “コンパイラ-”“コンパイラ”(编程器) 有无中置圆点“·”“アイビ-エム”“アイ·ビ-·エム”(IBM) 其他 “ビルデインゲ”“ビルヂング”(建筑物) (2)在汉字词组与汉字词组之间插入助词等

“在宅起诉”“在宅のまま起诉”

“政界再编”“政界の再编” (3)汉字词组复合词和缺一部分的词组复合词

“国立民族博物馆”“国立博物馆”“民族博物馆” (4)因用省略语等而缺少部分字符

“ソフトウエア开发”“ソフト开发”(软件开发) (5)外来语错拼

“カリフオルニア”“カリフオリニア”(加利福尼亚)

以上情况的共同的特点是字符大体上连续一致，但有缺少或多出字符。

如从哪方面相似的观点出发来研究几个词，与“ソフトメ-カ -”相似的按序排列计有“ソフトのメ-カ-”、“ソフト开发メ-カ -”、“ソフトの开发メ-カ-”，而如果与“政治资金规正法案”相比，感觉到与其相似的按序排列则有“政治资金规正法”、“政治资金规正”、“政治资金”。

另外，字符虽可以说一致，但要说“ソフトクリ-ム制造机械の制造を主业务とする机械メ-カ-”(以奶品制造机械为主业务的机械制造厂)与“ソフトメ-カ-”是相似的字符串，那就是不合逻辑的感觉了。

人是否会感到字符串相似的感觉可归纳为， (A)连续一致的字符越多越感到相似， (B)中间夹杂的不一致字符越多越感到不相似， (C)中间夹杂的不一致字符过多就感觉不到是一个字符串。

这时，必须考虑输入字符串在文献中的接近位置重复出现的具体情况。如举个例子，就是输入字符串为“理学部长に就任”，而文献中为“理学部部长に就任”。重复出现的“部”这个字符中的一个虽是多余的字符，但与“理学部の长に就任”的这个无关系的字终“の”相比，就应当认为前者是接近的一致字符的想法是妥当的。 E2.索引文件的结构和一致度

图3所示的索引文件结构，是在N个字符的字形上附加文献编号及文献内位置编号的索引，检索处理是以一个字形为最小单位进行的检索处理，检出该文献编号及文献内位置编号。但在检索不满N个字符的字符串时，必须将从待检索的字符串从头开始，以全部字形的字符为最小单位，进行检索处理，其个数有时是相当多的。与输入的字符串中的字符在N个以上时的检索次数顶多是以输入字符串中的字符个数为最小单位的检索相比，可以说不满N 个字符的输入字符串的检索负荷更大。

因此，应舍去不满N个字符的部分的一致，而根据N个字符连续一致的部分来确定相似字符串，可以认为这是确为保持高速性的这种说法是适当的。 E3.相似字符串和相似度的确定规则

从与输入字符串有M个字符以上连续一致的字符串中，收集与输入字符串有相同顺序关系相互间比较接近的作为相似字符串，根据一致的字符数、不一致的字符数来计算相似度就是规则的概要。

首先，定义在说明中使用的术语。

一致字符串：

待检索的字符串与文献原文有M个字符以上连续一致的部分。从相同的字符开始选定其中最大的长度。

(例)待检索的字符串：政治资金规正法案

文献原文：…资金规正のために法のカで…

设M＝2。因此，“资金规正”为一致字符串。这时，因为要选择最长的，所以“资金”和“资金规”不能称作一致字符串。而“法”因为不满2个字符所以不属于一致字符串。

有效一致字符串：

构成相似字符串的一致字符串。

最大不一致字符串长度L：

相似字符串中含有的不一致字符连续达L个字符。L为1以上的常数。

以下说明″相似字符串″的选定方法和″相似度″的数值化方法。 (1)第1个有效一致字符串的确定

按照在文献中的顺序取第1个一致字符串作为第1个有效一致字符串。

其中，

第i个有效一致字符串在文献中的开始位置标记为s(D，i)

第i个有效一致字符串在文献中的结束位置标记为e(D，i)

第i个有效一致字符串在待检索的字符串中的开始位置标记为s(C，i)

第i个有效一致字符串在待检索的字符串中的结束位置标记为e(C，i)。 (2)下一个有效一致字符串的确定

在确定第i个有效一致字符串时，按如下方法确定第i+1个有效一致字符串。

当最初的一致字符串满足以下a)、b)两个条件时，取作第i+1 个有效一致字符串。 a)e(D，i)+1＜＝s(D，i+1)＜＝e(D，i)+L+1

上式是指：当第i个有效一致字符串与第i+1个有效一致字符串之间夹入的多余字符允许在L个字符以下

(参照后文的例3) b)s(C，i+1)＞e(C，i)-(M-1)

在未选定符合条件的有效一致字符串之前反复进行。 (3)″相似字符串″及其″相似程度″(相似度)的确定

如未选出上述的有效一致字符串，则以第1个有效一致字符串的起始字符到最后的有效一致字符串的最后字符作为″相似字符串″，并按下式计算″相似度″。相似度＝

(待检索字符串中属于有效一致字符串的字符数

/待检索的字符串的字符数，

″相似字符串″中属于有效一致字符串的字符数

/″相似字符串″的字符数)最小值 E4.″相似字符串″中属于有效一致字符串字符数的计算方法

当有2个字符与待检索字符串中的相应字符相同时，第1个字符按1计算，第2个字符按0.5计算。其他场合一个字符按1计算。 (参照后文的例4) E5.″相似字符串″的确定顺序

第1个″相似字符串″从文献的开头开始进行比较确定。在确定第i个″相似字符串″时的过程中，从第i个″相似字符串″的开头字符向后找，在构成第i个″相似字符串″的有效一致字符串中找出不属于有效一致字符串的字符，然后开始进行比较，从而找出第i+1个相似字符串。

通过对常数L、M进行适当赋值，根据字符的排列是否相似，可以计算出与人的一般判断相当一致的″相似度″。

另外，当″相似度″为最高值1时，表示字符串完全一致，当字符串如完全一致，则″相似度″必为1。 E6.模糊检索的流程图

以上的处理如用流程图表示，则如图6所示。在图6中，首先在步骤602，提示输入检索字符串。在步骤604中，提示输入0～1 的相似度。在步骤602和步骤604中的字符串和数值的输入操作，通常是在对话框上使用输入框和卷滚条进行。

在步骤606，将有效一致字符串的编号i设置为1，在步骤608，进行有效一致字符串的检索。此时，假定满足有效一致字符串长度设定在M以上的条件，则在图4的处理中，按照M个字符的字形编制索引文件是有利的。之所以如此，是因为如果预先准备这样的索引文件，那末就可通过对索引文件的折半检索，高速执行任意的 M字形的检索。接着，再利用索引文件从M个字符的字形的开始位置错开1个字符，在索引文件中进行M个字符的字形检索，如果该结果检出的文献编号与前一次M个字符的字形检索相同，而且，文献内位置编号又是顺序的，即可得到M+1长度的有效一致字符串。采用上述的方法，如果文献编号与前一次M个字符的字形检索相同，而且文献内位置编号又是顺序的，则每当满足一次上述的条件，有效一致字符串的长度就加1。但是，如使用索引文件进行的M个字符的字形检索什麽也没找到、或返回的文献编号不一致、或者文献内位置编号不是顺序的，那就到了有效一致字符串的结束位置。

随着情况的不同，有时侯会完全找不到有效一致字符串，在这种情况下，根据步骤610的判断，进入步骤626，显示没有找到，并结束处理。

在步骤610，如判断找到了有效一致字符串，则进入步骤612 进行处理；在文献中，从s(D，i)到e(D，i)；在检索字符串中，从s (C，i)到e(C，i)，都作出有效字符串的标记。

在步骤614，如发现满足下列条件： a)e(D，i)+1＜＝s(D，i+1)＜＝e(D，i)+L+1

且， b)s(C，i+1)＞e(C，i)-(M-1)

则继续利用索引文件检索第i+1个有效一致字符串，如已找到则，返回步骤612，对于该第i+1个有效一致字符串，在文献中从s(D，i+1)到e(D，i+1)；在检索字符串中从s(C，i+1)到e (C，i+1)，都作出有效字符串的标记。(在步骤618的加i，表示针对下一个有效一致字符串)

另一方面，在步骤616，如未找到早先找到的有效一致字符串，则在步骤620进行相似度的计算。其方法如上所述，例如，用下式计算，

相似度＝

(待检索的字符串中属于有效一致字符串的字符数

/待检索的字符串的字符数，

″相似字符串″中属于有效一致字符串的字符数

/″相似字符串″的字符数)最小值这时，″相似字符串″为从最初有效一致字符串的开始位置到最后有效一致字符串的最后位置之间的字符串。

在步骤622中，根据在步骤620计算的相似度和在步骤604输入的相似度，进行结果的选定，仅当结果是大于步骤604输入的相似度时，方才在步骤624进行结果显示。

在步骤624进行的处理操作是根据在步骤608、步骤614的索引文件检索结果返回的文献编号和文献内位置编号，访问存储在数据库内的文献内容，并显示该位置所在行。

另外，一个检索字符串的″相似字符串″，有可能在多个文献中同时找到，在一个文献中也可在多处找到。因此，必须注意，步骤 606～622适用于这样的多个″相似字符串″，而在步骤624中却是仅在多个″相似字符串″之中选定满足相似度条件的进行显示。 E7.确定″相似字符串″和相似度的例子

所示的例子设M＝2，L＝3。 (例1)

1 2 3 4 5 6 待检索字符串C：アイビ-エム# (アイビ-エム#为IBM公司商标)

1 2 3 4 5 6 7 8… 文献 D：アイ·ビ-·エム…

开头最长一致字符串为″アイ″，因此

第1个有效一致字符串为″アイ″s(C，1)＝1e(C，1)＝2

s(D，1)＝1e(D，1)＝2

因e(C，1)-(M-1)＝1，所以将从待检索的字符串的第2个字符以后开始的字符串与从文献的3、4、5或6开始的字符串进行比较，以检索第2个有效一致字符串(因e(D，1)+1＝3、e(D，1) +L+1＝6)。

第2个有效一致字符串为″ビ-″s(C，2)＝3、e(C，2)＝4 s(D，2)＝4e(D，2)＝5

因e(C，2)-(M-1)＝3，所以将从待检索的字符串的第4个字符以后开始的字符串与从文献的5、6、7或8开始的字符串进行比较，以检索第3个有效一致字符串(因e(D，2)+1＝6、e(D，2) +L+1＝9)。

第3个有效一致字符串为″エム″s(C，3)＝5e(C，3)＝6

s(D，3)＝7e(D，3)＝8

因为已经到了待检索的字符串的尾端，所以第3个有效一致字符串是最后的一个。

アイビ-エム

1 2 3

アイ·ビ-·エム…

1 2 3

编号为有效一致字符串的编号。因此，″相似字符串″为从s(D，1)到e(D，3)的″アイ·ビ-·エム″。″相似度″＝(6/6，6/8)的最小值＝6/8＝0.75 (例2)

1 2 3 4 5 6 7 8 9 10 待检索字符串C：ソフトウエアメ-カ-

1 2 3 4 5 6 7 8 9… 文献 D：ソフト开发メ-カ-…

ソフトウエアメ-カ-

1 2

ソフト开发メ-カ-…

1 2 ″相似字符串″＝″ソフト开发メ-カ-″ 相似度＝(7/10，7/9)的最小值＝0.7 (例3)

1 2 3 4 待检索字符串C：在宅起诉

1 2 3 4 5 6 7 8 9… 文献 D：在宅のままで起诉にふみきつた。开头最长一致字符串为″在宅″，因此第1个有效一致字符串为″在宅″s(C，1)＝1e(C，1)＝2

s(D，1)＝1e(D，1)＝2

将从待检索的字符串的第2个字符以后开始的字符串(因e (C，1)-(M-1)＝1)与从文献的3、4、5或6开始的字符串进行比较(因e(D，1)+1＝3、e(D，1)+L+1＝6)，检索第2个有效一致字符串。

由于找不到第2个有效一致字符串，而且因为已经到了等检索的字符串的尾端，所以只有第1个是有效一致字符串。

在宅起诉

在宅のままで起诉にふみきつた。

1 因此，第1个″相似字符串″为从s(D，1)到e(D，3)的″在宅″。相似度＝(2/4，2/2)的最小值＝0.5

″在″后面的开头的非有效一致字符为″の″。从″の″后面检索第 2个″相似字符串″，则

在宅起诉

在宅のままで起诉にふみきつた。

但是，在文献中，″在宅″和″起诉″相距4个字符，在这个例子中因L＝3，所以上述″起诉″不能看作是有效一致字符串。

(例4)

1 2 3 待检索字符串C：银行员

1 2 3 4 5 6 7 8 9

文献 D：A银行行员のBさん

开头的最长一致字符串为″银行″，因此

第1个有效一致字符串为″银行″s(C，1)＝1e(C，1)＝2

s(D，1)＝2e(D，1)＝3

(式7)

将从待检索字符串的第2个字符以后开始的字符串(因e(C， 1)-(M-1)＝1)与从文献的4、5、6或7开始的字符串进行比较 (因e(D，1)+1＝4、e(D，1)+L+1＝7)，检索第2个有效一致字符串。

第2个有效一致字符串为″行员″s(C，2)＝2e(C，2)＝3

s(D，2)＝4e(D，2)＝5

因为已经到了待检索字符串的尾端，所以有效一致字符串有两个。

银行员

A银行行员のBさん

1 2

1.1. 0.5 1→3.5 ″相似字符串″为从s(D，1)到e(D，2)的”银行行员″。 ″相似度″＝(3/3，3.5/4)的最小值＝3.5/4＝0.875 E8.接近人的感觉的模糊例子ソフトウエアメ-カ-ソフトウエアのメ-カ- 0.909

ソフトウエア开发メ-カ- 0.833

ソフトウエアの开发メ-カ- 0.769

这个例子表示随着多余字符的夹入，″相似度″降低。

ニツトウエアメ-カ- 0.800

ソフトメ-カ- 0.700

ソフトウエア 0.600

这个例子表示随着一致字符的减少，″相似性″降低。理学部长选举理学部长选举 1.000

理学部部长选举 0.929

理学部の长选举 0.857 E9.索引的结构和″相似字符串″检索的关系

通过M值的适当设定，可以用本发明的索引结构高速实现搜索″相似字符串″的模糊检索。常数N、M的确定方法 N：存储在索引内的字形的字符数 M：模糊检索的有效一致字符串的最小长度 L：模糊检索中，″相似字符串″中的非有效一致字符串的最大长度。

如N取得大，则因字形种类数目增加，检到的字形数据量减少，所以检索速度较快，但却会使索引文件的容量增加。在一般的日语文献中，以N＝2可以获得充分的检索速度。

如果按照M≥N的条件确M，则在模糊检索中可以获得充分的检索速度。如从M越小、模糊检索可以越细致的角度考虑，取M ＝N被认为是令人满意的。 E10.确定相似性的第2实施例

在第2实施例的模糊检索处理中，特别考虑到所说的“中间夹杂的不一致字符越多越感到不相似”、“中间夹杂的不一致字符过多就感觉不到是相同字符串”，兼顾这两个方面。如果遇到文献中输入的字符串是按一致字符串、不一致字符串、一致字符串的顺序排列，而相似字符串又是在后面一个一致字符串之前摘取的，从而就会使相似程度降低，这是不合逻辑的。例如，当输入字符串为“在宅起诉”、而文献1为“在宅のままで起诉”、文献2为“在宅”时，按所说的″文献1“在宅のままで起诉”、文献2“在宅”都有相似字符串，但相似度却是以“在宅”者为高″那样的规则，结果是与人的感觉相反。如判断为“在宅のままで起诉”的相似度比“在宅”高、或在文献 1中有“在宅”和“起诉”两个相似字符串，那就合乎逻辑了。

以下，说明第2实施例的处理。如参照图6的流程图，在本实施例中，步骤602～612是相同的，而表示第i+1个有效一致字符串检索条件的步骤614则有以下的变动。

s(C，i+1)＞e(C，i)-(M-1) …(式1)

s(D，i+1)＞e(D，i) …(式2)

而且，

s(D，i+1)-e(D，i)-1

+max(e(C，i)-s(C，i+1)+1.0)≤L…(式3)

s(C，i)、e(C，i)、s(D，i)、e(D，i)等的定义仍如前述。

式1容许象前述的“理学部部长”的“部”那样的重复出现的字符在M-1个以下，此外，这意味着凡是与输入字符串中的字符顺序相同的顺序出现的字符串都是有效的。

式2意味着在文献中有效一致字符串不重复。

式3意味着夹在中间的不一致字符和象“理学部部长”的“部” 那样的重复出现的字符加在一起容许在L个字符以下。

在本实施例中，象前一实施例一样，计算在文献内的与检索字符串相似的各个字符串中有效一致字符串所占的比例，其中，凡是所占比例小的都不选入相似度，而对相似字符串加分，通过除以满分，(完全一致时的给分)求出比值，进行计算。按以下规则给各字符加分，经过累加，算出相似字符串的分数。因此，在图6的步骤 620中进行如下处理。属于第1个有效一致字符串的字符 …1分属于第i个(i＞1)有效一致字符串的字符

在检索字符串中的位置≥e(C，i-1)+1(式4)…1分

在检索字符串中的位置≤e(C，i-1)+1(式5)…-1/(2* L)分不属于有效一致字符串的字符 …-1/L分

在本实施例中，在确定第i个相似字符串的过程中，从第i个相似字符串开头字符向后找，在构成第i个相似字符串中找出不属于有效一致字符串的字符，然后开始进行比较，从而找出第i+1个相似字符串。

不属于有效一致字符串的字符的负分，是为了考虑到要兼顾 “中间夹杂的不一致字符越多越感到不相似”、“中间夹杂的不一致字符过多就感觉不到是相同字符串”这两个方面而设定的。一个非一致字符串的负分总计最大为1/L*L＝1，所以取下一个一致字符串的正分的最小值，当N≥1(对日语特别推荐2)时负分值不会超过其正分。另外，式5表示前述的“理学部部长”的“部”那样的重复出现的字符，式4表示不是重复出现字符的单纯一致字符。对于式 5所表示的字符，要增加较比单纯非一致字符小的负分，以针对出现重复字符的情况。 E11.在第2实施例中的确定相似字符串和相似度的例子

作为示例，仍设N＝2，L＝3

(例5)

输入字符串C：アイビ-エム

1 2 3 4 5 6 7 8…

文献的一部分D：…アイ·ビ-·エム…

最初的最长一致字符串为“アイ”，因此第1个有效一致字符串为“アイ”

s(C，1)＝1e(C，1)＝2

s(D，1)＝1e(D，1)＝2 由式1、式2、式3可知第2个有效一致字符串为“ビ-”

s(C，2)＝3e(C，2)＝4

s(D，2)＝4e(D，2)＝5 由式1、式2、式3可知第3个有效一致字符串为“エム”

s(C，3)＝5e(C，3)＝6

s(D，3)＝7e(D，3)＝8 因为已经到了准备检索的字符串的末尾，所以有效一致字符串有 3个。

C：アイビ-エム

1 2 3

D：アイ·ビ-·エム

1 2 3

分数 1.-1.1.1.1.1.

-1/3 -1/3

相似字符串为从s(D，1)到e(D，3)的“アイ·ビ-·エム”。相似度＝((1*6+(-1/3*2)/6)＝0.88 (例6)

1 2 3 4 5 6 7 8 9 10

输入字符串C：ソフトウエアメ-カ-

1 2 3 4 5 6 7 8 9…

文献的一部分D： …ソフト开发メ-カ-…

C：ソフトウエアメ-カ-

1 2

D：ソフト开发メ-カ-…

1 2 相似字符串＝″ソフト开发メ-カ-″ 相似度＝((1*7+(-1/3)*2)/10)＝0.63 (例7)

1 2 3 4

输入字符串C：在宅起诉

1 2 3 4 5 6 7 8 91011121314…

文献的一部分D：在宅のままで起诉にふみきつた。

最初的一致字符串为“在宅”，因此第1个有效一致字符串为“在宅”，因下一个一致字符串为“起诉”不满足式3，所以只有第1个是有效一致字符串。

C：在宅起诉

D：在宅のままで起诉にふみきつた。

1 相似字符串为“在宅”。相似度＝2/4＝0.5

″在″后面的开头的非有效一致字符为″の″。应从″の″向后检索第2个相似字符串。

C：在宅起诉

D：在宅のままで起诉にふみきつた。

1 因此，第2个相似字符串为“起诉”。 (例8)

1 2 3 4 5 6 7

输入字符串C：理学部长に就任

1 2 3 4 5 6 7 8

文献的一部分D：…理学部部长に就任… 有效一致字符串为“理学部”、“部长に就任”两个。

C：理学部长に就任

＞2

D：理学部部长に就任

1 2

1.1.1. 1.1.1.1

-1/6 相似字符串为“理学部部长に就任”。第2个“部”满足式5。因此，相似度＝((1*7+(-1/6)*1)/7)＝0.97。 E12.第2实施例的结果汇总

输入字符串文献中相似性

ソフトメ-カ- ソフトのメ-カ- 0.95

ソフトの开发メ-カ- 0.85 政治资金规正法案政治资金规正法 0.87

政治资金 0.50 理学部长に就任理学部部长に就任 0.97

理学部の长に就任 0.95

如上所述，按照本发明，可以获得对文本文件或数据库使用特有的索引结构高速实现凭人的感觉的模糊检索的效果。

标题	发布/更新时间	阅读量
用于筛选新冠肺炎候选药物的方法及装置	2020-05-08	894
用于提高产出率的自动评估方法及其评估系统	2020-05-13	546
一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法	2020-05-14	894
一种基于蛋白质-域异构网络的关键蛋白预测方法	2020-05-15	33
用AIR树解决SKQwhy-not问题的方法及系统	2020-05-11	156
采用AkC解决SKQwhy-not问题的方法及系统	2020-05-11	874
非结构化医疗文本无监督症状自动识别方法、系统、装置	2020-05-14	276
使用来自正交行和列的全局机器学习特征的表头部检测	2020-05-15	917
单目标追踪方法、装置及系统	2020-05-13	612
一种获取服装生产流水线上最优模块装配方案的方法	2020-05-14	38

信息检索方法和系统

本发明涉及高速、且以所要求的容许模糊度进行检索，例如， 对于以文本文件形式存储在磁盘内的大量文献进行检索的系统和 方法。

该功能需要专业版企业版VIP权限，您可以：

本发明涉及高速、且以所要求的容许模糊度进行检索，例如，对于以文本文件形式存储在磁盘内的大量文献进行检索的系统和方法。