首页 / 专利库 / 赌博 / 赌博 / 用于多语言文档过滤的系统和方法

用于多语言文档过滤的系统和方法

阅读:580发布:2020-07-30

专利汇可以提供用于多语言文档过滤的系统和方法专利检索,专利查询,专利分析的服务。并且公开了至少部分地基于经受过滤和/或搜索的文档中的词语的语义表示来提供过滤和/或搜索的系统、设备、计算机可读介质和方法。此外,可将用于进行过滤和/或搜索的关键词(诸如,禁忌词和/或搜索条目)在语义上与文档中的词语的语义表示进行比较。可使用诸如基本语言语义向量空间的公共语义向量空间来比较关键词语义向量与文档的词语的语义向量,而不管书写文档的本地语言或提供关键词的语言如何。,下面是用于多语言文档过滤的系统和方法专利的具体信息内容。

1.一种或更多种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括计算机可执行指令,所述计算机可执行指令在由一个或更多个处理器执行时配置所述一个或更多个处理器来执行包括以下步骤的操作:
接收文档;
识别所述文档中的第一词语和所述文档中的第二词语;
确定所述第一词语的第一基本语言语义向量;
确定所述第二词语的第二基本语言语义向量;
识别关键词;
确定关键词基本语言语义向量;
确定所述第一基本语言语义向量与所述关键词基本语言语义向量之间的第一距离;
确定所述第二基本语言语义向量与所述关键词基本语言语义向量之间的第二距离;以及
至少部分地基于所述第一距离和所述第二距离来确定所述文档要被过滤。
2.根据权利要求1所述的一种或更多种非暂时性计算机可读介质,其中,所述操作还包括至少部分地基于所述文档要被过滤的所述确定来隔离所述文档。
3.根据权利要求1所述的一种或更多种非暂时性计算机可读介质,其中,确定所述第一基本语言语义向量包括:
确定与所述第一词语对应的本地语言语义向量;以及
至少部分地基于本地语言到基本语言翻译矩阵,将所述本地语言语义向量转换成所述第一基本语言语义向量。
4.根据权利要求1所述的一种或更多种非暂时性计算机可读介质,其中,确定所述关键词基本语言语义向量包括:
确定与所述关键词对应的关键词本地语言语义向量;以及
至少部分地基于本地语言到基本语言翻译矩阵,将所述关键词本地语言语义向量转换成所述关键词基本语言语义向量。
5.根据权利要求1所述的一种或更多种非暂时性计算机可读介质,其中,确定所述第一距离包括确定以下项中的至少一个:(i)所述第一基本语言语义向量与所述关键词基本语言语义向量之间的余弦距离,或者(ii)所述第一基本语言语义向量与所述关键词基本语言语义向量之间的欧几里得距离。
6.根据权利要求1至5中的任一项所述的一种或更多种非暂时性计算机可读介质,其中,确定所述文档要被过滤包括:
识别过滤模型;
将所述第一距离和所述第二距离应用于所述过滤模型;以及
至少部分地基于所述应用来识别所述文档要被过滤。
7.根据权利要求6所述的一种或更多种非暂时性计算机可读介质,其中,所述操作还包括:
接收多个训练文档;
接收与所述训练文档中的每一个对应的过滤状态的指示;以及
至少部分地基于所述多个训练文档以及与所述训练文档中的每一个对应的所述过滤状态的所述指示来训练所述过滤模型。
8.一种系统,所述系统包括:
至少一个存储器,所述至少一个存储器存储计算机可执行指令;以及
至少一个处理器,所述至少一个处理器被配置成访问所述至少一个存储器,其中,所述至少一个处理器被配置成执行所述计算机可执行指令以:
接收包括多个词语的文档;
确定与所述多个词语中的每一个对应的相应的基本语言语义向量;
识别关键词;
确定关键词基本语言语义向量;
确定包括与所述基本语言语义向量中的每一个对应的相应距离的一组距离数据,其中,所述相应距离是在所述关键词基本语言语义向量与对应的基本语言语义向量中的每一个之间;
将所述一组距离数据应用于过滤模型;以及
至少部分地基于将所述一组距离数据应用于所述过滤模型来确定所述文档要被过滤。
9.根据权利要求8所述的系统,其中,确定与所述多个词语中的每一个对应的所述相应的基本语言语义向量包括所述至少一个处理器被配置成执行所述计算机可执行指令以:
确定与所述多个词语中的每一个对应的相应的本地语言语义向量,其中,所述多个词语中的每一个都是本地语言,并且所述相应的本地语言语义向量限定在与所述多个词语的本地语言对应的本地语言语义向量空间中;
识别与所述本地语言对应的本地语言到基本语言翻译矩阵;以及
至少部分地基于所述本地语言到基本语言翻译矩阵,将所述相应的本地语言语义向量中的每一个转换成所述相应的基本语言语义向量。
10.根据权利要求8所述的系统,其中,识别关键词包括所述至少一个处理器被配置成执行所述计算机可执行指令,以接收作为禁忌词的所述关键词,所述禁忌词指示以下项中的至少一个:(i)色情;(ii)性暴露内容;(iii)暴内容;(iv)成人内容;(v)赌博相关内容;
(vi)游戏相关内容;或(vii)暴力内容。
11.根据权利要求8所述的系统,其中,确定关键词基本语言语义向量包括所述至少一个处理器被配置成识别所述关键词是以与所述关键词基本语言语义向量对应的基本语言接收的。
12.根据权利要求8所述的系统,其中,所述文档是第一文档,所述多个词语是第一多个词语,所述一组距离数据是第一组距离数据,并且所述至少一个处理器还被配置成:
接收包括第二多个词语的第二文档;
确定与所述第二文档对应的第二组距离数据;
将所述第二组距离数据应用于所述过滤模型;以及
至少部分地基于将所述第二组距离数据应用于所述过滤模型来确定所述第二文档不是要被过滤。
13.根据权利要求8所述的系统,其中,所述至少一个处理器还被配置成:
接收多个训练文档;
接收与所述训练文档中的每一个对应的过滤状态的指示;以及
至少部分地基于所述多个训练文档以及与所述训练文档中的每一个对应的所述过滤状态的所述指示来训练所述过滤模型。
14.根据权利要求8所述的系统,其中,所述关键词是第一关键词,所述关键词基本语言语义向量是第一关键词基本语言语义向量,所述一组距离数据是第一组距离数据,并且其中,所述至少一个处理器还被配置成:
识别第二关键词;
确定第二关键词基本语言语义向量;
确定包括与所述基本语言语义向量中的每一个对应的相应距离的第二组距离数据,其中,所述相应距离是在所述第二关键词基本语言语义向量与所述对应的基本语言语义向量中的每一个之间;以及
将所述第二组距离数据应用于所述过滤模型。
15.根据权利要求8至14中的任一项所述的系统,其中,将所述一组距离数据应用于所述过滤模型包括所述至少一个处理器被配置成:
识别与所述关键词对应的阈值距离;
在所述一组距离数据中对比所述阈值距离小的距离的数量进行计数;以及
将对所述距离的数量的所述计数应用于所述过滤模型。
16.一种方法,所述方法包括以下步骤:
由一个或更多个处理器接收搜索条目;
由所述一个或更多个处理器识别包括多个词语的文档;
由所述一个或更多个处理器确定与所述多个词语中的每一个对应的相应基本语言语义向量;
由所述一个或更多个处理器确定与所述搜索条目对应的搜索条目基本语言语义向量;
由所述一个或更多个处理器确定包括与所述基本语言语义向量中的每一个对应的相应距离的一组距离数据,其中,所述相应距离在所述搜索条目基本语言语义向量与对应的基本语言语义向量中的每一个之间;
由所述一个或更多个处理器将所述一组距离数据应用于过滤模型;以及
由所述一个或更多个处理器至少部分地基于将所述一组距离数据应用于所述过滤模型来确定所述文档是搜索命中。
17.根据权利要求16所述的方法,其中,所述文档是第一文档,所述多个词语是第二多个词语,所述一组距离数据是第一组距离数据,并且所述方法还包括:
由所述一个或更多个处理器识别包括第二多个词语的第二文档;
由所述一个或更多个处理器确定包括与所述第二多个词语中的每一个对应的相应距离的第二组距离数据;
由所述一个或更多个处理器将所述第二组距离数据应用于所述过滤模型;以及由所述一个或更多个处理器至少部分地基于将所述第二组距离数据应用于所述过滤模型来确定所述第二文档是搜索命中。
18.根据权利要求17所述的方法,其中,将所述第一组距离数据应用于所述过滤模型产生第一相关性得分,并且其中,将所述第二组距离数据应用于所述过滤模型产生第二相关性得分。
19.根据权利要求16至18中的任一项所述的方法,其中,所述方法还包括以下步骤:
由所述一个或更多个处理器并且至少部分地基于所述第一相关性得分和所述第二相关性得分来确定所述第一文档相比所述第二文档与所述搜索条目更相关。
20.根据权利要求16所述的方法,其中,将所述一组距离数据应用于所述过滤模型还包括:
识别与所述搜索条目对应的阈值距离;
在所述一组距离数据中对比所述阈值距离小的距离的数量进行计数;以及
将对所述距离的数量的所述计数应用于所述过滤模型。

说明书全文

用于多语言文档过滤的系统和方法

[0001] 相关申请的交叉引用
[0002] 本申请要求2015年9月18日提交的美国专利申请No.14/858,413的权益,该专利申请的公开通过引用并入本文,如同全文阐述一样。

技术领域

[0003] 本公开总体上涉及用于语言翻译的系统和方法,并且更具体地,涉及多路径语言翻译。

背景技术

[0004] 在互联网时代,出于诸如互联网搜索和/或恶意电子邮件或文档阻止的目的,文档的过滤已愈发重要。搜索机制可涉及语法搜索,在语法搜索中,文档中的词语可在语法上与一组关键词(例如,禁忌词或搜索词)进行比较。在处理多语言文档时,出于过滤的目的,可使用来自各种不同语言的搜索语法。跨多种语言的这种类型的语法搜索可能是一项代价高昂、速度慢和/或资源密集型的活动。附图说明
[0005] 现在,将参照附图,附图不一定按比例绘制,并且其中:
[0006] 图1描绘了根据本公开的示例实施方式的具有提供过滤和/或搜索服务的过滤服务器的示例环境的简化示意图。
[0007] 图2描绘了例示出根据本公开的示例实施方式的图1的示例过滤服务器的简化框图
[0008] 图3描绘了例示出根据本公开的示例实施方式的用于确定文档是否是搜索命中或者要被过滤的示例方法的流程图
[0009] 图4描绘了例示出根据本公开的示例实施方式的针对待过滤文档识别距离参数表并且将距离参数表应用于过滤模型的示意图。
[0010] 图5描绘了例示出根据本公开的示例实施方式的用于训练和部署过滤模型的示例方法的流程图。
[0011] 图6描绘了例示出根据本公开的示例实施方式的通过语义向量比较生成关键词计数来确定文档是否是搜索命中或者要被过滤的示例方法的流程图。
[0012] 图7描绘了例示出根据本公开的示例实施方式的用于至少部分地基于与待排名(rank)文档关联的一个或更多个距离参数来将搜索结果进行排名的示例方法的流程图。

具体实施方式

[0013] 下文中,参照附图更充分地描述本公开的实施方式,在附图中示出了本公开的示例实施方式。然而,本公开可按许多不同形式来实施并且不应该被理解为限于本文中阐述的示例实施方式;相反,提供这些实施方式,使得本公开将是彻底和完全的,并且将把本公开的范围充分传达给本领域的技术人员。类似的数字始终指的是类似的但不一定是相同或相同的元件。
[0014] 本公开的实施方式可提供用于以多语言方式搜索和/或过滤词语的系统、设备、计算机可读介质和方法。在示例实施方式中,可出于搜索或过滤文档的目的而使用语义机制。这些机制可涉及出于搜索或过滤文档中的词语的语义表示(例如,网站、文本文档、音频文档、电子邮件(email))等)的目的的词语的语义向量表示。关键词、禁忌词或搜索条目(下文中统称为关键词)可用作基于其执行搜索或过滤的条目。例如,出于过滤的目的,可提供诸如与赌博、色情(例如,色情文学(porn))、暴材料、性材料、成人内容、其组合等相关的词语的禁忌词的列表。例如,与赌博相关的词语可包括“赌博”、“赌场”、“扑克”、“黑杰克”、“轮盘赌”或类似词语。这些禁忌词可用作过滤的标准。在示例实施方式中,可确定禁忌词的语义向量。这可使用查找表、诸如Word2Vec的服务、执行数学运算以确定禁忌词的语义向量表示等来确定。
[0015] 在示例实施方式中,在确定与禁忌词中的每一个对应的语义向量之后,可将禁忌词语义向量与文档中的词语的语义向量进行比较,以识别文档是否要被过滤。文档的词语可采用与禁忌词所指定的词语不同的语言。在这种情况下,禁忌词可采用基本语言,并且出于过滤目的而使用的禁忌词语义向量可在基本语言语义向量空间中。文档的词语可以是本地(native)语言,诸如与基本语言相同或不同的语言。如果文档的词语是与基本语言不同的本地语言,则可在本地语言语义向量空间中确定文档的词语的语义向量。换句话讲,可首先通过任何合适机制来确定文档的词语的本地语言语义向量。在确定文档的词语的本地语言语义向量之后,可将词语的本地语言语义向量转换成对应的基本语言语义向量。可通过将本地语言语义向量与本地语言到基本语言转换矩阵相乘来执行该转换。在一些示例实施方式中,可确定待过滤文档的所有词语的基本语言语义向量。在其他示例实施方式中,可确定只用于文档的词语的子集的基本语言语义向量。例如,在某些情况下,不能确定用于诸如“一”、“该”、“或”、“和”等常见词语的语义向量。
[0016] 应该理解,如本文中公开的应用于系统、方法、设备和计算机可读介质的一些示例文档可以是多语言的(例如,可用两种或更多种语言书写文档)。用多语言文档,在某些情况下,文档中的一些词语可采用在过滤处理期间使用的基本语言,并且其他词语可采用除了基本语言之外的一种或更多种本地语言。在这些情况下,可通过直接路径来确定文档的基本语言中的词语的基本语言语义向量,并且可用多路径方式确定没有采用基本语言的词语的基本语言语义向量,在多路径方式中,首先针对这些词语确定本地语言语义向量,然后将这些本地语言语义向量转换成对应的基本语言语义向量。在其他情况下,文档中的所有词语都可采用除了基本语言以外的本地语言。在这些情况下,对于要确定其基本语言语义向量表示的所有词语,可采用多路径确定,在多路径确定中,可确定每一个词语的本地语言语义向量,然后可使用这些本地语言语义向量来确定对应的基本语言语义向量。
[0017] 在已经确定了文档的词语的基本语言语义向量之后,根据本公开的示例实施方式,可确定从词语的基本语言语义向量中的每一个到禁忌词的基本语言语义向量中的每一个的距离。可使用诸如余弦距离、正弦距离、余弦相似度、欧几里得距离(Euclidean distance)、直线尺寸差异、其组合等的任何种类的合适计算来在超维度意义上(hyper-dimensional sense)确定距离。与每一个词语对应的距离一旦确定就可按任何合适的方式进行组织,诸如例如被制成关系表格。在示例实施方式中,距离数据可被存储在数据存储器中。针对词语中的每一个所确定的距离数据可被应用于过滤模型,用于确定文档是否要被过滤。过滤模型可以是诸如例如回归模型、决策树等任何合适的模型。过滤模型可以是至少部分地基于训练数据的过滤模型,在该过滤模型中,可为过滤状态已知(例如,文档是否要过滤)的文档确定一组距离数据。
[0018] 作为上述过滤机制的非限制性示例,假设在电子邮件服务器处接收到以法语书写的电子邮件,并且要对该电子邮件执行过滤的确定,以确定电子邮件是被递送给电子邮件的收件人或者被标记为垃圾邮件。进一步考虑基本语言是英语,并且用于过滤目的的禁忌词是用英语指定的。在这种情况下,可确定禁忌词的英语语义向量。此外,可确定电子邮件中词语的法语语义向量。然后,可通过将电子邮件的词语的法语语义向量与法语到英语翻译矩阵相乘来将法语语义向量翻译成英语语义向量。在这种情况下,为了使处理带宽最小化,可只使用文档中长于三个字母的词语来确定文档的基本语言语义向量。在识别电子邮件中词语的英语语义向量之后,可使用余弦距离和欧几里得距离二者来确定电子邮件中词语的英语语义向量中的每一个与禁忌词英语语义向量中的每一个之间的距离。距离数据可被制为数据阵列结构并且提供给过滤模型。过滤模型可使用制表的距离数据(例如,与电子邮件中的每一个词语和每一个禁忌词对应的余弦距离数据和欧几里得距离数据二者)来确定电子邮件要被过滤。在识别出要过滤的电子邮件时,电子邮件可能被阻止而不会传递给收件人,并且替代地,可能被删除、标记为垃圾邮件、存储在过滤的电子邮件文件夹中和/或以其他方式被阻止。
[0019] 在示例实施方式中,如本文中所述的系统、方法、计算机可读介质和/或设备可应用于多语言和/或语义搜索。类似于用于过滤的机制,可确定一组关键词(例如,搜索条目)。执行搜索的个人可诸如借助互联网搜索引擎网站输入这些搜索条目。可针对输入的搜索条目中的每一个来确定搜索条目在基本语言语义向量空间中的基本语言语义向量。在某些情况下,可用基本语言输入搜索条目。在其他情况下,可用除了基本语言之外的语言输入搜索条目。在用除了基本语言之外的语言输入搜索条目的情况下,寻找基本语言语义向量可涉及寻找搜索条目的本地语言语义向量,然后将这些本地语言语义向量转换成搜索条目的对应的基本语言语义向量。
[0020] 可通过寻找对其执行搜索的那些文档(例如,互联网网站、内联网网站、文本文档、词语处理文档、音频文档等)中的每一个的词语的基本语言语义向量来处理在其中进行搜索的文档。同样,根据对其执行搜索的文档的本地语言,确定文档中词语的基本语言语义向量可涉及不止一个处理。如果特定文档恰好采用基本语言,则可直接针对该文档来确定该文档的基本语言语义向量。在其他情况下,在文档的本地语言与基本语言不相同的情况下,可针对该文档的词语确定本地语言语义向量,然后,可诸如通过将本地语言语义向量与本地语言到基本语言翻译矩阵相乘来将本地语言语义向量翻译成对应的基本语言语义向量。应该理解,在这些情况下,文档中词语的基本语言语义向量表示的质量可至少部分地受到本地语言到基本语言翻译矩阵的质量的限制。
[0021] 可将要作为搜索的一部分被评估为相关的文档的词语的基本语言语义向量与针对搜索条目的基本语言语义向量进行比较。可相对于搜索条目的基本语言语义向量来确定词语的基本语言语义向量之间的距离。该距离数据可针对可从中选择相关搜索结果的每一个文档进行制表。针对其中距离度量至少部分地基于搜索条目及其基本语义向量表示的每一个文档的距离度量集可应用于过滤模型和/或搜索模型。至少部分地基于特定文档的距离度量,过滤模型可指示该特定文档是否相关以及文档是否应该被指示为搜索命中,或者以其他方式至少部分地基于与搜索关联的搜索条目向搜索者呈现的文档。如在用于至少部分地基于禁忌词进行文档过滤的实施方式中一样,可基于被认为是命中的文档来构建用于搜索的过滤模型。换句话讲,用于搜索的过滤模型可至少部分地基于任何合适的学习模型。过滤模型可使用人工学习的方面,并且可应用任何合适的学习机制,包括但不限于监督学习无监督学习强化学习、转导、其任何组合等。过滤模型可采用诸如回归模型、贝叶斯(Bayesian)推理模型、任何种类的决策树、任何适当类型的条件统计模型、任何适当类型的机器学习模型、其组合等任何合适形式。
[0022] 在一些示例实施方式中,当从各种文件中搜索时,作为识别搜索命中(例如,针对搜索条目的适当的高相关性级别,以选择和/或呈现相应的文档作为搜索结果)的替代或除了识别搜索命中之外,搜索命中也可以按照相关性进行排名。这可通过使用针对文档中的每一个确定的距离度量来执行,并且将距离度量应用于过滤模型,以识别与作为搜索命中的文档关联的数字相关性得分。在示例实施方式中,该数字相关性得分可用于对文档进行排序和/或对呈现为搜索命中的文档进行排名。在一些示例实施方式中,作为确定搜索命中的替代,可将根据输入的搜索条目在其中进行搜索的文档进行排序,从最相关到最不相关,反之亦然。与文档中的每一个关联的相关性得分可通过提供某个度量(文档中词语的基本语言语义向量和所执行的搜索的搜索条目的基本语言语义向量之间的距离)来提供对应文档的相关性的指示。
[0023] 作为非限制性示例,可将相关性得分计算为第一预定数量的词语的距离的和,所述第一预定数量的词语具有与基本语言语义向量空间中的搜索条目中的一个的最小距离。作为另一个非限制性示例,可通过将文档的词语与搜索条目中的每一个的预定数量的距离相加来确定相关性得分。例如,如果搜索具有两个搜索条目,则可将与第一搜索条目最接近的50个词语的距离相加,然后,再和与第二搜索条目最接近的40个词语的最小距离相加。在另一个非限制性示例中,可计算文档的每一个词语与每一个搜索条目的距离的乘积,然后将其除以每一个词语与所有搜索条目的距离的组合总和。应该理解,用于确定与要搜索的全部文档中的每一个文档关联的相关性得分的以上提到的示例机制中的每一个可以仅是示例,并且可存在用于确定提供在其中进行搜索的文档的相对相关性指示的相关性得分的任何数量的合适替代机制。
[0024] 在语义向量空间中表示词语可利用词语的语义属性、含义和/或定义来表示向量空间(例如,高维向量空间)中的词语。两个词语的含义的相似性可体现在语义向量空间中两个词语的相对接近度。例如,在语义向量空间中,词语“chicken”和“turkey”可相对接近,而在语义向量空间中,词语“turkey”和“combustion”可相对较远。词语的语义向量表示的构思在其他地方有描述,诸如,例如在Mikolov,Tomas等人的“Efficient Estimation of Word Representations in Vector Space”,康奈尔大学图书馆(Cornell University Library),2013年1月16日提交(万维网链接:http://arxiv.org/abs/1301.3781)中有描述。
[0025] 可使用第一语言的语义向量空间中的词语的向量表示来使用第一语言和第二语言之间的翻译矩阵来寻找从第一语言到第二语言的词语的翻译。在示例实施方式中,该翻译矩阵可提供从第一语言的语义向量空间到第二语言的语义向量空间的线性或仿射变换。例如,如果在法语语义向量空间中使用法语词语“pomme”(apple的法语)的语义向量表示,并且将该语义向量与法语到英语翻译矩阵相乘,则在假定法语到英语矩阵中的错误(error)最小的情况下,英语语义向量空间中的所获得的语义向量可相对接近词语“apple”的英语向量表示。
[0026] 可在该第一语言的语义向量空间中生成第一语言的词语的语料库的语义向量表示。类似地,可在该第二语言的语义向量空间中生成第二语言的词语的语料库的语义向量表示。作为非限制性示例,第一语言和第二语言的语义向量空间可各自具有300个维度(例如,300个独立的正交单位向量)。因此,在该示例中,两种语言中的任一种语言的词语的语义向量表示可包括与300个独立正交单位向量中的每一个对应的标量值(例如,该词语的语义向量可被表示为300×1矩阵)。第一语言语义向量空间的维度中的每一个的语义表示可不同于第二语言向量空间的维度中的每一个的语义表示。换句话讲,第一语言的特定词语及其第二语言的翻译可在其相应的语义向量空间中的每一个中具有不同的向量表示。作为非限制性示例,英语语义向量空间中的词语“elephant”的语义向量可与意大利语义向量空间中的词语“elefante”(elephant的意大利语)的语义向量完全不同,即使这两个语言向量空间中的两个词语都可用300个维度来表示。应该理解,仅仅通过示例的方式选择各种语言的语义向量空间的维度300。事实上,各种语言的语义向量空间可具有诸如100、150、263、600、1000等任何合适数量的维度。
[0027] 在以第一语言和第二语言二者确定了词语的语料库的语义向量之后,一组种子词语(例如,1000个词语)可在第一语言与第二语言之间进行映射,以确定第一语言与第二语言之间的翻译矩阵。在示例实施方式中,这些种子词语可以是第一语言与第二语言之间的已知翻译(例如,词语映射)。第一语言语义向量空间和第二语言语义向量空间之间的翻译矩阵可以使得:将第一语言的词语的语义向量表示与第一语言和第二语言之间的翻译矩阵相乘可得到与词语翻译的语义向量接近的第二语言语义向量空间中的语义向量。例如,如果将英语语义向量空间中的“elephant”的语义向量与英语-意大利语翻译矩阵相乘,则在假定英语-意大利语翻译矩阵中的错误相对小的情况下,所获得的语义向量可相对接近意大利语语义向量空间中的词语“elefante”的语义向量。在示例实施方式中,两种语言之间的翻译矩阵可具有以这两种语言的语义向量空间的维度为基础的维度。例如,如果第一语言语义向量空间和第二语言语义向量空间二者具有300维度的维度,则第一语言语义向量空间与第二语言语义向量空间之间的翻译矩阵可具有300×300的维度。
[0028] 应该理解,可使用种子词语来计算两种语言之间的翻译矩阵,种子词语可以是语义向量表示可能以两种语言中的每种语言存在的词的语料库的子集,并且在某些情况下,是其相对一小部分。结果,在示例实施方式中,这两种语言之间的翻译矩阵中可能存在错误。在示例实施方式中,这些错误可本身表现为在相对远离用于生成两种语言之间的翻译矩阵的种子词语的空间中的相对较大错误的岛。
[0029] 应该注意,尽管因第一语言(本地语言)的词语的语义向量翻译成第二语言(例如,基本语言)的词语的对应语义向量可能会产生错误,但是第一语言的语义向量和第二语言的语义向量之间有可能存在相对语义近似度。因此,如本文中所述的系统、方法、计算机可读介质和设备可使得能够进行语义级过滤(semantic level filter)和/或搜索,而不管用于指定关键词(例如,搜索条目、禁忌词等)的语言或用于书写或说出的语言如何。在示例实施方式中,如本文中所述的语义过滤和/或搜索可提供与非语义过滤和/或搜索(诸如,语法搜索)相比更简单的禁忌词和/或搜索条目的规范。换句话讲,根据示例实施方式,当过滤可能采用任何语言的文档时,可能不需要针对每种不同的语言建立单独的过滤模型。事实上,在示例实施方式中,用于过滤的禁忌词可用单一语言来指定,而不必在其中可以接收文档的每种语言中提供其翻译。此外,过滤和/或搜索可提供语义质量,而不必用相同语言或跨语言地指定关键词的每一个语法同义词。
[0030] 图1描绘了根据本公开的示例实施方式的具有提供过滤和/或搜索服务的过滤服务器150的示例环境100的简化示意图。环境可包括用户110,用户110接收来自多语言搜索的一个或更多个多语言内容120和/或期望来自多语言搜索的一个或更多个文档122(例如,书面、电子、音频等)。环境100还可包括用户装置130,用户装置130可被配置成与用户110交互,以发起多语言搜索和/或接收可被过滤的内容。
[0031] 多语言搜索文档122可以是任何种类的互联网网页或其他互联网内容、内联网网页或其他内联网内容、驻留在远程服务器处的文件或文档、驻留在用户装置130处的文件或文档、本地或远程数据库的数据库查询、其组合等。在示例实施方式中,用户装置130可被配置成执行指令,以呈现网页或任何其他合适的搜索界面来请求诸如来自用户110的一个或更多个搜索条目。在一些示例实施方式中,根据本公开,用户装置130还可被配置成使用搜索条目来执行搜索。在其他示例实施方式中,用户装置130可被配置成向诸如过滤服务器150的一个或更多个其他实体提供搜索条目,使得一个或更多个其他实体可执行根据本公开的搜索。用户装置130还可被配置成接收搜索结果并且将其呈现给用户110。
[0032] 要过滤的多语言内容120可以是用户110可诸如借助用户装置130与其进行交互的任何合适的内容和/或数据文件。交互可借助于瘦客户端设置中的用户设备130,在该瘦客户端设置中,内容120可驻留在除了用户装置之外的某处(诸如,电子邮件服务器处或过滤服务器150处),并且借助用户装置130从远程服务器呈现给用户110。在其他情况下,内容可驻留在用户装置130本身处。可被过滤的内容的示例可包括例如电子邮件、文本消息、语音邮件、文本文档、音频文档、视频文档、应用、计算机代码、其组合等。在某些情况下,过滤可以是企业、教育实体和/或非营利实体的政策的部分,用于阻止某些类型的内容(诸如,例如,色情、成人内容、亵渎、赌博、在线购物、在线游戏、非法内容、暴力内容、性内容、其组合等)。在其他情况下,过滤可以是用户110请求的服务的部分(诸如,有害内容过滤或家长控制)。用户装置130可被配置成呈现内容120,该内容120被发现不需要通过基于所提供的过滤标准(例如,禁忌词)进行过滤服务器150的处理和/或用户装置130的处理来进行过滤(例如,阻止)。用户装置130还可被配置成来阻止、删除、拒绝传送和/或隔离被认为需要基于所提供的过滤标准进行过滤的内容120。
[0033] 应该理解,对于不同的用户110,过滤标准可不同。作为非限制性示例,上小学的孩子的父母可能希望具有更强的成人内容过滤,并且随着孩子长到他/她的青少年时期,逐渐地减少过滤材料的类型。在这种情况下,根据哪些内容将被过滤,父母110可能能够设置禁忌词的列表。事实上,根据本公开的实施方式,可仅用一种语言(例如,父母110说的主要语言)来设置禁忌词,并且由于本文中公开的过滤机制的语义性质,禁忌词可提供通过检测与本地语言或其他语言中的禁忌词具有相对近似含义的词语来过滤跨不止一种语言的过滤能力。作为另一个非限制性示例,一家公司可能有过滤色情和赌博网站的政策,但不包括在线购物网站。另一家公司可能有过滤赌博网站和在线购物网站的政策。这些不同的公司可根据他们的个体过滤需要来设置他们的禁忌词和过滤算法和参数。
[0034] 在示例实施方式中,用户装置130可以是任何合适的通信装置,包括但不限于移动电话、智能电话、平板计算装置、电子书(ebook)阅读器、可穿戴装置、上网本计算机、笔记本计算机、膝上型计算机、台式计算机、个人数字助理(PDA)、网络电视、视频游戏控制台、机顶盒(STB)、智能电器、相机、导航系统、车载信息娱乐系统、其组合等。
[0035] 用户装置130还可被配置成借助一个或更多个网络140与过滤服务器150进行通信。网络140可包括诸如有线网络、互联网、无线网络、蜂窝网络和其他专用和/或公共网络的不同类型的合适通信网络中的任一个或组合。此外,网络140可包括承载网络业务的任何种类的介质,包括但不限于同轴电缆、双绞线、光纤、混合光纤同轴电缆(HFC)、微波陆地收发器、射频通信、卫星通信或其组合。还要注意,所描述的技术可应用于其他客户端/服务器布置以及非客户端/服务器布置(例如,本地存储的软件应用等)。出于过滤和/或搜索的目的,用户装置130可被配置成代表用户110向过滤服务器150发送过滤内容120和/或搜索结果122和/或从过滤服务器150接收过滤内容120和/或搜索结果122。
[0036] 过滤服务器150可以被配置为诸如从电子邮件服务器或任何其他合适的源接收可以被检查用于过滤的文档。另选地,过滤服务器150可从用户装置130接收要过滤的文档或文件。例如,过滤服务器150可被配置成扫描和过滤存储在用户装置130的存储装置(例如,硬盘驱动器)上的内容120。不管内容的源如何,过滤服务器150可被配置成过滤内容120并且在内容未被阻止的情况下将内容提供给用户装置130,并且另选地,如果内容按照可被提供作为过滤标准的禁忌词要被阻止,则可以隔离该内容。在示例实施方式中,过滤服务器150可被配置成提供文档是否要被过滤的指示。
[0037] 过滤服务器150还可被配置成接收一个或更多个搜索条目,以至少部分地基于搜索条目来执行搜索(例如,语义搜索)。以这种方式,过滤服务器150可像搜索引擎服务器一样执行和/或与搜索引擎服务器交互,以提供搜索服务。过滤服务器150所执行的搜索可跨多种语言。搜索可至少部分地基于搜索条目的语义向量与在其中执行搜索的文档的词语的语义向量之间的距离。结果,过滤服务器150可提供相对丰富的搜索,其中,搜索可包含由搜索条目的同义词或近义词占据的语义向量空间以及至其他语言的翻译和/或至其他语言的近似翻译。例如,如果输入法语词语“maison”,则语义搜索可触发(例如,指示搜索相关性)接近词语,如“house”(例如,英语翻译)、“casa”(例如,西班牙语翻译)以及“residence”和/或“shelter”(例如,英语的近似翻译)。
[0038] 过滤服务器150可被配置成确定各种语言的语义向量空间中的任一个或更多个中的词语(例如,文档的词语、关键词等)的语义向量表示。过滤服务器150还可被配置成使用翻译矩阵将一个语义向量空间中的词语的语义向量转换成不同语义向量空间中的语义向量。过滤服务器150还可被配置成取决于什么翻译矩阵可用,借助多条路径(例如,借助一个或更多个中间语言语义向量空间)来执行语义向量的变换。根据本公开的示例实施方式,过滤服务器150可被配置成确定文档中词语的基本语言语义向量表示和关键词的基本语言语义向量表示之间的超体积(hyper-volumetric)距离。可通过包括但不限于余弦距离、正弦距离、欧几里得距离、沿每一个单位向量的距离的平均值、距离的平方和、距离的绝对值之和、其组合等的任何合适的机制和/或算法来确定距离。
[0039] 过滤服务器150还可被配置成出于基于文档中词语与关键词的语义接近度来过滤文档的目的,训练和部署使用关键词(例如,禁忌词、搜索条目等)的过滤模型。一旦部署了过滤模型,过滤服务器150就可被配置成将针对一个或更多个文档的距离数据(例如,文档词语和关键词之间的语义向量距离)应用于过滤模型,以确定针对其将距离数据应用于过滤模型的文档是否要被过滤和/或是否是搜索命中。
[0040] 图2描绘了例示出根据本公开的示例实施方式的图1的示例过滤服务器150的简化框图。过滤服务器150可包括一个或更多个处理器200、一个或更多个I/O接口202、一个或更多个网络接口204、一个或更多个存储器接口206和一个或更多个存储装置或存储器210。
[0041] 过滤服务器150的处理器200可以在硬件、软件、固件或其组合中适当地实现。处理器200的软件或固件实现可包括以任何合适的编程语言编写的计算机可执行指令或机器可执行指令,以执行所描述的各种功能。处理器200的硬件实现可被配置成执行计算机可执行指令或机器可执行指令,以执行所描述的各种功能。一个或更多个处理器200可包括而不限于中央处理单元(CPU)、数字信号处理器(DSP)、精简指令集计算机(RISC)、复杂指令集计算机(CISC)、微处理器、微控制器、现场可编程阵列(FPGA)或其任何组合。过滤服务器150还可包括用于控制一个或更多个处理器200和过滤服务器150的一个或更多个其他组件之间的通信的芯片组(未示出)。处理器200还可包括用于处理特定数据处理功能或任务的一个或更多个专用集成电路(ASIC)或专用标准产品(ASSP)。在某些实施方式中,过滤服务器150可以是基于 架构系统,并且一个或更多个处理器200和芯片组可来自处理器和芯片组系列,诸如, 处理器系列或Intel-64处理器(例如,
等)。
[0042] 一个或更多个I/O接口202可使得能够使用一个或更多个(I/O)装置或诸如键盘和/或鼠标的用户接口。网络接口204可使得过滤服务器150能够与网络140或其他通信链路通过接口连接并且借助网络140或其他通信链路进行通信。存储器接口206可使得过滤服务器150能够存储诸如词语或短语映射信息、种子词语数据集、各种语言向量空间中的各种词语的语义向量表示、各种翻译矩阵、各种过滤和/或搜索模型等信息。可借助存储器接口206将此数据和/或信息存储在存储器装置和/或存储装置210中,并且借助存储器接口206访问存储器装置和/或存储装置210中的此数据和/或信息。
[0043] 存储装置210可包括一个或更多个易失性和/或非易失性存储器装置,包括但不限于磁存储器装置、只读存储器(ROM)、随机存取存储器(RAM)、动态RAM(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)、双倍数据速率(DDR)SDRAM(DDR-SDRAM)、RAM-BUS DRAM(RDRAM)、闪存存储装置、电可擦除可编程只读存储器(EEPROM)、非易失性RAM(NVRAM)、通用串行总线(USB)可移除存储器或其组合。
[0044] 存储装置210可存储在处理器200上能加载和能执行的程序指令以及在执行这些程序期间生成或接收的数据。更详细地转到存储装置210的内容,存储装置210可包括一个或更多个操作系统(O/S)212、应用程序模214、语义向量模块216、关键词模块218、过滤模块220和搜索模块222。模块和/或软件中的每一个在由处理器200执行时可以为过滤服务器150提供功能。模块和/或软件可对应或可不对应于存储装置210中的物理位置和/或地址。
换句话讲,模块212、214、216、218、220、222中的每一个的内容可不彼此分离,并且实际上,可存储在存储装置210上的至少部分交错的位置中。
[0045] O/S模块212可具有存储在其上的一个或更多个操作系统。处理器200可被配置成访问和执行存储在(O/S)模块212中用于操作电子装置的系统功能的一个或更多个操作系统。受操作系统管理的系统功能可包括存储器管理、处理器资源管理、驱动器管理、应用软件管理、系统配置等。操作系统可以是任何种类的合适的操作系统,包括但不限于Linux、OS- 等。
[0046] 应用程序模块214可在其上包含指令和/或应用程序,指令和/或应用程序可由处理器200执行,以提供与过滤服务器150关联的一个或更多个功能。在某些方面,这些指令和/或应用程序可与(O/S)模块212和/或过滤服务器150的其他模块交互。应用程序模块214可在其上存储有指令、软件和/或代码,指令、软件和/或代码可由处理器200启动和/或执行,以执行与其关联的一个或更多个应用程序和功能。这些应用程序可包括但不限于诸如网页浏览、商业、通信、图形、文字处理、出版、电子表格、数据库、游戏、教育、娱乐、媒体、项目规划、工程、绘图或其组合的功能。
[0047] 语义向量模块216可在其上存储有指令,指令在由处理器200执行时,使得过滤服务器150能够提供与确定任何种类的语义向量空间中的词语的语义向量相关联的多种功能。在一些示例实施方式中,处理器200可被配置成识别其本地语言的文档的词语的语义向量。在某些情况下,处理器200可被配置成识别文档(诸如,要经受过滤处理的文档120)中的词语。在一些示例实施方式中,处理器200或其他实体可能先前已经确定了诸如在本地语言语义向量空间(例如,确定了其语义向量的词语的语料库)中的词语的语义向量,并且将该结果存储在数据存储器中。在这些实施方式中,处理器200可被配置成从数据存储器中获取要翻译的词语的语义向量,该数据库中存储了该语义向量。在其他情况下,要翻译的词语可能不是已经被确定其语义向量的词语的初始语料库的部分。在这些实施方式中,处理器200可被配置成使用任何种类的合适的算法(例如,Word2Vec工具、词袋算法(bag-of-words algorithm)、连续跳跃元语法(skip-gram)、潜在语义分析(LSA)、潜在狄利克雷(dirichlet)分配(LDA)等)来确定其自身语言语义向量空间中的词语的语义向量。处理器
200可被配置成训练具有确定的语义向量的词语的初始语料库,然后使用该训练来确定其他词语的语义向量。在示例实施方式中,处理器200可被配置成执行神经网络学习技术,以使用稍后可用于确定其他词语的语义向量的初始词语语料库来建立模型。
[0048] 处理器200通过执行存储在语义向量模块216中的指令,还可被配置成将一个语言语义向量空间中的语义向量变换成其他语言语义向量空间中的语义向量。处理器200可被配置成获得和/或确定各种语言对之间的翻译矩阵。这些翻译矩阵可以是从任何种类的源接收的。另选地,处理器200可被配置成使用任何合适的算法来确定任两种语言之间的翻译矩阵。处理器200可被配置成诸如通过在考虑种子词语的语义向量的变换中产生的错误的情况下拟合翻译矩阵来使用两种语言的词语(例如,种子词语)之间的已知映射来确定它们之间的翻译矩阵。一旦翻译矩阵对于可能在用于确定词语映射的路径中的语言对是已知的,则处理器200就可被配置成使用这些矩阵来确定其他语言语义向量空间中的词语的语义向量。因此,利用适当的翻译矩阵,处理器200可被配置成以文档的词语或短语二者的本地语言以及关键词(例如,禁忌词、搜索词等)来提供语义向量,然后如果本地语言与基本语言不同,则将这些本地语言语义向量翻译成基本语言语义向量空间。
[0049] 关键词模块218可在其上存储有指令,指令在由处理器200执行时,使得过滤服务器150能够提供与出于过滤和/或搜索目的而识别关键词关联的各种功能。在示例实施方式中,处理器200可被配置成诸如当用户110将互联网搜索条目输入基于互联网的搜索引擎中时,从用户110借助他/她的用户装置130接收诸如搜索条目的关键词以进行搜索。在其他示例实施方式中,处理器200可被配置成代表用户110诸如从公司信息技术(IT)部门接收诸如禁忌词的关键词以进行文档过滤,IT部门创建和/或管理公司的内容过滤政策。在其他示例实施方式中,过滤服务器可被配置成从诸如父母的用户110借助他/她的用户装置130接收关键词,使得关键词对应于父母希望阻止他/她的孩子访问的内容。事实上,根据本公开的示例实施方式,处理器200可被配置成借助任何合适的机制来接收关键词。
[0050] 处理器200通过执行存储在关键词模块218中的指令,还可被配置成生成关键词的基本语言语义向量。基本语言可以是被选择的语言,使得出于处理器200所接收的文档的词语和关键词之间的语义比较的目的,可使用该语言的语义向量空间。换句话讲,基本语言和对应的基本语言语义向量空间可诸如通过寻找基本语言语义向量空间中表示的两个或更多个词语之间的同一基本语言向量空间内的语义向量距离来提供用于语义比较的共同语义向量空间(例如,多维坐标空间)。在一些示例实施方式中,处理器200可接收基本语言的关键词。在这些示例实施方式中,处理器200可被配置成执行关键词的基本语言语义向量的直接确定。在其他示例实施方式中,处理器200可接收除了基本语言之外的本地语言的关键词。在这些实施方式中,处理器200可被配置成确定与接收到的关键词所采用的本地语言对应的本地语言语义向量空间中的关键词本地语言语义向量。一旦确定了本地语言语义向量,处理器200就还可被配置成将本地语言语义向量翻译成与关键词对应的基本语言语义向量。因此,处理器200可被配置成为针对提供关键词所采用的本地语言,识别合适的本地语言到基本语言翻译矩阵。处理器200还可被配置成将关键词本地语言语义向量与本地语言到基础语言翻译矩阵相乘,以确定与关键词对应的关键词基本语言语义向量。在一些示例实施方式中,可用不止一种语言来提供关键词。在这些实施方式中,处理器200可被配置成使用以上提到的处理来确定多语言关键词中的每一个的基本语言语义向量。对于这些实施方式,可在每一个关键词其自身的语言语义向量空间中确定针对每一个关键词的本地语言语义向量,然后使用对应的本地语言到基本语言翻译矩阵将其转换到基本语言语义向量空间。
[0051] 过滤模块220可在其上存储有指令,指令在由处理器200执行时,使得过滤服务器150能够提供各种功能,以基于其内容来确定文档是否要被阻止。处理器200可被配置成确定要经受过滤的文档(例如,电子邮件、文本文档等)的所有词语或词语子集的基本语言语义向量。该处理可类似于为了确定关键词基本语言语义向量而讨论的处理。在其他情况下,文档中的词语都可采用基本语言。在这些情况下,处理器200可被配置成直接确定词语的基本语言语义向量。在其他情况下,文档和其中的词语可采用除了基本语言之外的语言,并且处理器200可被配置成首先确定词语的本地语言语义向量,然后将这些本地语言语义向量转换成对应的基本语言语义向量。
[0052] 进一步通过执行存储在过滤模块220中的指令,处理器200可被配置成确定关键词基本语言语义向量和文档词语基本语言语义向量之间的距离(例如,在超体积意义上)。处理器200可被配置成采用任何合适的机制来确定语义向量之间的距离,包括但不限于余弦距离、正弦距离、距离、欧几里得距离、其组合等。处理器200还可被配置成将距离数据诸如以管状形式或作为数据阵列存储在存储器/存储装置210中。距离数据可包括与每一个关键词与文档中的每一个词语对应的任何类型的距离测量。作为非限制性示例,可针对每一个关键词相对于文档的每一个词语确定余弦距离和直归一化向量点积。
[0053] 处理器200还可被配置成将针对文档的距离数据应用于过滤模型。过滤模型可能能够基于与其相关联的语义内容来确定文档是否应该被阻止。过滤模型可以被存储在任何合适的位置,诸如,过滤服务器150的存储器/存储装置210中。如果文档要被阻止,则处理器200可被配置成指示该文档、阻止文档、隔离文档、删除文档、将文档放置在垃圾邮件文件夹中、将文档的指示提供给IT部门或其他机构、其组合等。过滤模型可以是任何合适类型的模型。在示例实施方式中,过滤模型可以是机器学习模型并且可以在部署之前被训练。处理器
200可被配置成如果每一个文档都要被阻止,则使用一组已知的训练文档(诸如,通过人类处理或传统的语法过滤过程)来训练过滤模型。
[0054] 搜索模块222可在其上存储有指令,指令在由处理器200执行时使得过滤服务器150能够提供与搜索条目相关的搜索文档有关的各种功能。在示例实施方式中,搜索本质上可能不仅仅是语法上的,而且还涵盖搜索条目的语义质量。处理器200可被配置成确定在其中要进行搜索的文档(例如,网站、文本文档等)的全部词语或词语的子集的基本语言语义向量。该处理可类似于为了确定关键词基本语言语义向量和/或要过滤的文档的词语所讨论的处理。在某些情况下,文档的词语可采用基本语言。在这些情况下,处理器200可被配置成直接确定词语的基本语言语义向量。在其他情况下,文档和其中的词语可采用除了基本语言之外的语言,并且处理器200可被配置成首先确定词语的本地语言语义向量,然后将这些本地语言语义向量转换成对应的基本语言语义向量。
[0055] 进一步通过执行存储在搜索模块222中的指令,处理器200可被配置成针对每一个文档确定关键词基本语言语义向量与的词语基本语言语义向量之间的距离(例如,在超体积意义上)。处理器200可被配置成采用任何合适的机制来确定语义向量之间的距离,包括但不限于余弦距离、正弦距离、角距离、欧几里得距离、其组合等。处理器200还可被配置成将针对每一个文档的距离数据诸如以管状形式或作为数据阵列存储在存储器/存储装置210中。针对在其中进行搜索的每一个文档的距离数据可包括与每一个关键词与文档中的每一个词语对应的任何类型的距离测量。作为非限制性示例,可针对每一个关键词相对于针对每一个文档的每一个词语确定欧几里得距离和余弦相似度二者。
[0056] 处理器200还可被配置成将与每一个文档对应的距离数据组应用于过滤模型。过滤模型可能能够确定文档是否是搜索命中(例如,与搜索条目充分相关,以呈现给请求搜索的用户110)。过滤模型可以被存储在任何合适的位置,诸如,过滤服务器150的存储器/存储装置210中。在其他示例实施方式中,处理器200可被配置成对搜索处理期间考虑了语义的文档的相关性进行排名。在这些示例实施方式中,处理器200可被配置成生成相关性得分或指示特定文档的相关性的任何其他合适度量。在示例实施方式中,可由处理器200诸如通过对针对文档计算出的距离执行一个或更多个算术运算以将距离数据聚合为指示文档与搜索条目的相关性的减少的一组度量(例如,单个相关性得分),使用过滤模型来生成这些相关性得分。过滤模型可以是任何合适类型的模型。在示例实施方式中,过滤模型可以是机器学习模型并且可以在部署之前被训练。处理器200可被配置成无论文档是否相关和/或文档的相关程度如何,诸如通过人类处理或传统的语法过滤处理来使用一组已知的训练文档来训练过滤模型。
[0057] 应该理解,存储在操作系统(O/S)模块212、应用程序模块214、语义向量模块216、关键词模块218、过滤模块220和搜索模块222中的指令的功能会存在重叠。事实上,以上提到的模块212、214、216、218、220、222的功能可在过滤服务器150的框架下无缝地交互和协作。事实上,根据本公开的某些实施方式,针对模块212、214、216、218、220、222中的任一个描述的每种功能都可被存储在任何模块212、214、216、218、220、222中。另外,在某些实施方式中,可能存在一个单个模块,其包括操作系统(O/S)模块212、应用程序模块214、语义向量模块216、关键词模块218、过滤模块220和搜索模块222中描述的指令、程序和/或应用。
[0058] 图3描绘了例示出根据本公开的示例实施方式的用于确定文档120、160是否是搜索命中或者要被过滤的示例方法300的流程图。方法300可由过滤服务器150和其上的处理器200与环境100的一个或更多个其他实体协作地执行。在替代实施方式中,根据本公开的示例实施方式,用户装置130可执行方法300的处理中的一个、一些或全部。
[0059] 在框302处,可接收要针对第一语言的一个或更多个关键词和同一语言或其他语言的对应词语进行过滤或搜索的文档。换句话讲,在某些情况下,文档可采用与过滤功能的禁忌词或搜索功能的搜索条目相同的语言。在其他情况下,文档中的一个或更多个词语可采用与禁忌词和/或搜索条目的语言不同的语言。文档可以是在其中进行搜索的整个文档的部分,或者该文档可以是至少部分地基于文档的内容而要被用户110阻止的文档。
[0060] 在框304处,可在词语或短语中的每一个的本地语言向量空间中识别与文档中的词语或短语中的每一个对应的本地语言语义向量。可通过在数据存储器(例如,查询表)中寻找语义向量来确定文档中词语的这些本地语言语义向量。另选地,可使用可能已经在映射到其语义表示的词语的初始语料库上训练的模型来推导文档中的词语的本地语言语义向量。
[0061] 在框306处,可将针对词语或短语中的每一个的本地语言语义向量转换成基本语言语义向量空间中的对应基本语言语义向量。可识别本地语言的语义向量空间和基本语言的语义向量空间之间的转换矩阵。如上所述,可至少部分地基于已经在目标语言和基本语言之间映射的一组种子词语来确定该翻译矩阵。可使用翻译矩阵(例如,本地语言到基本语言翻译矩阵)来确定基本语言向量空间中的词语或短语的向量表示。在某些情况下,在文档的词语已经是基本语言的情况下,可不执行框306的处理,因为本地语言语义向量可能已经是基本语言语义向量。在其他情况下,框302的处理所识别的文档本质上可以是多语言的,并且可具有不止一种语言的词语。在这种情况下,本地语言语义向量可处于不止一种语言的语义向量空间中,并且出于识别所有词语的基本语言语义向量的目的,可能需要与文档中表示的每种语言对应的本地语言到基本语言矩阵。
[0062] 在框308处,可识别在与基本语言语义向量空间中的一个或更多个关键词中的每一个对应的关键词语义向量。在示例实施方式中,这些关键词可以是禁忌词,如指定以过滤与禁忌词相关(例如,语法上和语义上)的内容。在其他情况下,关键词可以是搜索条目,诸如,用户110所指定的用于进行搜索以识别在语法上和/或语义上与搜索条目相关的一个或更多个文档的搜索条目。
[0063] 在框310处,可确定基本语言语义向量中的至少一些和关键词语义向量中的每一个之间的一个或更多个距离参数。可通过诸如余弦距离、正弦距离、余弦相似度、欧几里得距离、直尺寸差异、其组合等任何合适的机制来计算这些距离参数。在一些示例实施方式中,可将一个或更多个距离参数制表。此外,在一些实施方式中,距离参数数据可被存储在诸如存储器/存储装置210中。
[0064] 在框312处,可将过滤模型应用于一个或更多个确定的距离。在进行过滤的情况下,该过滤模型可以是被训练成至少部分地基于其语义内容及其与一个或更多个关键词(例如,禁忌词)的语义近似度来检测文档是否要过滤的模型。在进行搜索的情况下,过滤模型可以是被训练成检测从语义立场看文档是否与特定关键词(例如,搜索条目)充分相关以向请求搜索处理的用户呈现的模型。下面,结合图5更详细地描述训练过滤模型的处理。
[0065] 在框314处,可确定文档是否是搜索命中或者要被过滤。诸如在框312的处理中,该确定可至少部分地基于已经被应用了文档的距离数据的过滤模型的输出(例如,指示)。如果在框314处确定文档既不是搜索命中也不是要被过滤,则在框316处,可指示文档不是要被过滤和/或不是搜索命中。如果在框314处确定文档是搜索命中或要被过滤,则在框318处,可指示文档是搜索命中或者要被过滤。
[0066] 在一些示例实施方式中,可选地,方法300可阻止对被认为要过滤的文档进行访问。在一些其他示例实施方式中,可选地,方法300可传递可能被认为与所请求搜索相关的文档。在一些其他示例实施方式中,可根据结果的相关性以排名顺序来呈现搜索结果。下面,结合图7更详细地描述两个不同搜索命中之间的排名相关性的处理。还应该理解,在一些示例实施方式中,方法300中的处理可与诸如语法搜索的传统搜索机制的一个或更多个处理结合,以提供相对稳健的过滤和搜索。
[0067] 应该注意,根据本公开的某些实施方式,方法300可按各种方式进行修改。例如,在本公开的其他实施方式中,可不再进行或不按顺序执行方法300中的一个或更多个处理。另外,根据本公开的其他实施方式,可在方法300中添加其他操作。
[0068] 图4描绘了例示出根据本公开的示例实施方式的针对待过滤文档400识别距离参数表408并且将应用距离参数表408应用于过滤模型410的示意图。如所示出的,文档400可以是任何合适的文档,诸如,例如,用户110接收的电子邮件。为了例示目的,文档400已经被显示为是用英文书写的,但是应该理解,它确实可以用任何书面语言来书写。
[0069] 在402中,可针对文档400的每一个词语来确定本地语言语义向量。在一些示例实施方式中,可排除一些词语,而非确定任一个和每一个词语的语义向量。例如,可排除文档400中的词语“not”或“than”,因为当评估文档的相对于禁忌词的语义质量时,这些词可能不会在文档之间增加足够量的语义区分。在404中,本地语言语义向量可被转换成基本语言语义向量。如上所述,如果本地语言确实是基本语言,则可不执行404的处理,因为本地语言语义向量将是基本语言语义向量。在406中,可计算基本语言语义向量与关键词语义向量之间的距离,然后进行制表408。如所示出的,虽然只提供了一小组关键词,但是由于执行了语义搜索,导致关键词和文档中的一些词语之间会存在语义接近度,尽管这些词语没有被指定为关键词(例如,禁忌词)。例如,文档中只有词语“poker”是被指定为关键词的词语。然而,诸如“Texas Hold’em”、“Casino”或“Vegas”的词语与所指定的关键词的相对语义接近度可以是使得过滤模型可寻找充分相关的那些词语并且致使触发进行过滤的指示。应该注意,如通过距关键词的距离所量化的,语义距离“Texas Hold’em”、“Casino”或“Vegas”比词语“Grandma”明显更接近。当在410处将该距离数据提供给经适当训练的过滤模型时,过滤处理可在412处认为文档要被过滤。
[0070] 应该理解,在图4的示例中,可指定相对减少的一组关键词来对各种各样的文档执行相对稳健的过滤处理。此外,可用任何合适的语言(例如,可在基本语言语义向量空间中找到其关键词语义向量的任何语言)来指定关键词。另外,应该注意,文档400可采用任何合适的语言(例如,可在基本语言语义向量空间中找到其语义向量的任何语言)。
[0071] 图5描绘了例示出根据本公开的示例实施方式的用于训练和部署过滤模型的示例方法500的流程图。方法500可由过滤服务器150与环境100的一个或更多个其他实体协作地执行。在替代实施方式中,根据本公开的示例实施方式,用户装置130可执行方法500的处理中的一个、一些或全部。
[0072] 在框502处,可接收用于训练过滤模型的多个训练文档。可对这些训练文档进行预分析,以确定它们是否相关并且是否应该触发过滤确定。在某些情况下,预分析可由人来执行。在其他情况下,预分析可由机器(例如,适于过滤的计算机器)使用诸如语法过滤的传统过滤机制来执行。在框504处,可接收训练文档中的每一个是否要被过滤的指示。这些可按表格形式接收,例如,表格形式指示与训练文档关联的标识符。在其他情况下,可将该信息诸如按元数据形式附加或前置到训练文档本身中。
[0073] 在框506处,可针对多个训练文档中的每一个的词语中的每一个在与词语中的每一个对应的本地语言语义向量空间中识别本地语言语义向量。可选地,可仅针对词语的子集来识别本地语言语义向量。在示例实施方式中,可排除不太可能提供文档之间的相对高级别的语义区分的词语。作为非限制性示例,可排除短的词语(例如,少于四个字母)。作为另一个非限制性示例,可排除常用词语,诸如,例如,“an”、“the”、“of”等。在一些示例实施方式中,可存在要排除的词语的列表,使得不针对这些词语确定本地语言语义向量。
[0074] 在框508处,可将多个训练文档中的每一个的词语中的每一个的语义向量转换成基本语言语义向量空间中的对应基本语言语义向量。如上所讨论的,该处理可涉及识别合适的本地语言到基本语言翻译矩阵。例如,如果文档包含古吉拉特语(Gujarati)词语和拉地语(Marathi)词语并且基本语言是印地语(Hindi),则将需要古吉拉特语到印地语翻译矩阵和马拉地语到印地语翻译矩阵来将古吉拉特语语义向量空间中的本地语言语义向量和马拉地语语义向量空间中的本地语言语义向量转换成印地语语义向量空间中的本地语言语义向量。
[0075] 在框510处,可识别与要由过滤模型过滤的一个或更多个关键词中的每一个对应的基本语言语义向量空间中的关键词语义向量。如上所讨论的,取决于关键词是以基本语言还是以除了基本语言之外的本地语言指定的,这可以是直接处理或间接处理。在框512处,可确定文档中的每一个的词语的基本语言语义向量中的至少一些与关键词语义向量中的每一个之间的一个或更多个距离参数。可根据如上所述的计算中的任一个来确定这些距离和/或将其制表。
[0076] 在框514处,可至少部分地基于针对训练文档中的每一个的一个或更多个距离参数以及训练文档中的每一个是否要被过滤来对过滤模型进行训练。这可以是受监督的机器学习模型。在其他情况下,过滤模型可能是不受监督的或受部分监督的。训练模型可以是任何合适的线性、仿射或非线性模型,包括但不限于回归模型、任何类型的决策树模型、贝叶斯(Bayesian)推理模型、任何合适类型的条件统计模型、其组合等。在框516处,可部署过滤模型。一旦被部署,过滤服务器150就可能能够将距离数据、其他推导的距离参数或阈值距离计数应用于过滤模型,以生成阻止/不阻止的确定和/或搜索命中的确定。
[0077] 应该注意,根据本公开的某些实施方式,方法500可按各种方式进行修改。例如,在本公开的其他实施方式中,可不再进行或不按顺序执行方法500中的一个或更多个操作。另外,根据本公开的其他实施方式,可在方法500中添加其他操作。
[0078] 图6描绘了例示出根据本公开的示例实施方式的通过语义向量比较生成关键词计数来确定文档是否是搜索命中或者要被过滤的示例方法600的流程图。方法600可由过滤服务器150与环境100的一个或更多个其他实体协作地执行。在替代实施方式中,根据本公开的示例实施方式,用户装置130可执行方法600的处理中的一个、一些或全部。
[0079] 在框602处,可接收要针对第一语言的一个或更多个关键词和同一语言或其他语言的对应词语进行过滤或搜索的文档。换句话讲,在某些情况下,文档可采用与过滤功能的禁忌词或搜索功能的搜索条目相同的语言。在其他情况下,文档中的一个或更多个词语可采用与禁忌词和/或搜索条目的语言不同的语言。在框604处,可在每一个词语或短语的本地语言向量空间中识别与文档中的每一个词语或短语对应的本地语言语义向量。在框606处,可将针对词语或短语中的每一个的本地语言语义向量转换成基本语言语义向量空间中的对应基本语言语义向量。该处理在某些情况下可以是可选的,并且如果本地语言语义向量已经在基本语言语义向量空间中(例如,如果本地语言是基本语言),则可不执行该处理。在框608处,可识别与基本语言语义向量空间中的一个或更多个关键词中的每一个对应的关键词语义向量。在框610处,可确定基本语言语义向量中的至少一些与关键词语义向量中的每一个之间的一个或更多个距离参数。
[0080] 在框612处,可针对关键词中的每一个对低于阈值距离的距离参数的数量进行计数。例如,计数可指示文档的与一个或更多个关键词相对紧密(例如,在阈值距离内)接近的词语的数量。因此,可用与每一个关键词相对应的整数(例如,计数)来生成数据集,其指示在该关键词的阈值距离内的词语的数量。在示例实施方式中,对于触发与特定关键词关联的阈值条件的词语,词语不一定具有与关键词相同的词语。事实上,词语可相对语义地接近(例如,具有相对近似的含义),以触发计数计算(tally count)的增量。作为非限制性示例,0.050的余弦距离(在0至1的归一化范围内)可触发阈值条件(例如,阈值为0.050)。
[0081] 在框614处,可将过滤模型应用于针对关键词中的每一个确定的计数。在这种情况下,过滤模型可已经在计数数据集上训练,而不是用距离数据计算的原始距离数据或其他导出参数。在框616处,可确定文档是否是搜索命中或者要被过滤。该确定可至少部分地基于框612的处理所确定的与每一个关键词对应的所确定的计数。如果在框616处确定文档既不是搜索命中也不是要被过滤,则在框618处,可指示文档不是要被过滤和/或不是搜索命中。如果在框616处确定文档是搜索命中或要被过滤,则在框620处,可指示文档是搜索命中或要被过滤。
[0082] 应该注意,根据本公开的某些实施方式,方法600可按各种方式进行修改。例如,在本公开的其他实施方式中,可不再进行或不按顺序执行方法600中的一个或更多个操作。另外,根据本公开的其他实施方式,可在方法600中添加其他操作。
[0083] 图7描绘了例示出根据本公开的示例实施方式的用于至少部分地基于与待排名文档相关联的一个或更多个距离参数来将搜索结果排名的示例方法700的流程图。方法700可由过滤服务器150与环境100的一个或更多个其他实体协作地执行。在替代实施方式中,根据本公开的示例实施方式,用户装置130可执行方法700的处理中的一个、一些或全部。
[0084] 在框702处,可识别将根据与一个或更多个搜索条目的搜索相关性排名的第一文档和第二文档。在框704处,可识别与第一文档中的每一个词语或短语对应的第一组本地语言语义向量。在框706处,可识别与第二文档中的每一个词语或短语对应的第二组本地语言语义向量。在框708处,可将第一组本地语言语义向量转换成基本语言语义向量空间中的第一组基本语言语义向量。在框710处,可将第二组本地语言语义向量转换成基本语言语义向量空间中的第二组基本语言语义向量。如上所讨论的,在本地语言语义向量与基本语言语义向量相同的情况下,可不执行框708和/或710的处理。在框712处,可识别与基本语言语义向量空间中的一个或更多个搜索条目中的每一个对应的搜索词语义向量。在框714处,可确定第一组基本语言语义向量中的至少一些与搜索词语义向量中的每一个之间的第一组一个或更多个距离参数。在框716处,可确定第二组基本语言语义向量中的至少一些与搜索词语义向量中的每一个之间的第二组一个或更多个距离参数。
[0085] 在框718处,可至少部分地基于第一组一个或更多个距离参数和第二组一个或更多个距离参数来确定第一文档和第二文档的搜索相关性相对排名。在一些示例实施方式中,具有最小距离的文档可被认为是最相关的。在其他示例实施方式中,针对每一个文档确定的距离可被归一化。例如,可比较两个文档的距离的平均值或中值。在其他示例实施方式中,可比较关键词的阈值距离内的词语的数量。在其他示例实施方式中,可针对两个文档,比较关键词的阈值内的词语数量与阈值外的词语数量的比率。事实上,可使用任何合适的机制来比较出于排名目的而针对两个文档确定的距离。在某些情况下,可针对至少部分地基于所确定距离而比较的每一个文档来计算相关性得分,然后使用该相关性得分基于与关键词的相关性将两个或更多个文档排名。
[0086] 应该注意,根据本公开的某些实施方式,方法700可按各种方式进行修改。例如,在本公开的其他实施方式中,可不再进行或不按顺序执行方法700中的一个或更多个操作。另外,根据本公开的其他实施方式,可在方法700中添加其他操作。
[0087] 本文中描述的实施方式可使用例如硬件、软件和/或固件来实现,以执行本文中描述的方法和/或操作。本文中描述的某些实施方式可被提供为存储机器可执行指令的一个或更多个有形机器可读介质,机器可执行指令如果由机器执行,则使机器执行本文中描述的方法和/或操作。有形机器可读介质可包括但不限于任何类型的盘,包括软盘、光盘、光盘只读存储器(CD-ROM)、可重写光盘(CD-RW)和磁光盘、诸如只读存储器(ROM)的半导体装置、诸如动态和静态RAM的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器,磁卡或光卡或适用于存储电子指令的任何类型的有形介质。该机器可包括任何合适的处理或计算平台、装置或系统,并且可使用硬件和/或软件的任何合适组合来实现。指令可包括任何合适类型的代码并且可使用任何合适的编程语言来实现。在其他实施方式中,用于执行本文中描述的方法和/或操作的机器可执行指令可在固件中体现。另外,在某些实施方式中,可形成专用计算机或特定机器,以识别致动的输入元件并且处理这些标识。
[0088] 本文中已经描述了各种特征、方面和实施方式。如本领域的技术人员将理解的,特征、方面和实施方式易于相互组合同样也易于变化和修改。因此,本公开应该被认为涵盖了这样的组合、变化和修改。
[0089] 本文中已经采用的术语和表述被用作描述性术语而非限制性的,并且在使用这些术语和表述时,不意图排除所示出和描述的特征(或其部分)的任何等同物,并且认识到在权利要求书的范围内能够进行各种修改。其他修改、变化和替代也是可能的。因此,权利要求书旨在涵盖所有这些等同物。
[0090] 虽然已经结合目前被认为是最实用的内容和各种实施方式描述了本发明的某些实施方式,但是要理解,本发明不限于所公开的实施方式,而是相反地,旨在涵盖包括在权利要求书的范围内的各种修改形式和等同布置。虽然本文中采用了特定的术语,但是它们只用于一般性和描述性的意义,而非出于限制目的。
[0091] 该书面描述使用示例来公开本发明的某些实施方式,包括最佳模式,并且还使得本领域的任何技术人员能够实践本发明的某些实施方式,包括制成和使用任何装置或系统并且执行任何合并的方法。本发明的某些实施方式的可授予专利的范围在权利要求书中有定义,并且可包括本领域的技术人员想到的其他示例。如果这些其他示例具有与权利要求书的字面语言无差异的结构元件,或者如果它们包括与权利要求书的字面语言无实质差异的等同结构元件,则这些其他示例旨在位于权利要求书的范围内。
[0092] 根据本公开的示例实施方式,可存在一种或更多种非暂时性计算机可读介质,该非暂时性计算机可读介质包括计算机可执行指令,所述计算机可执行指令在由一个或更多个处理器执行时配置所述一个或更多个处理器来执行包括以下步骤的操作:接收文档;识别所述文档中的第一词语和所述文档中的第二词语;确定所述第一词语的第一基本语言语义向量;确定所述第二词语的第二基本语言语义向量;识别关键词;确定关键词基本语言语义向量;确定所述第一基本语言语义向量与所述关键词基本语言语义向量之间的第一距离;确定所述第二基本语言语义向量与所述关键词基本语言语义向量之间的第二距离;以及至少部分地基于所述第一距离与所述第二距离来确定所述文档要被过滤。在示例实施方式中,所述操作还包括至少部分地基于所述文档要被过滤的确定来隔离所述文档。在其他示例实施方式中,确定所述第一基本语言语义向量包括:确定与所述第一词语对应的本地语言语义向量;以及至少部分地基于本地语言到基本语言翻译矩阵,将所述本地语言语义向量转换成所述第一基本语言语义向量。在其他示例实施方式中,确定所述关键词基本语言语义向量包括:确定与所述关键词对应的关键词本地语言语义向量;以及至少部分地基于本地语言到基本语言翻译矩阵,将所述关键词本地语言语义向量转换成所述关键词基本语言语义向量。
[0093] 在一些示例实施方式中,所述一种或更多种非暂时性计算机可读介质可以是这样的,即使得确定所述第一距离包括确定以下项中的至少一个:(i)所述第一基本语言语义向量与所述关键词基本语言语义向量之间的余弦距离,或(ii)所述第一基本语言语义向量与所述关键词基本语言语义向量之间的欧几里得距离。在其他示例实施方式中,确定所述文档要被过滤包括:识别过滤模型;将所述第一距离和所述第二距离应用于所述过滤模型;以及至少部分地基于所述应用来识别所述文档要被过滤。在其他示例实施方式中,所述操作还包括:接收多个训练文档;接收与所述训练文档中的每一个对应的过滤状态的指示;以及至少部分地基于所述多个训练文档以及与所述训练文档中的每一个对应的过滤状态的指示来训练所述过滤模型。
[0094] 在根据本公开的一些示例实施方式中,可存在一种系统。该系统可包括:至少一个存储器,所述至少一个存储器存储计算机可执行指令;以及至少一个处理器,所述至少一个处理器被配置成访问所述至少一个存储器,其中,所述至少一个处理器被配置成执行所述计算机可执行指令以:接收包括多个词语的文档;确定与所述多个词语中的每一个对应的相应的基本语言语义向量;识别关键词;确定关键词基本语言语义向量;确定包括与所述基本语言语义向量中的每一个对应的相应距离的一组距离数据,其中,所述相应距离是在所述关键词基本语言语义向量与对应的所述基本语言语义向量中的每一个之间;将所述一组距离数据应用于过滤模型;以及至少部分地基于将所述一组距离数据应用于所述过滤模型来确定所述文档要被过滤。在其他示例实施方式中,确定与所述多个词语中的每一个对应的相应的基本语言语义向量包括所述至少一个处理器被配置成执行所述计算机可执行指令以:确定与所述多个词语中的每一个对应的相应的本地语言语义向量,其中,所述多个词语中的每一个都是本地语言,并且相应的本地语言语义向量限定在与所述多个词语的本地语言对应的本地语言语义向量空间中;识别与所述本地语言对应的本地语言到基本语言翻译矩阵;以及至少部分地基于所述本地语言到基本语言翻译矩阵,将所述相应的本地语言语义向量中的每一个转换成相应的基本语言语义向量。在其他示例实施方式中,识别关键词包括所述至少一个处理器被配置成执行所述计算机可执行指令,以接收作为禁忌词的所述关键词,所述禁忌词指示以下项中的至少一个:(i)色情;(ii)性暴露内容;(iii)暴力内容;(iv)成人内容;(v)赌博相关内容;(vi)游戏相关内容;或(vii)暴力内容。
[0095] 在其他示例实施方式中,对于所述系统,确定关键词基本语言语义向量包括所述至少一个处理器被配置成识别所述关键词是以与所述关键词基本语言语义向量对应的基本语言接收的。在其他示例实施方式中,所述文档是第一文档,所述多个词语是第一多个词语,所述一组距离数据是第一组距离数据,并且所述至少一个处理器还被配置成:接收包括第二多个词语的第二文档;确定与所述第二文档对应的第二组距离数据;将所述第二组距离数据应用于所述过滤模型;以及至少部分地基于将所述第二组距离数据应用于所述过滤模型来确定所述第二文档不是要被过滤。其他实施方式可包括所述至少一个处理器还被配置成:接收多个训练文档;接收与所述训练文档中的每一个对应的过滤状态的指示;以及至少部分地基于所述多个训练文档以及与所述训练文档中的每一个对应的过滤状态的指示来训练所述过滤模型。在其他示例实施方式中,所述关键词是第一关键词,所述关键词基本语言语义向量是第一关键词基本语言语义向量,所述一组距离数据是第一组距离数据,并且其中,所述至少一个处理器还被配置成:识别第二关键词;确定第二关键词基本语言语义向量;确定包括与所述基本语言语义向量中的每一个对应的相应距离的第二组距离数据,其中,所述相应距离是在所述第二关键词基本语言语义向量与对应的所述基本语言语义向量中的每一个之间;以及将所述第二组距离数据应用于所述过滤模型。在其他示例实施方式中,将所述一组距离数据应用于所述过滤模型包括所述至少一个处理器被配置成:识别与所述关键词对应的阈值距离;对所述一组距离数据中的对比所述阈值距离小的距离的数量进行计数;以及将对所述距离的数量的计数应用于所述过滤模型。
[0096] 在本公开的一些示例实施方式中,可存在一种方法。该方法可包括以下步骤:由一个或更多个处理器接收搜索条目;由所述一个或更多个处理器识别包括多个词语的文档;由所述一个或更多个处理器确定与所述多个词语中的每一个对应的相应基本语言语义向量;由所述一个或更多个处理器确定与所述搜索条目对应的搜索条目基本语言语义向量;
由所述一个或更多个处理器确定包括与所述基本语言语义向量中的每一个对应的相应距离的一组距离数据,其中,所述相应距离在所述搜索条目基本语言语义向量与对应的所述基本语言语义向量中的每一个之间;由所述一个或更多个处理器将所述一组距离数据应用于过滤模型;以及由所述一个或更多个处理器至少部分地基于将所述一组距离数据应用于所述过滤模型来确定所述文档是搜索命中。在其他示例实施方式中,所述文档是第一文档,所述多个词语是第二多个词语,所述一组距离数据是第一组距离数据,并且还包括:由所述一个或更多个处理器识别包括第二多个词语的第二文档;由所述一个或更多个处理器确定包括与所述第二多个词语中的每一个对应的相应距离的第二组距离数据;由所述一个或更多个处理器将所述第二组距离数据应用于所述过滤模型;以及由所述一个或更多个处理器至少部分地基于将所述第二组距离数据应用于所述过滤模型来确定所述第二文档是搜索命中。在其他示例实施方式中,将所述第一组距离数据应用于所述过滤模型产生第一相关性得分,并且其中,将所述第二组距离数据应用于所述过滤模型产生第二相关性得分。在其他示例实施方式中,所述方法可包括以下步骤:由所述一个或更多个处理器并且至少部分地基于所述第一相关性得分和所述第二相关性得分来确定所述第一文档相比所述第二文档与所述搜索条目更相关。在一些示例实施方式中,将所述一组距离数据应用于所述过滤模型还包括:识别与所述搜索条目对应的阈值距离;对所述一组距离数据中的对比所述阈值距离小的距离的数量进行计数;以及将对所述距离的数量的计数应用于所述过滤模型。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈