首页 / 专利库 / 企业组织 / 术语学家 / 创建主题同义词的方法、计算机可读存储介质和系统

创建主题同义词的方法、计算机可读存储介质和系统

阅读:250发布:2020-05-19

专利汇可以提供创建主题同义词的方法、计算机可读存储介质和系统专利检索,专利查询,专利分析的服务。并且本 发明 提供用于从由主题词汇表提取的定义创建主题同义词的方法、装置和系统,包括 计算机程序 产品。通过将 自然语言处理 (例如,段落术语匹配、词汇匹配和句法匹配)应用于提取定义确定均表示在主题词汇表中定义的两个术语是同义词的概率的置信得分。基于置信得分建立主题叙词表。在一个 实施例 中,基于第一术语的提取定义创建包含第一术语的陈述,通过在陈述中用第二术语代替第一术语创建 修改 陈述,搜索语料库,并且基于修改陈述是准确的语料库中的证据确定置信得分。如果置信得分大于 阈值 则将第一和第二术语标记为同义词。,下面是创建主题同义词的方法、计算机可读存储介质和系统专利的具体信息内容。

1.一种用于从在主题词汇表中定义的术语的定义创建主题同义词的计算机执行方法,其包括:
从主题词汇表提取在所述主题词汇表中定义的术语的定义,其中从主题词汇表提取在所述主题词汇表中定义的术语的定义包括:
从所述主题词汇表提取在所述主题词汇表中定义的第一术语的定义;
通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分,其中每个置信得分表示在所述主题词汇表中定义的两个术语是同义词的概率,其中通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分包括:
创建第一陈述,其中所述第一陈述包含所述第一术语并且基于从所述主题词汇表提取的所述第一术语的定义;
通过在所述第一陈述中用第二术语替代所述第一术语创建修改的第一陈述,其中在所述主题词汇表中定义所述第二术语;
在语料库中搜索所述修改的第一陈述是准确的证据;以及
基于所述修改的第一陈述是准确的所述语料库中的证据确定总置信得分;
基于所述置信得分建立主题叙词表,其中基于所述置信得分建立主题叙词表包括:
如果所述总置信得分大于第一阈值,则将所述第一术语和所述第二术语标记为同义词。
2.如权利要求1所述的计算机执行方法,其还包括:
如果所述总置信得分大于第二阈值,则选择所述第一术语和所述第二术语作为可能的同义词以便由人类主题专家复查,其中所述第二阈值小于所述第一阈值。
3.如权利要求1所述的计算机执行方法,其中所述自然语言处理包括段落术语匹配、词汇匹配和句法匹配中的至少一种。
4.如权利要求1所述的计算机执行方法,其中使用机器学习确定所述第一阈值。
5.如权利要求4所述的计算机执行方法,其中所述机器学习包括计算多个已知的同义词对的每一个的总置信得分。
6.一种用于从在主题词汇表中定义的术语的定义创建主题同义词的计算机执行方法,其包括:
从主题词汇表提取在所述主题词汇表中定义的术语的定义,其中从主题词汇表提取在所述主题词汇表中定义的术语的定义包括:
从所述主题词汇表提取在所述主题词汇表中定义的第一术语的定义;
从所述主题词汇表提取在所述主题词汇表中定义的第二术语的定义;
通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分,其中每个置信得分表示在所述主题词汇表中定义的两个术语是同义词的概率,其中通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分包括:
创建第一陈述,其中所述第一陈述包含所述第一术语并且基于从所述主题词汇表提取的所述第一术语的定义;
通过在所述第一陈述中用所述第二术语替代所述第一术语创建修改的第一陈述;
在语料库中搜索所述修改的第一陈述是准确的证据;
基于所述修改的第一陈述是准确的所述语料库中的证据确定第一置信得分;
创建第二陈述,其中所述第二陈述包含所述第二术语并且基于从所述主题词汇表提取的所述第二术语的定义;
通过在所述第二陈述中用所述第一术语替代所述第二术语创建修改的第二陈述;
在语料库中搜索所述修改的第二陈述是准确的证据;
基于所述修改的第二陈述是准确的所述语料库中的证据确定第二置信得分;
基于所述第一置信得分和所述第二置信得分计算总置信得分;
基于所述置信得分建立主题叙词表,其中基于所述置信得分建立主题叙词表包括:
如果所述总置信得分大于第一阈值,则将所述第一术语和所述第二术语标记为同义词。
7.一种具有随其具体化的程序代码的计算机可读存储介质,所述程序代码可由处理器执行以执行方法,所述方法包括:
从主题词汇表提取在所述主题词汇表中定义的术语的定义,其中从主题词汇表提取在所述主题词汇表中定义的术语的定义包括:
从所述主题词汇表提取在所述主题词汇表中定义的第一术语的定义;
通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分,其中每个置信得分表示在所述主题词汇表中定义的两个术语是同义词的概率,其中通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分包括:
创建第一陈述,其中所述第一陈述包含所述第一术语并且基于从所述主题词汇表提取的所述第一术语的定义;
通过在所述第一陈述中用第二术语替代所述第一术语创建修改的第一陈述,其中在所述主题词汇表中定义所述第二术语;
在语料库中搜索所述修改的第一陈述是准确的证据;以及
基于所述修改的第一陈述是准确的所述语料库中的证据确定总置信得分;
基于所述置信得分建立主题叙词表,其中基于所述置信得分建立主题叙词表包括:
如果所述总置信得分大于第一阈值,则将所述第一术语和所述第二术语标记为同义词。
8.如权利要求7所述的计算机可读存储介质,其中所述方法还包括:
如果所述总置信得分大于第二阈值,则选择所述第一术语和所述第二术语作为可能的同义词以便由人类主题专家复查,其中所述第二阈值小于所述第一阈值。
9.如权利要求7所述的计算机可读存储介质,其中所述自然语言处理包括段落术语匹配、词汇匹配和句法匹配中的至少一种。
10.如权利要求7所述的计算机可读存储介质,其中使用机器学习确定所述第一阈值。
11.如权利要求10所述的计算机可读存储介质,其中所述机器学习包括计算多个已知的同义词对的每一个的总置信得分。
12.一种具有随其具体化的程序代码的计算机可读存储介质,所述程序代码可由处理器执行以执行方法,所述方法包括:
从主题词汇表提取在所述主题词汇表中定义的术语的定义,其中从主题词汇表提取在所述主题词汇表中定义的术语的定义包括:
从所述主题词汇表提取在所述主题词汇表中定义的第一术语的定义;
从所述主题词汇表提取在所述主题词汇表中定义的第二术语的定义;
通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分,其中每个置信得分表示在所述主题词汇表中定义的两个术语是同义词的概率,其中通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分包括:
创建第一陈述,其中所述第一陈述包含所述第一术语并且基于从所述主题词汇表提取的所述第一术语的定义;
通过在所述第一陈述中用所述第二术语替代所述第一术语创建修改的第一陈述;
在语料库中搜索所述修改的第一陈述是准确的证据;
基于所述修改的第一陈述是准确的所述语料库中的证据确定第一置信得分;
创建第二陈述,其中所述第二陈述包含所述第二术语并且基于从所述主题词汇表提取的所述第二术语的定义;
通过在所述第二陈述中用所述第一术语替代所述第二术语创建修改的第二陈述;
在语料库中搜索所述修改的第二陈述是准确的证据;
基于所述修改的第二陈述是准确的所述语料库中的证据确定第二置信得分;
基于所述第一置信得分和所述第二置信得分计算总置信得分;以及
基于所述置信得分建立主题叙词表,其中基于所述置信得分建立主题叙词表包括:
如果所述总置信得分大于第一阈值,则将所述第一术语和所述第二术语标记为同义词。
13.一种计算机系统,其包括:
至少一个处理器;
耦合到所述至少一个处理器的存储器
同义词创建机构,其由所述至少一个处理器中的一个或多个执行以执行方法,所述方法包括:
从主题词汇表提取在所述主题词汇表中定义的术语的定义,其中从主题词汇表提取在所述主题词汇表中定义的术语的定义包括:
从所述主题词汇表提取在所述主题词汇表中定义的第一术语的定义;
通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分,其中每个置信得分表示在所述主题词汇表中定义的两个术语是同义词的概率,其中通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分包括:
创建第一陈述,其中所述第一陈述包含所述第一术语并且基于从所述主题词汇表提取的所述第一术语的定义;
通过在所述第一陈述中用第二术语替代所述第一术语创建修改的第一陈述,其中在所述主题词汇表中定义所述第二术语;
在语料库中搜索所述修改的第一陈述是准确的证据;以及
基于所述修改的第一陈述是准确的所述语料库中的证据确定总置信得分;
基于所述置信得分建立主题叙词表,其中基于所述置信得分建立主题叙词表包括:
如果所述总置信得分大于第一阈值,则将所述第一术语和所述第二术语标记为同义词。
14.如权利要求13所述的计算机系统,其中所述方法还包括:
如果所述总置信得分大于第二阈值,则选择所述第一术语和所述第二术语作为可能的同义词以便由人类主题专家复查,其中所述第二阈值小于所述第一阈值。
15.如权利要求13所述的计算机系统,其中所述自然语言处理包括段落术语匹配、词汇匹配和句法匹配中的至少一种。
16.如权利要求13所述的计算机系统,其中使用机器学习确定所述第一阈值。
17.一种计算机系统,其包括:
至少一个处理器;
耦合到所述至少一个处理器的存储器;
同义词创建机构,其由所述至少一个处理器中的一个或多个执行以执行方法,所述方法包括:
从主题词汇表提取在所述主题词汇表中定义的术语的定义,其中从主题词汇表提取在所述主题词汇表中定义的术语的定义包括:
从所述主题词汇表提取在所述主题词汇表中定义的第一术语的定义;
从所述主题词汇表提取在所述主题词汇表中定义的第二术语的定义;
通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分,其中每个置信得分表示在所述主题词汇表中定义的两个术语是同义词的概率,其中通过将自然语言处理应用于从所述主题词汇表提取的定义确定多个置信得分包括:
创建第一陈述,其中所述第一陈述包含所述第一术语并且基于从所述主题词汇表提取的所述第一术语的定义;
通过在所述第一陈述中用所述第二术语替代所述第一术语创建修改的第一陈述;
在语料库中搜索所述修改的第一陈述是准确的证据;
基于所述修改的第一陈述是准确的所述语料库中的证据确定第一置信得分;
创建第二陈述,其中所述第二陈述包含所述第二术语并且基于从所述主题词汇表提取的所述第二术语的定义;
通过在所述第二陈述中用所述第一术语替代所述第二术语创建修改的第二陈述;
在语料库中搜索所述修改的第二陈述是准确的证据;
基于所述修改的第二陈述是准确的所述语料库中的证据确定第二置信得分;
基于所述第一置信得分和所述第二置信得分计算总置信得分;以及
基于所述置信得分建立主题叙词表,其中基于所述置信得分建立主题叙词表包括:
如果所述总置信得分大于第一阈值,则将所述第一术语和所述第二术语标记为同义词。

说明书全文

创建主题同义词的方法、计算机可读存储介质和系统

背景技术

[0001] 本发明一般地涉及信息技术的领域,并且更具体地,涉及自然语言处理系统。

发明内容

[0002] 本发明的各种实施例提供用于从由主题词汇表提取的定义创建主题同义词的方法、装置和系统,包括计算机程序产品。通过将自然语言处理(例如,段落术语(passage term)匹配、词汇匹配和句法匹配)应用于提取定义,确定均表示在主题词汇表中定义的两个术语是同义词的概率的置信得分。基于置信得分建立主题叙词表。在一个实施例中,基于第一术语的提取定义创建包含第一术语的陈述,通过在陈述中用第二术语代替第一术语创建修改陈述,搜索语料库,并且基于修改陈述是准确的语料库中的证据确定置信得分。如果置信得分大于阈值,则将第一和第二术语标记为同义词。附图说明
[0003] 将在下文中结合附图描述本发明的实施例,其中相似的标示表示相似的要素。
[0004] 图1是示出根据本发明的一些实施例的用于实现用于从在主题词汇表中定义的术语的定义创建主题同义词的机构的计算机系统的方框图
[0005] 图2是示出根据本发明的一些实施例的用于通过使用语料库从在主题词汇表中定义的术语的定义创建主题同义词的系统的方框图;
[0006] 图3是示出根据本发明的一些实施例的用于通过使用语料库从在主题词汇表中定义的术语的定义创建主题同义词的方法的流程图
[0007] 图4是示出根据本发明的一些实施例的可以在图3中所示的方法中使用以建立主题叙词表的选择技术的流程图;
[0008] 图5是示出根据本发明的一些实施例的可以在图3中所示的方法中使用以滤除坏匹配的预选择技术的流程图;
[0009] 图6是示出根据本发明的一些实施例的可以在图3中所示的方法中使用的用于计算阈值的机器学习技术的流程图。

具体实施方式

[0010] 现在将参照图1在特定多用户计算机系统100(即,IBM PowerSystem计算机系统)的背景下描述本发明的实施例的计算机系统实现方式。然而,本领域的技术人员将领会本发明的方法、装置和计算机程序产品同样适用于任何计算机系统,不管计算机系统是复杂的多用户计算装置(例如,基于IBMPOWER7处理器的服务器系统或位于IBM BladeCenter机箱中的基于IBMPOWER7处理器的刀片系统)、PC还是嵌入式控制系统。如图1中所示,计算机系统100包括一个或多个处理器101A、101B、101C和101D(在本文中也统称为“处理器101”),主存储器102,大容量存储接口104,显示接口106,网络接口108,和I/O设备接口109。通过系统总线110的使用互连这些系统部件。
[0011] 根据本发明的一些实施例,下面进一步描述的DeepQA引擎122驻留在主存储器102中(至少在图1所示的实施例中)以便提供DeepQA功能性,如高级自然语言处理(NLP)。然而本领域的技术人员将领会,DeepQA引擎122不需要驻留在计算机系统100的主存储器102中。例如,DeepQA引擎122可以包括例如作为存储在硬盘上(例如,在DASD设备152上)的计算机程序产品保留的计算机可执行指令或系统固件。固件是存储在保持其内容物而没有电的存储器芯片中的“软件”,所述存储器芯片例如为只读存储器(ROM),可编程ROM(PROM),可擦除可编程ROM(EPROM),电可擦除可编程ROM(EEPROM),和非易失性随机存取存储器(非易失性RAM)。
[0012] 国际商业机器公司(IBM)已发布能够用语义查询和搜索操作的某些类型(如医疗环境(或任何其他深层主题环境)的自然问答范式的类型)帮助人的计算方法和技术的细节。IBM研究科学家已致力于深度问答(DeepQA)方法,其能够理解以自然语言贴出(和输入)的复杂问题,并且能够以足够的准确性、置信度和速度回答问题以在指定环境(例如,医疗咨询和诊断范式,其中回答的时间是关键的)中增强相同问题的人为处理。
[0013] DeepQA是将高级自然语言处理、信息检索、知识表示和推理以及机器学习技术应用于开域问答的领域,其全部在合适的计算平台上执行。假设生成、证据收集、分析和评分的这样的方法可以由多种多样的计算平台有效地执行。
[0014] 类似地,IBM已发布计算方法,其组合语义元素和信息搜索元素以形成现在由Apache组织作为开源项目保留的非结构化信息管理架构(UIMA)。
[0015] 然而丰富的信息在关于DeepQA和UIMA的公共域中是可用的,本公开假定本领域的普通技术人员可以访问该信息并且将其应用于本发明的实现实施例。
[0016] 如上所述,DeepQA是高级自然语言处理、信息检索、知识表示和推理以及机器学习技术的应用。因此,根据本发明的一些实施例,DeepQA引擎122提供那些常规的DeepQA功能性。而且,DeepQA引擎122可以提供常规的UIMA功能性。
[0017] 在执行自然语言处理中,具体地在DeepQA的领域中,确定术语何时是彼此的同义词是非常重要的。由于在英语(或任何其他语言)中说相同的事情有许多方式,因此在执行DeepQA的许多阶段知道两个单词是否表示相同的事情变得必要。同义词必须不同于紧密相关、但是不是同义词的术语进行处理。例如,如果在与心脏病发作相关的卫生保健领域中有一个问题,则重要的是知道“心肌梗塞”是与心脏病发作相同的事情。所以与一个术语相关的症状和治疗与另一术语相关。若不知道两个术语是同义词,在DeepQA方法中遇到两个主要缺点。
[0018] 首先,DeepQA系统会将“心肌梗塞”作为“心脏病发作”相关的体征或症状错误地返回。由于有大量的文献提到这两个术语,因此DeepQA系统没有意识到这些术语是同义词的事实不能够在“心肌梗塞”和诸如“呼吸短促”或“胸痛”的实际症状之间区分。尽管这是普通例子,但是它在理论上会导致坏结果,如Q:心脏病发作的主要症状是什么?A:心肌梗塞。
[0019] 其次,DeepQA系统会通过独立地处理同义词错误地评分问题的可能答案。由于两个术语是同义词,因此支持心脏病发作或心肌梗塞作为可能答案的证据应当分组在一起。这是关键的,原因是它常常表示获得正确或错误答案之间的差异。如果有较低评分答案,则它会错误地选择为最佳答案。如果不知道用于正确答案的两个同义词是同义词则会发生该情况,并且因此本应当组合的它们的得分单独地低于错误答案中的一个。
[0020] 由于这些原因和许多其他原因,关键是建立同义词的列表。问题在于除了通用英语叙词表以外,需要深度专业知识的主题领域存在同义词的详细集合的情况很少。由于这样的知识领域恰好是NLP专家系统将有用的知识的类型,因此最重要的是在最不可能具有已经生成的叙词表的领域中找到同义词。不可行的是可能提取数千术语并且使用人主题专家来比较每一个和每个可能配对,并且找到同义词的所有组。典型地,对于指定深层主题(如心脏手术、外币兑换、航空工程等)存在许多词汇表,但是不存在同义词的确定性集合。也就是说,尽管通常具有术语的主题词汇表,但是几乎从来没有术语的主题叙词表。
[0021] 根据本发明的一些实施例,下面进一步所述的同义词创建机构124驻留在主存储器102中(至少在图1所示的实施例中)并且与DeepQA引擎122协同或作为其部件操作以便从在主题词汇表(例如,主题词汇表126)中定义的术语的定义创建主题同义词。同义词创建机构122可以使用这些主题同义词来建立主题叙词表(例如,主题叙词表128)。然而本领域的技术人员将领会,同义词创建机构124不需要驻留在计算机系统100的主存储器102中。例如,同义词创建机构124可以包括例如作为存储在硬盘上(例如,在DASD设备152上)的计算机程序产品保留的计算机可执行指令或系统固件。
[0022] 根据本发明的一些实施例,同义词创建机构124包括能够在处理器101上执行的指令或能够由在处理器101上执行的指令解释的陈述以执行功能,如下面参照图3-6进一步所述。同样根据本发明的一些实施例,同义词创建机构124可以包括能够在联网设备的(一个或多个)处理器上执行的指令或能够由在联网设备的这样的(一个或多个)处理器上执行的指令解释的陈述以执行功能,如下面参照图3-6进一步所述。例如,同义词创建机构124可以包括在客户端系统159的(一个或多个)处理器162上执行的指令。
[0023] 例如,根据本发明的一些实施例,同义词创建机构124(与DeepQA引擎122协同操作)包括能够在处理器101上执行的指令以使用主题词汇表126(和可选地,由DeepQA引擎122可访问的语料库,如图2中所示的数据和信息储存库202)建立主题叙词表128。
[0024] 主题词汇表126在一些实施例中可以是词汇的超集,也就是,与特定主题(例如,心脏手术、外币兑换、航空工程或其他深层主题等)关联的术语的字顺列表,其中术语列表中的每个术语伴有一个或多个术语定义。为了包括权利要求的该文件的目的,专有名词“术语”包含单词和短语。短语有时在本领域中称为“搭配”(即,一起形成具体含义的单词的序列,如“心脏病发作”)。
[0025] 为了包括权利要求的该文件的目的,专有名词“词汇表(glossary)”包含词汇表和词典。在本发明的一些实施例中主题词汇表126是行业专用词典或词汇表。例如,用于心脏手术的领域的行业专用词典的简单例子可以包括诸如“心脏病发作”、“心肌梗塞”等的术语和它们的定义。
[0026] 主题叙词表128在一些实施例中可以由同义词创建机构124以与特定主题关联的同义词的列表的形式建立。例如,主题叙词表128可以是在同义词对的字顺列表中组织的同义词的列表(即,每个同义词对包括作为同义词的两个术语)。在其他实施例中主题叙词表128可以由同义词创建机构124以将术语分组成与特定主题关联的同义词的集合的词汇数据库的形式建立。例如,主题叙词表128可以是在类似于词网(WordNet)的那些的“同义词集”中组织的词汇数据库。词网是常规词汇数据库,其将英语单词分组成称为“同义词集”的同义词的集合中,提供简短的、一般的定义,并且记录这些同义词集之间的各种语义关系。
为了包括权利要求的该文件的目的,专有名词“叙词表”包含同义词的列表和将术语分组成同义词的集合的词汇数据库两者。
[0027] 尽管主题词汇表126和主题叙词表128已在图1中示出为驻留在主存储器102中,但是它们也可以完全地或部分地在主存储器102的外部。例如,主题词汇表126和/或主题叙词表128可以存储在计算机系统100的硬盘上(例如,在DASD设备152上)或者可以位于远程计算机系统或服务器上,并且例如通过诸如局域网(LAN)或广域网(WAN)的任何类型的网络与处理器101通信。
[0028] 图1旨在以高级示出计算机系统100的代表性主要部件,应当理解单独的部件可以具有比图1中表示的更大的复杂性,并且这样的部件的数量、类型和配置可以变化。例如,计算机系统100可以包含不同于所示的数量的处理器。
[0029] 处理器101A、101B、101C和101D处理来自主存储器102的指令和数据。处理器101将指令和数据临时地保持在高速缓存结构中以便更快速存取。在图1所示的实施例中,高速缓存结构包括均与处理器101A、101B、101C和101D中的相应的一个关联的高速缓存103A、103B、103C和103D(在本文中也统称为“高速缓存103”)。例如,高速缓存103的每一个可以包括紧密地耦合到处理器101中的相应的一个的独立内部一级指令高速缓存(L1I高速缓存)和一级数据高速缓存(L1D高速缓存),以及二级高速缓存(L2高速缓存)。然而,应当理解高速缓存结构可以是不同的;高速缓存中的级的数量和功能的划分可以变化;并且系统实际上可以根本不具有高速缓存。
[0030] 根据一些实施例的主存储器102包含数据116、操作系统118和应用软件(例如,一个或多个应用程序120,如网络服务器应用程序130)、实用程序和其他类型的软件。另外,主存储器102包括DeepQA引擎122、同义词创建机构124、主题词汇表126和主题叙词表128,其中的每一种在各种实施例中可以以任何数量存在。(本领域的技术人员将领会DeepQA引擎122、同义词创建机构124、主题词汇表126和主题叙词表128可以不驻留在计算机系统100的主存储器102中。)下面进一步描述存储器中的这些实用程序的每一个。
[0031] 尽管DeepQA引擎122、同义词创建机构124、主题词汇表126和主题叙词表128示出为包含在主存储器102中,但是在其他实施例中它们中的一些或全部可以在不同电子设备上并且可以远程地访问(例如,经由网络160)。因此,例如,同义词创建机构124可以至少部分地位于联网设备(例如,计算机系统,如工作站158和/或客户端系统159)上或在其上实现,而DeepQA引擎122驻留在计算机系统100上。
[0032] 根据本发明的一些实施例,计算机系统100可以是在网络160上连接到客户端系统159的服务器系统。客户端系统159(如果有的话)包括一个或多个处理器162和存储器164。
存储器164至少在各种时间具有存储在其中的因特网浏览器应用程序168,其为客户端系统
159提供远程地访问位于服务器100上的数据、应用程序和其他类型的软件(例如,DeepQA引擎122和同义词创建机构124)的能力。例如,因特网浏览器应用程序168(例如,基于HTTP、基于HTTPS等)可以经由服务器100的网络服务器应用程序130传送文件和数据。然而本领域的技术人员将领会,因特网浏览器应用程序的使用仅仅是示例性的。合适的替代包括绿屏、VNC(虚拟网络计算)等。
[0033] 网络服务器应用程序130可以包括允许访问和与客户端系统159数据交换的任何合适的网络服务器编程。例如,网络服务器应用程序130可以将与DeepQA引擎122和/或同义词创建机构124关联的软件代码以小程序、插件等的形式提供给客户端系统159以便由用户在客户端系统159查看和/或交互。另外,尽管本发明的以上示例性实施例将客户端系统159描述为包括因特网浏览器应用程序168并且将服务器100描述为包括网络服务器应用程序130,但是本领域的技术人员将认识到可以在服务器100和客户端系统159两者处使用合适的协议使用任何类型的整体应用程序。
[0034] DeepQA引擎122和/或同义词创建机构124可以包括例如作为存储在硬盘上(例如,在DASD设备152上)的计算机程序产品保留的系统固件或计算机可执行指令。
[0035] 在另一实施例中,DeepQA引擎122和/或同义词创建机构124可以在硬件中经由作为基于处理器的系统的替代或附加的逻辑和/或其他适当的硬件技术实现。
[0036] 尽管同义词创建机构124在图1中显示为存储器中的独立实体,但是一些实施例明确地扩展到同义词创建机构124在DeepQA引擎122、应用软件、实用程序或在这样的实施例的范围内的其他类型的软件中实现。例如,同义词创建机构124可以是DeepQA引擎122的部件。
[0037] 计算机系统100使用公知的虚拟寻址机构,其允许计算机系统100的程序表现为如同它们可以访问大的、单个的存储实体而不是访问多个、更小的存储实体,如主存储器102和DASD设备152。所以,尽管数据116、操作系统118、(一个或多个)应用程序120、DeepQA引擎122、同义词创建机构124、主题词汇表126、主题叙词表128和网络服务器应用程序130显示为驻留在主存储器102中,但是本领域的技术人员将认识到这些项不必在相同时间全部完全包含在主存储器102中。也应当注意术语“存储器”在本文中用于一般地表示计算机系统
100的整个虚拟存储器。
[0038] 数据116表示用作计算机系统100中的任何程序的输入或输出的任何数据。
[0039] 操作系统118是在行业中称为IBM i(以前称为IBM i5/OS)的多任务操作系统;然而,本领域的技术人员将领会本发明的精神和范围不限于任何一个操作系统。有许多合适的多任务操作系统,如AIX、Linux等。
[0040] 处理器101可以从一个或多个微处理器和/或集成电路构造。处理器101执行存储在主存储器102中的程序指令。主存储器102存储可以由处理器101访问的程序和数据。当计算机系统100启动时,处理器101初始执行组成操作系统118的程序指令。操作系统118是管理计算机系统100的资源的复杂程序。这些资源中的一些是处理器101、主存储器102、大容量存储接口104、显示接口106、网络接口108、I/O设备接口109和系统总线110。
[0041] 尽管计算机系统100显示为包含四个处理器和单个系统总线,但是本领域的技术人员将领会本发明可以使用具有不同数量的处理器和/或多个总线的计算机系统实施。另外,在一些实施例中使用的接口均包括独立的、完全编程的微处理器,其用于卸载来自处理器101的I/O相关处理。然而,本领域的技术人员将领会本发明同样适用于简单地使用I/O适配器来执行类似功能的计算机系统。
[0042] 大容量存储接口104用于将一个或多个大容量存储设备152(如直接存取存储设备(DASD)、CD-ROM驱动器、DVD-ROM驱动器、CD-RW驱动器等)连接到计算机系统100。大容量存储设备的一个具体类型是CD-ROM驱动器,其可以从CD-ROM 154读取数据。大容量存储设备的另一具体类型是可读和可写CD-RW驱动器,其可以将数据写入到CD-RW和从CD-RW读取数据。
[0043] 大容量存储接口104也可以用于将语料库(如图2中所示的数据和信息储存库202)本地地连接到计算机系统100。根据本发明的一些实施例,DeepQA引擎122可以访问至少一个本地和/或远程语料库。
[0044] 显示接口106用于将一个或多个显示器156直接地连接到计算机系统100。可以是非智能(即,简易)终端或完全可编程工作站的这些显示器156用于允许系统管理员和其他用户与计算机系统100通信。然而应当注意尽管提供显示接口106以支持与一个或多个显示器156通信,但是计算机系统100不必需要显示器156,原因是与用户和进程的所有需要的交互可以经由网络接口108发生。
[0045] 网络接口108用于在网络160上将其他计算机系统(如工作站158和/或客户端系统159)连接到计算机系统100。根据本发明的一些实施例,诸如客户端系统159的这些联网计算机系统可以包括网络浏览器程序驻留在其上的计算机系统,通过所述网络浏览器程序可以访问DeepQA引擎122和/或同义词创建机构124。
[0046] 网络接口108也可以用于在网络160上将语料库(如图2中所示的数据和信息储存库202)远程地连接到计算机系统100。根据本发明的一些实施例,DeepQA引擎122可以访问至少一个本地和/或远程语料库。
[0047] 无论计算机系统100可以如何连接到其他计算机系统(如工作站158和/或客户端系统159),不管使用当今的模拟和/或数字技术还是经由未来的某种联网机构进行网络连接160,本发明同样适用。另外,许多不同的网络协议可以用于实现网络160。这些协议是允许计算机在网络160上通信的专用计算机程序。TCP/IP(传输控制协议/因特网协议)是合适的网络协议的例子。
[0048] I/O设备接口109提供各种输入/输出设备中的任何一个的接口。
[0049] 在这一点上,重要的是应当注意尽管以上描述在完全功能计算机系统的背景下,但是本领域的技术人员将领会同义词创建机构124以及本文中所述的其他软件类型实体可以作为制造品(在本文中也称为“计算机程序产品”)以各种形式配给,并且权利要求扩展到用于实际地执行配给的计算机可读介质的所有合适类型,包括可记录类型的介质,如软盘和CD-RWs、CD-ROMs(例如,CD-ROM 154)和DVD-ROMs。
[0050] 本文中的实施例也可以作为与客户企业、非盈利组织、政府实体、内部组织结构等的服务约定的一部分交付。这些实施例可以包括将计算机系统配置成执行本文中所述的方法中的一些或全部,并且部署实现本文中所述的方法中的一些或全部的软件、硬件和网络服务。
[0051] 图2是示出根据本发明的一些实施例的用于通过使用语料库(例如,数据和信息储存库202)从在主题词汇表中定义的术语的定义创建主题同义词的系统200的方框图。根据这些实施例,DeepQA引擎122可以访问本地和/或远程数据和信息储存库202。
[0052] 根据本发明的一些实施例,数据和信息储存库202构成与主题词汇表226相关的材料的语料库。典型地,这样的语料库是文本的大的和结构化的集合。例如在结构工程的领域中,根据本发明的一些实施例,主题词汇表226可以是结构工程术语的词典并且数据和信息储存库202可以包括、但不限于结构工程的百科全书,结构工程杂志,结构工程书籍、教科书和手册,和与结构工程相关的网页,以及结构工程术语的其他词典。
[0053] 根据本发明的示例性实施例,从词汇表(例如,医学词汇表、商业教科书、列出计算机术语的含义的网页等)获取两个术语(即,术语_1和术语_2)并且执行两个术语的定义的检查以基于英语(或其他语言)描述、单词的频率、句子结构和其他深度问答方法找到两个术语的定义中的类似描述以确定两个术语是同义词的概率。对于词汇表中的其他术语对重复该过程。在这一点上,术语对的一个或多个列表可以生成并且通过最接近匹配分选(例如,可以从是同义词的最高概率到是同义词的最低概率分选术语对)。
[0054] 在该示例性实施例中,可以将均具有高于第一阈值的是同义词的概率的那些术语对可以基于具有几乎相同的定义立即标记为同义词(例如,包括在术语对的列表中以包括在叙词表中)。可以标记均具有低于第一阈值但是高于第二阈值(即,第二阈值小于第一阈值)的是同义词的概率的那些术语对以便进一步复查(例如,包括在术语对的列表中以由复查人复查)。第二阈值可能需要复查人,但是列表范围缩小到小得多的集合,现在该任务变得可管理。可以立即丢弃均具有低于第二阈值的是同义词的概率的那些术语对。
[0055] 该示例性实施例使用常规NLP处理,其理解英语(或其他语言),但是不理解具体主题。通过处理n个数量得术语的每一个,该示例性实施例运行n2次迭代,询问NLP问答服务(例如,DeepQA引擎122)问题:“术语_1是与术语_2相同的事情吗?”使用从词汇表获取的定义,NLP问答服务使用一种或多种常规NLP技术(如模式匹配、术语匹配等)给出其最佳答案。最终结果(至少在该示例性实施例中)是构造现在可以由NLP问答服务(或其他专家系统)使用的同义词的集合。在该示例性实施例中,相对于主题术语和定义的集合应用专家系统的NLP部件。专家系统的NLP部件包括、但不限于理解英语(或其他语言)并且能够回答问题。通过将NLP部件应用于这些定义并且询问同义词问题,该示例性实施例使得能够创建主题叙词表。该新主题叙词表然后可以变为专家系统的一部分。
[0056] 根据第二示例性实施例,使用深度问答范式,开始于问题:“什么短语表示与术语_X相同的事情”。术语_X是在主题词汇表中定义的术语。对于在主题词汇表中定义的其他术语将重复该问题。
[0057] 第二示例性实施例的管线中的第一步骤是识别候选答案,其在第二示例性实施例中是在主题词汇表中定义的其他术语。这些候选答案(C0,C1,C2,…Cn)均可以视为相对于术语_X的可能同义词。
[0058] 第二示例性实施例的管线中的第二步骤是建立证据以支持每个候选答案,其在第二示例性实施例中使用术语_X的词汇表中的定义实现,以及每个候选答案的定义。第二示例性实施例也用在支持材料(例如,图2中的数据和信息储存库202)中找到的其他段落增强该证据。例如在结构工程的领域中,根据第二示例性实施例,可以使用:1)结构工程术语的术语的详细词汇表以找到候选答案和它们的定义,以及术语_X和它的定义;以及2)结构工程的领域中的文献的大语料库(例如,书籍、杂志、论文、网页等)。
[0059] 第二示例性实施例可以使用假设:如果第一候选_C0是术语_X的同义词,则将找到它们的定义之间的高NLP匹配。该假设可以在第二示例性实施例的第一步骤期间被使用并且可以立即滤除坏匹配。
[0060] 第二示例性实施例的第二步骤可以使用DeepQA技术,如用候选_C0代替术语_X,并且找到证据以支持代替的准确性。例如,如果结构工程术语的词汇表包括定义:“术语_X是由结构工程师使用以估计横梁上的负荷的技术…”,候选_C0替代术语_X。该替代导致新句子:“候选_C0是由结构工程师使用以估计横梁上的负荷的技术…”,其可能是准确的或不准确的。然后搜索语料库以便获得由替代产生的句子是准确的证据。而且,术语_X在词汇表中的候选_C0的定义中替代候选_C0,并且然后搜索语料库以便获得由该替代产生的句子是准确的证据。
[0061] 可以将具有最高匹配的术语对标记为同义词。可以有术语对的中间类别,其将授权一些人类主题专家进行一些复查。绝大多数对可以丢弃并且不视为可能的同义词。
[0062] 本领域的技术人员将领会许多NLP技术可以用于匹配定义并且用于在语料库中寻找支持证据。例子包括、但不限于术语匹配,段落术语匹配,单词位置n元语法分析,普通英语(或其他语言)同义词的扩展,缩略语扩展,和许多其他。尽管使用的具体NLP技术不是本发明的一部分,但是它们应用于使用来自主题词汇表的定义进行同义词识别是新颖的。通过根据本发明的一些实施例获取深层主题词汇表和相关材料的语料库,并且通过应用常规NLP技术,可以建立主题叙词表。
[0063] 本领域的技术人员将领会,本发明的方面可以具体化为系统、方法或计算机程序产品。因此,本发明的方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施例的形式,其在本文中全部一般地称为“电路”、“模”或“系统”。此外,本发明的方面可以采取在具有在其上具体化的计算机可读程序代码的一个或多个计算机可读介质中具体化的计算机程序产品的形式。
[0064] 可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如、但不限于电子、磁、光、电磁、红外或半导体系统、装置或设备,或前述的任何合适的组合。计算机可读存储介质的更多具体例子(非穷举列表)将包括下列:具有一个或多个电线的电连接,便携式计算机磁盘,硬盘,随机存取存储器(RAM),只读存储器(ROM),可擦除可编程只读存储器(EPROM或闪存),光纤,便携式光盘只读存储器(CD-ROM),光存储设备,磁存储设备,或前述的任何合适的组合。在该文件的背景下,计算机可读存储介质可以是可以包含或存储由指令执行系统、装置或设备使用或与其结合使用的程序的任何有形介质。
[0065] 计算机可读信号介质可以包括例如在基带中或作为载波的一部分的具有在其中具体化的计算机可读程序代码的传播数据信号。这样的传播信号可以采取各种形式中的任何一种,包括、但不限于电磁、光或它们的任何合适的组合。计算机可读信号介质可以是不是计算机可读存储介质并且可以通信、传播或传送由指令执行系统、装置或设备使用或与其结合使用的程序的任何计算机可读介质。
[0066] 在计算机可读介质上具体化的程序代码可以使用任何合适的介质传输,包括但不限于无线、电线、光纤电缆、RF等,或前述的任何合适的组合。
[0067] 用于执行本发明的方面的操作的计算机程序代码可以以一种或多种编程语言(包括面向对象编程语言,如Java、Smalltalk、C++等,和常规程序编程语言,如"C"编程语言或类似编程语言)的任何组合编写。程序代码可以完全在用户的计算机上、部分地在用户的计算机上、作为独立软件包、部分地在用户的计算机上并且部分地在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机,或者可以进行连接到外部计算机(例如,使用因特网服务提供商通过因特网)。
[0068] 在本文中参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图描述本发明的方面。将理解流程图和/或方框图的每个方框和流程图和/或方框图中的方框的组合可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。
[0069] 这些计算机程序指令也可以存储在计算机可读介质中,其可以指导计算机、其他可编程数据处理装置或其他设备以特定方式起作用,使得存储在计算机可读介质中的指令产生包括指令的制造品,所述指令实现在流程图和/或方框图的一个或多个方框中指定的功能/动作。
[0070] 计算机程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上以导致在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机执行过程使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的过程。
[0071] 图3是示出根据本发明的一些实施例的用于通过使用语料库从在主题词汇表中定义的术语的定义创建主题同义词的方法300的流程图。在方法300中,执行下面所述的步骤(步骤302-326)。按照它们的优选顺序阐述这些步骤。然而必须理解,各种步骤可以在相对于彼此不同于所示的时间发生,或者可以同时发生。而且,本领域的技术人员将领会可以省略步骤中的一个或多个。
[0072] 可选地,方法300可以开始于使用预选择技术来滤除坏匹配(步骤302)。如果使用,预选择技术例如可以通过将NLP技术(例如,术语匹配、单词位置等)应用于主题词汇表中的每个可能的同义词对丢弃主题词汇表中的绝大多数可能的同义词对而不在语料库中搜索。例如,同义词创建机构可以访问主题词汇表并且将每个候选同义词对的定义传到DeepQA引擎,其然后将NLP技术应用于定义(而不在语料库中搜索)并且将每个可能的同义词对的置信得分返回到同义词创建机构,其然后滤除坏匹配。如果不使用预选择技术并且在主题词汇表中定义的术语的数量为n,则均将需要在语料库中搜索(例如,下面所述的步骤310)的候选同义词对的数量为n2。也就是说,若没有预选择,候选同义词对的数量等于n2。预选择技术的使用可以显著地减小执行方法300所需的时间量,原因是均将需要在语料库中搜索(例如,下面所述的步骤310)的候选同义词对的数量大幅减小。也就是说,使用预选择,候选同义词对的数量远小于n2。下面参照图5描述示例性预选择技术500。
[0073] 方法300可以继续(如果使用预选择技术)或开始(如果不使用预选择技术)进行从主题词汇表提取初始术语X0的定义(步骤304)。例如,同义词创建机构可以访问具有在其中定义的n个术语(X0,X1,X2,…Xn)的主题词汇表并且提取初始术语X0的定义。本领域的技术人员将领会n个术语中的任何一个可以选择作为初始术语。
[0074] 接着,方法300创建包含初始术语X0并且基于初始术语X0的定义的陈述(步骤306)。例如,初始术语X0可以是“绝对零度”,包含初始术语X0的定义的主题词汇表如下:“绝对零度——物质可能存在的最低可能温度;0K,-273.15℃”。在步骤306中,同义词创建机构例如可以通过如下重新描述提取定义创建陈述:“绝对零度是物质可能存在的最低可能温度;
0K,-273.15℃”。
[0075] 在该例子中,主题词汇表具有n个术语(X0,X1,X2,…Xn)。相对于初始术语X0,主题词汇表具有可能是或不是同义词的n-1个候选术语(C0,C1,C2,…Cn-1)。该例子假设还未通过可选的预选择技术丢弃候选术语。n-1个候选术语(C0,C1,C2,…Cn-1)对应于术语(X1,X2,X3,…Xn)。初始术语X0与n-1个候选术语(C0,C1,C2,…Cn-1)的每一个形成候选同义词对。例如,初始术语X0和初始候选术语C0形成候选同义词对(X0,C0)。本领域的技术人员将领会n-1个术语的每一个可以选择作为初始候选术语。
[0076] 方法300然后使用初始候选术语C0修改陈述(步骤308)。例如,初始候选术语C0可以是“酸”。同义词创建机构例如可以从主题词汇表提取初始候选术语“酸”并且通过用初始候选术语C0(“酸”)替代初始术语X0(“绝对零度”)修改在步骤306中创建的陈述。在该情况下,修改的陈述将内容是:“酸是物质可能存在的最低可能温度;0K,-273.15℃”。
[0077] 方法300然后搜索语料库以便获得修改的陈述(在步骤308中创建)是准确的证据(步骤310)。例如,同义词创建机构可以将修改的陈述传到DeepQA引擎,其然后搜索数据和信息储存库以便获得修改的陈述(即,“酸是物质可能存在的最低可能温度;0K,-273.15℃”)是准确的证据。DeepQA引擎例如可以搜索数据和信息储存库以便获得包括存在于修改的陈述中的术语的段落。
[0078] 方法300然后基于修改的陈述是准确的证据(在步骤310中找到)确定和存储候选同义词对(X0,C0)的置信得分(步骤312)。例如,DeepQA引擎可以计算候选同义词对(X0,C0)的置信得分(例如,最后PTM得分)并且将置信得分传到同义词创建机构,其然后存储置信得分。DeepQA引擎例如可以使用段落术语匹配(PTM)来确定候选同义词对(X0,C0)的置信得分。例如,DeepQA引擎可以计算反映有多少术语在段落和修改的陈述之间匹配的每个段落的PTM得分,并且然后作为最高排名段落的集合上的加权和计算最后PTM得分。本领域的技术人员将领会可以作为PTM的代替或附加使用其他NLP技术(如词汇匹配、句法匹配等)。
[0079] 方法300然后确定初始候选术语C0(或当时候选术语C(0…(n-1)))是否是最后候选术语Cn-1(步骤314)。
[0080] 如果初始候选术语C0(或当时候选术语C(0…(n-1)))不是最后候选术语Cn-1(步骤314=否),方法300继续进行递增到下一候选术语并且返回步骤308(步骤316)。例如,在初始候选术语C0的情况下,方法300将候选术语递增到下一个候选术语C1。
[0081] 如果初始候选术语C0(或当时候选术语C(0…(n-1)))是最后候选术语Cn-1(步骤314=是),方法300继续进行步骤318。方法300然后确定初始术语X0(或当时术语X(0…n))是否是最后术语Xn(步骤318)。
[0082] 如果初始术语X0(或当时术语X(0…n))不是最后术语Xn(步骤318=否),方法300继续进行递增到下一术语并且返回步骤304(步骤320)。例如,在初始术语X0的情况下,方法300将术语递增到下一术语X1。
[0083] 如果初始术语X0(或当时术语X(0…n))是最后术语Xn(步骤318=是),方法300继续进行步骤322。方法300然后每个候选同义词对的总置信得分(TCS)(步骤322)。例如,方法300可以通过组合在步骤312中确定的包括相同的两个术语的置信得分计算每个候选同义词对的TCS(例如,TCS=置信得分(绝对零度,酸)+置信得分(酸,绝对零度);也就是,当在“绝对零度”的定义中替代“酸”时在步骤312中确定的置信得分和当在“酸”的定义中替代“绝对零度”时在步骤312中确定的置信得分的和。)
[0084] 方法300继续进行排名和分选每个候选同义词对的TCS(步骤324)。例如,方法300可以排名和分选总置信得分使得候选同义词对按照从最高TCS到最低TCS的它们的TCS的顺序列出。
[0085] 方法300结束于基于每个候选同义词对的TCS建立主题叙词表(步骤326)。例如,方法300可以使用选择技术,所述选择技术使用一个或多个阈值来建立主题叙词表。下面参照图4描述示例性选择技术400。
[0086] 图4是示出根据本发明的一些实施例的可以在图3中所示的方法中使用以建立主题叙词表的选择技术400(即,图3中的步骤326)的流程图。在选择技术400中,执行下面所述的步骤(步骤402-412)。按照它们的优选顺序阐述这些步骤。然而必须理解,各种步骤可以在相对于彼此不同于所示的时间发生,或者可以同时发生。而且,本领域的技术人员将领会可以省略步骤中的一个或多个。
[0087] 对于每个候选同义词对执行选择技术400,其使用两个阈值(即,阈值_A和阈值_B)来建立主题叙词表。
[0088] 选择技术400确定候选同义词对的TCS是否大于阈值_A(步骤404)。大于阈值_A的TCS高度地指示候选同义词对的术语确实是同义词。
[0089] 如果候选同义词对的TCS大于阈值_A(步骤404=是),选择技术400继续进行将候选同义词对标记为同义词(步骤406)。步骤406可以包括在主题叙词表中列出候选同义词对。
[0090] 如果候选同义词对不大于阈值_A(步骤404=否),选择技术400继续进行步骤408。选择技术然后确定候选同义词对的TCS是否大于阈值_B(步骤408)。大于阈值_B但是不大于阈值_A的中间范围内的TCS指示置信平不足以进行同义词确定。在该中间范围内,需要进一步考虑(例如,由人类主题专家复查)以进行同义词确定。
[0091] 如果候选同义词对的TCS大于阈值_B(步骤408=是),选择技术400继续进行将候选同义词对标记为同义词以便由人类主题专家复查(步骤410)。如果人类主题专家确定候选同义词对的术语确实是同义词,步骤410可以包括在主题叙词表中列出候选同义词对。该步骤可以由同义词创建机构协同人类主题专家执行。
[0092] 如果候选同义词对的TCS不大于阈值_B(步骤408=否),选择技术400继续进行步骤412。选择技术然后丢弃候选同义词对(步骤412)。不大于阈值_B的TCS高度地指示候选同义词对的术语不是同义词。
[0093] 阈值_A和阈值_B可以具有固定值或者可以是动态的。例如,可以使用利用若干已知的同义词对的机器学习技术确定阈值_A和/或阈值_B。下面参考图6描述示例性机器学习技术600。
[0094] 图5是示出根据本发明的一些实施例的可以在图3中所示的方法中使用以滤除坏匹配的预选择技术500(即,图3中的步骤302)的流程图。在预选择技术500中,执行下面所述的步骤(步骤502-520)。按照它们的优选顺序阐述这些步骤。然而必须理解,各种步骤可以在相对于彼此不同于所示的时间发生,或者可以同时发生。而且,本领域的技术人员将领会可以省略步骤中的一个或多个。
[0095] 预选择技术500开始于从主题词汇表提取初始术语X0的定义(步骤502)。例如,同义词创建机构可以访问具有在其中定义的n个术语(X0,X1,X2,…Xn)的主题词汇表并且提取初始术语X0的定义。本领域的技术人员将领会n个术语中的任何一个可以选择作为初始术语。
[0096] 例如,初始术语X0可以是“绝对零度”,包含初始术语X0的定义的主题词汇表如下:“绝对零度——物质可能存在的最低可能温度;0K,-273.15℃”。
[0097] 在该例子中,主题词汇表具有n个术语(X0,X1,X2,…Xn)。相对于初始术语X0,主题词汇表具有可能是或不是同义词的n-1个候选术语(C0,C1,C2,…Cn-1)。n-1个候选术语(C0,C1,C2,…Cn-1)对应于术语(X1,X2,X3,…Xn)。初始术语X0与n-1个候选术语(C0,C1,C2,…Cn-1)的每一个形成候选同义词对。例如,初始术语X0和初始候选术语C0形成候选同义词对(X0,C0)。本领域的技术人员将领会n-1个术语的每一个可以选择作为初始候选术语。
[0098] 预选择技术500继续进行从主题词汇表提取初始候选术语C0的定义(步骤504)。例如,同义词创建机构可以提取初始术语C0的定义。
[0099] 例如,初始候选术语C0可以是“酸”,包含初始候选术语C0的定义的主题词汇表如-7下:“酸——当溶解在水中时产生其中[H+]大于10 M的溶液的物质。例子:HCl,HNO3,H2CO3,CH3COOH”。
[0100] 预选择技术500然后使用一种或多种NLP技术分析初始术语X0的定义(“绝对零度——物质可能存在的最低可能温度;0K,-273.15℃”)和初始候选术语C0的定义(“酸——-7当溶解在水中时产生其中[H+]大于10 M的溶液的物质。例子:HCl,HNO3,H2CO3,CH3COOH”)(步骤506)。例如,同义词创建机构可以将定义传到DeepQA引擎,其然后使用一种或多种NLP技术(如术语匹配和单词位置)分析定义。
[0101] 预选择技术500然后基于在步骤506中执行的分析确定和存储候选同义词对(X0,C0)的置信得分(步骤508)。例如,DeepQA引擎可以计算候选同义词对(X0,C0)的置信得分并且将置信得分传到同义词创建机构,其然后存储置信得分。DeepQA引擎例如可以使用术语匹配来确定候选同义词对(X0,C0)的置信得分。例如,置信得分可以反映在两个定义中出现的术语的数量。本领域的技术人员将领会可以作为术语匹配的代替或附加使用其他NLP技术(如单词位置、n元语法分析,普通英语(或其他语言)同义词的扩展、缩略语扩展等)。
[0102] 预选择技术500然后确定初始候选术语C0(或当时候选术语C(0…(n-1)))是否是最后候选术语Cn-1(步骤510)。
[0103] 如果初始候选术语C0(或当时候选术语C(0…(n-1)))不是最后候选术语Cn-1(步骤510=否),预选择技术500继续进行递增到下一候选术语并且返回步骤504(步骤512)。例如,在初始候选术语C0的情况下,预选择技术500将候选术语递增到下一个候选术语C1。
[0104] 如果初始候选术语C0(或当时候选术语C(0…(n-1)))是最后候选术语Cn-1(步骤510=是),预选择技术500继续进行步骤514。预选择技术500然后确定初始术语X0(或当时术语X(0…n))是否是最后术语Xn(步骤514)。
[0105] 如果初始术语X0(或当时术语X(0…n))不是最后术语Xn(步骤514=否),预选择技术500继续进行递增到下一术语并且返回步骤502(步骤516)。例如,在初始术语X0的情况下,预选择技术500将术语递增到下一术语X1。
[0106] 如果初始术语X0(或当时术语X(0…n))是最后术语Xn(步骤514=是),预选择技术500继续进行步骤518。预选择技术500继续进行排名和分选每个候选同义词对的置信得分(步骤518)。例如,方法300可以排名和分选置信得分使得候选同义词对按照从最高置信得分到最低置信得分的它们的置信得分的顺序列出。
[0107] 预选择技术500结束于基于每个候选同义词对的置信得分滤除坏匹配(步骤520)。例如,预选择技术500可以使用阈值来滤除坏匹配。也就是说,可以在步骤520中丢弃具有低置信得分(即,反映没有或很少术语出现在两个定义中)的候选同义词对。
[0108] 图6是示出根据本发明的一些实施例的可以在图3中所示的方法中使用的用于计算阈值的机器学习技术600的流程图。在机器学习技术600中,执行下面所述的步骤(步骤602-634)。按照它们的优选顺序阐述这些步骤。然而必须理解,各种步骤可以在相对于彼此不同于所示的时间发生,或者可以同时发生。而且,本领域的技术人员将领会可以省略步骤中的一个或多个。
[0109] 机器学习技术600开始于访问在主题词汇表中定义的术语的已知的同义词对(和已知的非同义词对)的列表(步骤602)。例如,已知的同义词对(和已知的非同义词对)的列表可以由人类主题专家在复查主题词汇表中所定义的术语之后提供。
[0110] 机器学习技术600继续进行从主题词汇表提取初始已知的同义词对(X0,Y0)的第一术语X0的定义(步骤604)。
[0111] 接着,机器学习技术600创建包含初始已知的同义词对的第一术语X0并且基于第一术语X0的定义的陈述(步骤606)。
[0112] 机器学习技术600然后使用来自主题词汇表的初始已知的同义词对(X0,Y0)的第二术语Y0修改陈述(步骤608)。同义词创建机构例如可以从主题词汇表提取初始已知的同义词对的第二术语并且通过用初始已知的同义词对的第二术语Y0替代初始已知的同义词对的第一术语X0修改在步骤606中创建的陈述。
[0113] 机器学习技术600然后搜索语料库以便获得修改的陈述(在步骤608中创建)是准确的证据(步骤610)。例如,同义词创建机构可以将修改的陈述传到DeepQA引擎,其然后搜索数据和信息储存库以便获得修改的陈述是准确的证据。DeepQA引擎例如可以搜索数据和信息储存库以便获得包括存在于修改的陈述中的术语的段落。
[0114] 机器学习技术600然后基于修改的陈述是准确的证据(在步骤610中找到)确定和存储初始已知的同义词对的置信得分(X0,Y0)(步骤612)。例如,DeepQA引擎可以计算初始已知的同义词对的置信得分(例如,最后PTM得分)并且将置信得分传到同义词创建机构,其然后存储置信得分。DeepQA引擎例如可以使用段落术语匹配(PTM)来确定初始已知的同义词对的置信得分。例如,DeepQA引擎可以计算反映有多少术语在段落和修改的陈述之间匹配的每个段落的PTM得分,并且然后作为最高排名段落的集合上的加权和计算最后PTM得分。本领域的技术人员将领会可以作为PTM的代替或附加使用其他NLP技术(如词汇匹配、句法匹配等)。
[0115] 机器学习技术600然后从主题词汇表提取初始已知的同义词对(X0,Y0)的第二术语Y0的定义(步骤616)。
[0116] 接着,机器学习技术600创建包含初始已知的同义词对的第二术语Y0并且基于第二术语Y0的定义的陈述(步骤618)。
[0117] 机器学习技术600然后使用来自主题词汇表的初始已知的同义词对(X0,Y0)的第一术语X0修改陈述(步骤620)。同义词创建机构例如可以从主题词汇表提取初始已知的同义词对的第一术语并且通过用初始已知的同义词对的第一术语X0替代初始已知的同义词对的第二术语Y0修改在步骤618中创建的陈述。
[0118] 机器学习技术600然后搜索语料库以便获得修改的陈述(在步骤620中创建)是准确的证据(步骤622)。例如,同义词创建机构可以将修改的陈述传到DeepQA引擎,其然后搜索数据和信息储存库以便获得修改的陈述是准确的证据。DeepQA引擎例如可以搜索数据和信息储存库以便获得包括存在于修改的陈述中的术语的段落。
[0119] 机器学习技术600然后基于修改的陈述是准确的证据(在步骤622中找到)确定和存储初始已知的同义词对的置信得分(Y0,X0)(步骤624)。例如,DeepQA引擎可以计算初始已知的同义词对的置信得分(例如,最后PTM得分)并且将置信得分传到同义词创建机构,其然后存储置信得分。DeepQA引擎例如可以使用段落术语匹配(PTM)来确定初始已知的同义词对的置信得分。例如,DeepQA引擎可以计算反映有多少术语在段落和修改的陈述之间匹配的每个段落的PTM得分,并且然后作为最高排名段落的集合上的加权和计算最后PTM得分。本领域的技术人员将领会可以作为PTM的代替或附加使用其他NLP技术(如词汇匹配、句法匹配等)。
[0120] 机器学习技术600然后确定初始已知的同义词对(或当时已知的同义词对)是否是最后已知的同义词对(步骤626)。
[0121] 如果初始已知的同义词对(或当时已知的同义词对)不是最后已知的同义词对(步骤626=否),机器学习技术600继续进行递增到下一已知的同义词对并且返回步骤604(步骤628)。
[0122] 如果初始已知的同义词对(或当时已知的同义词对)是最后已知的同义词对(步骤626=是),机器学习技术600继续进行步骤630。机器学习技术600然后计算每个已知的同义词对的总置信得分(TCS)(步骤630)。例如,机器学习技术600可以通过组合在步骤612和624中确定的置信得分计算每个已知的同义词对的TCS(例如,TCS=置信得分(X0,Y0)+置信得分(Y0,X0);也就是,当在第二术语Y0的定义中替代第一术语X0时在步骤612中确定的置信得分和当在第一术语X0的定义中替代第二术语Y0时在步骤624中确定的置信得分的和。)[0123] 对于在主题词汇表中定义的术语的已知的非同义词对重复步骤604-630。
[0124] 机器学习技术600继续进行排名和分选每个已知的同义词对(和每个已知的非同义词对)的TCS(步骤632)。例如,机器学习技术600可以排名和分选置信得分使得已知的同义词对(和已知的非同义词对)按照从最高TCS到最低TCS的它们的TCS的顺序列出。
[0125] 机器学习技术600结束于基于每个已知的同义词对(和每个已知的非同义词对)的TCS计算阈值_A和阈值_B(步骤634)。机器学习技术600可以作为已知的同义词对的最低TCS计算阈值_A并且作为已知的非同义词对的中间TCS计算阈值_B。
[0126] 图中的流程图和方框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能性和操作。在这方面,流程图或方框图中的每个方框可以表示包括用于实现(一个或多个)指定逻辑功能的一个或多个可执行指令的模块、段或代码的一部分。也应当注意在一些替代的实现方式中,方框中所述的功能可以不按照图中所述的顺序发生。例如,取决于所涉及的功能性,连续显示的两个方框实际上可以基本同时执行,或者方框有时可以按照相反顺序执行。也将注意方框图和/或流程图的每个方框和方框图和/或流程图中的方框的组合可以由执行指定功能或动作的专用的基于硬件的系统或专用硬件和计算机指令的组合实现。
[0127] 本领域的技术人员将领会在本发明的范围内许多变化是可能的。因此,尽管已参照其特定实施例特别地显示和描述了本发明,但是本领域的技术人员将理解可以在其中进行形式和细节上的这些和其他变化而不脱离本发明的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈