临床知识问答方法、装置、电子设备及存储介质

申请号 CN202311725085.5 申请日 2023-12-14 公开(公告)号 CN117891907A 公开(公告)日 2024-04-16
申请人 中国科学院自动化研究所; 发明人 杨雪冰; 孙孟轩; 李明达; 牛景昊; 张文生;
摘要 本 发明 提供一种临床知识问答方法、装置、 电子 设备及存储介质,应用于临床医疗技术领域。该方法包括:获取目标患者的患者标识和临床知识查询文本;根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
权利要求

1.一种临床知识问答方法,其特征在于,包括:
获取目标患者的患者标识和临床知识查询文本;
根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;
计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;
将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;
其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
2.根据权利要求1所述的临床知识问答方法,其特征在于,所述临床知识查询文本包括关系提问词;
所述根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径,包括:
根据所述患者标识和所述临床知识查询文本确定知识图谱子图;
从所述知识图谱子图中确定包含所述关系提问词的医疗知识路径,得到所述M个医疗知识路径。
3.根据权利要求2所述的临床知识问答方法,其特征在于,所述根据所述患者标识和所述临床知识查询文本确定知识图谱子图,包括:
根据所述患者标识和所述临床知识查询文本确定K个疾病实体命名;
对所述K个疾病实体命名进行标准化编码和目标语言映射,得到L个疾病实体命名;
以所述L个疾病实体命名为中心从医疗百科知识图谱中确定所述知识图谱子图;
其中,K、L均为正整数,且K大于或等于L,所述医疗百科知识图谱对应所述目标语言。
4.根据权利要求3所述的临床知识问答方法,其特征在于,所述K个疾病实体命名包括第一疾病实体命名和第二疾病实体命名;所述临床知识查询文本还包括医疗实体命名;
所述根据所述患者标识和所述临床知识查询文本确定K个疾病实体命名,包括:
根据所述患者标识确定所述目标患者的诊疗信息;
基于所述诊疗信息确定相似患者对应的疾病实体命名,得到所述第一疾病实体命名;
基于所述医疗实体命名和所述诊疗信息确定所述第二疾病实体命名。
5.根据权利要求1所述的临床知识问答方法,其特征在于,所述M个医疗知识路径包括目标路径,所述目标路径包括Q个关系词;
所述计算所述临床知识查询文本与每个医疗知识路径的路径相似度,包括:
确定所述临床知识查询文本的关键词词袋表示;
计算每个关系词与所述关键词词袋表示的匹配值,并按照所述匹配值从高到低的顺序从所述Q个关系词中确定W个关系词;
根据所述W个关系词确定所述临床知识查询文本与所述目标路径的路径相似度;
其中,Q、W均为正整数,且Q大于或等于W。
6.根据权利要求5所述的临床知识问答方法,其特征在于,所述计算每个关系词与所述关键词词袋表示的匹配值,包括:
确定关系词与所述关键词词袋表示的单词相似度评分和2‑gram相似度评分;
将所述单词相似度评分和所述2‑gram相似度评分的平均值确定为关系词与所述关键词词袋表示的匹配值。
7.根据权利要求1所述的临床知识问答方法,其特征在于,所述将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本,包括:
基于答案评分模型确定每个医疗知识路径与所述临床知识查询文本的语义匹配度;
其中,所述答案评分模型采用负采样损失计算方式进行参数优化。
8.一种临床知识问答装置,其特征在于,包括:获取模和处理模块;
所述获取模块,用于获取目标患者的患者标识和临床知识查询文本;
所述处理模块,用于根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;
其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的临床知识问答方法中的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的临床知识问答方法中的步骤。

说明书全文

临床知识问答方法、装置、电子设备及存储介质

技术领域

[0001] 本发明涉及临床医疗技术领域,尤其涉及一种临床知识问答方法、装置、电子设备及存储介质。

背景技术

[0002] 在医疗领域,临床知识问答系统在协助医生和临床决策方面具有重要作用。
[0003] 现有技术中,通常是利用医疗百科知识图谱来支持临床知识问答系统。
[0004] 然而,由于医疗百科知识图谱的知识体系十分庞大,因此在查询速度和查询答案的准确度上很难达到平衡。

发明内容

[0005] 本发明提供一种临床知识问答方法、装置、电子设备及存储介质,用以解决现有技术中临床知识问答系统在查询速度和查询答案的准确度上很难达到平衡的问题。
[0006] 本发明提供一种临床知识问答方法,包括:获取目标患者的患者标识和临床知识查询文本;根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
[0007] 根据本发明提供一种的临床知识问答方法,所述临床知识查询文本包括关系提问词;所述根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径,包括:根据所述患者标识和所述临床知识查询文本确定知识图谱子图;从所述知识图谱子图中确定包含所述关系提问词的医疗知识路径,得到所述M个医疗知识路径。
[0008] 根据本发明提供一种的临床知识问答方法,所述根据所述患者标识和所述临床知识查询文本确定知识图谱子图,包括:根据所述患者标识和所述临床知识查询文本确定K个疾病实体命名;对所述K个疾病实体命名进行标准化编码和目标语言映射,得到L个疾病实体命名;以所述L个疾病实体命名为中心从医疗百科知识图谱中确定所述知识图谱子图;其中,K、L均为正整数,且K大于或等于L,所述医疗百科知识图谱对应所述目标语言。
[0009] 根据本发明提供一种的临床知识问答方法,所述K个疾病实体命名包括第一疾病实体命名和第二疾病实体命名;所述临床知识查询文本还包括医疗实体命名;所述根据所述患者标识和所述临床知识查询文本确定K个疾病实体命名,包括:根据所述患者标识确定所述目标患者的诊疗信息;基于所述诊疗信息确定相似患者对应的疾病实体命名,得到所述第一疾病实体命名;基于所述医疗实体命名和所述诊疗信息确定所述第二疾病实体命名。
[0010] 根据本发明提供一种的临床知识问答方法,所述M个医疗知识路径包括目标路径,所述目标路径包括Q个关系词;所述计算所述临床知识查询文本与每个医疗知识路径的路径相似度,包括:确定所述临床知识查询文本的关键词词袋表示;计算每个关系词与所述关键词词袋表示的匹配值,并按照所述匹配值从高到低的顺序从所述Q个关系词中确定W个关系词;根据所述W个关系词确定所述临床知识查询文本与所述目标路径的路径相似度;其中,Q、W均为正整数,且Q大于或等于W。
[0011] 根据本发明提供一种的临床知识问答方法,所述计算每个关系词与所述关键词词袋表示的匹配值,包括:确定关系词与所述关键词词袋表示的单词相似度评分和2‑gram相似度评分;将所述单词相似度评分和所述2‑gram相似度评分的平均值确定为关系词与所述关键词词袋表示的匹配值。
[0012] 根据本发明提供一种的临床知识问答方法,所述将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本,包括:基于答案评分模型确定每个医疗知识路径与所述临床知识查询文本的语义匹配度;其中,所述答案评分模型采用负采样损失计算方式进行参数优化。
[0013] 本发明还提供一种临床知识问答装置,包括:获取模和处理模块;所述获取模块,用于获取目标患者的患者标识和临床知识查询文本;所述处理模块,用于根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
[0014] 根据本发明提供一种的临床知识问答装置,所述临床知识查询文本包括关系提问词;所述处理模块用于:根据所述患者标识和所述临床知识查询文本确定知识图谱子图;从所述知识图谱子图中确定包含所述关系提问词的医疗知识路径,得到所述M个医疗知识路径。
[0015] 根据本发明提供一种的临床知识问答装置,所述处理模块用于:根据所述患者标识和所述临床知识查询文本确定K个疾病实体命名;对所述K个疾病实体命名进行标准化编码和目标语言映射,得到L个疾病实体命名;以所述L个疾病实体命名为中心从医疗百科知识图谱中确定所述知识图谱子图;其中,K、L均为正整数,且K大于或等于L,所述医疗百科知识图谱对应所述目标语言。
[0016] 根据本发明提供一种的临床知识问答装置,所述K个疾病实体命名包括第一疾病实体命名和第二疾病实体命名;所述临床知识查询文本还包括医疗实体命名;所述处理模块用于:根据所述患者标识确定所述目标患者的诊疗信息;基于所述诊疗信息确定相似患者对应的疾病实体命名,得到所述第一疾病实体命名;基于所述医疗实体命名和所述诊疗信息确定所述第二疾病实体命名。
[0017] 根据本发明提供一种的临床知识问答装置,所述M个医疗知识路径包括目标路径,所述目标路径包括Q个关系词;所述处理模块用于:确定所述临床知识查询文本的关键词词袋表示;计算每个关系词与所述关键词词袋表示的匹配值,并按照所述匹配值从高到低的顺序从所述Q个关系词中确定W个关系词;根据所述W个关系词确定所述临床知识查询文本与所述目标路径的路径相似度;其中,Q、W均为正整数,且Q大于或等于W。
[0018] 根据本发明提供一种的临床知识问答装置,所述处理模块用于:确定关系词与所述关键词词袋表示的单词相似度评分和2‑gram相似度评分;将所述单词相似度评分和所述2‑gram相似度评分的平均值确定为关系词与所述关键词词袋表示的匹配值。
[0019] 根据本发明提供一种的临床知识问答装置,所述处理模块用于:基于答案评分模型确定每个医疗知识路径与所述临床知识查询文本的语义匹配度;其中,所述答案评分模型采用负采样损失计算方式进行参数优化。
[0020] 本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述临床知识问答方法的步骤。
[0021] 本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述临床知识问答方法的步骤。
[0022] 本发明提供的临床知识问答方法、装置、电子设备及存储介质,可以获取目标患者的患者标识和临床知识查询文本;根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。通过该方案,可以先基于临床知识查询文本与每个医疗知识路径的路径相似度对M个医疗知识路径进行筛选得到路径相似度最高的N个医疗知识路径,再从N个医疗知识路径中筛选语义匹配度最高的路径作为临床知识答案文本,由于M大于N,且路径相似度的计算速度大于语义匹配度的计算速度,因此通过两个阶段的答案筛选,可以在保证答案准确性的基础上提高系统响应速度,从而实现系统响应速度和答案准确性之间的平衡。附图说明
[0023] 为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024] 图1是本发明提供的临床知识问答方法的流程示意图之一;
[0025] 图2是本发明提供的临床知识问答方法的流程示意图之二;
[0026] 图3是本发明提供的临床知识问答方法的流程示意图之三;
[0027] 图4是本发明提供的临床知识问答方法的流程示意图之四;
[0028] 图5是本发明提供的临床知识问答装置的结构示意图;
[0029] 图6是本发明提供的电子设备的结构示意图。

具体实施方式

[0030] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031] 需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
[0032] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0033] 为了便于清楚描述本发明实施例的技术方案,在本发明实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
[0034] 本发明实施例为了阐释的目的而描述了一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。
[0035] 下面结合具体实施例和附图对上述实现方式进行详细的阐述。
[0036] 如图1所示,本发明实施例提供一种临床知识问答方法,该临床知识问答方法可以应用于临床知识问答装置。该临床知识问答方法可以包括S101‑S104:
[0037] S101、临床知识问答装置获取目标患者的患者标识和临床知识查询文本。
[0038] 用户可以在临床知识问答装置上进行第一输入,临床知识问答装置可以响应于该第一输入,确定患者标识和临床知识查询文本。该患者标识用于指示患者的身份信息,该临床知识查询文本用于指示想要查询的临床知识。
[0039] 示例性地,患者或医生在装置上发起提问后,临床知识问答装置可以向服务器端发送一个HTTP请求,其中,患者ID信息可以以参数形式封装在该HTTP请求中,例如,该HTTP请求可以为:{ID:100011,query:“病毒性感冒有哪些并发症?”}。
[0040] 需要说明的是,本申请实施例不对上述临床知识查询文本对应的语言进行限定,其可以为中文,也可以为其他外语。
[0041] 可选地,上述临床知识查询文本可以包括医疗实体命名和关系提问词。该医疗实体命名可以包括疾病实体命名、药物实体命名以及检查实体命名等,该关系提问词可以包括关系词。例如,在临床知识查询文本为“病毒性感冒有哪些并发症?”的情况下,医疗实体命名可以为“病毒性感冒”,关系提问词可以为“哪些并发症”。
[0042] 可选地,临床知识问答装置可以包括医疗实体命名提取模块和关系提问词提取模块,临床知识问答装置可以通过医疗实体命名提取模块提取临床知识查询文本中的医疗实体命名,通过关系提问词提取模块提取临床知识查询文本中的关系提问词。
[0043] S102、临床知识问答装置根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径。
[0044] 其中,M为正整数。
[0045] 可选地,临床知识问答装置可以先根据患者标识和临床知识查询文本确定K个疾病实体命名,再通过命名统一化处理确定L个疾病实体命名,并根据该L个疾病实体命名从医疗百科知识图谱中确定知识图谱子图,最后从知识图谱子图中确定M个医疗知识路径。其中,K、L均为正整数,且K大于或等于L。
[0046] 可选地,K个疾病实体命名包括第一疾病实体命名和第二疾病实体命名。临床知识问答装置确定K个疾病实体命名的步骤包括:临床知识问答装置可以根据所述患者标识确定所述目标患者的诊疗信息;基于所述诊疗信息确定相似患者对应的疾病实体命名,得到所述第一疾病实体命名;基于所述医疗实体命名和所述诊疗信息确定所述第二疾病实体命名。
[0047] 具体地,如图2所示,临床知识问答装置可以根据患者标识从病例图谱中确定目标患者的诊疗信息,该病例图谱是一种用三元组形式记录患者健康信息的数据库,该诊疗信息可以包括诊断、用药、检查等信息。然后将该诊疗信息表示为Multi‑hot向量,之后,基于该Multi‑hot向量在病例图谱中搜索诊疗信息相似度最大的、预设数量的相似患者,例如,可以确定诊疗信息相似度最大10个相似患者。并确定这些相似患者对应的疾病实体命名以得到第一疾病实体命名。临床知识问答装置还可以基于临床知识查询文本中的医疗实体命名和目标患者的诊疗信息确定第二疾病实体命名。也就是说,临床知识问答装置可以确定目标患者病例中的疾病实体命名、可以确定相似患者病例中的疾病实体命名、以及临床知识查询文本中涉及的疾病实体命名。
[0048] 可选地,临床知识问答装置确定知识图谱子图的步骤包括:临床知识问答装置根据患者标识和临床知识查询文本确定K个疾病实体命名后,可以再对所述K个疾病实体命名进行标准化编码和目标语言映射,得到L个疾病实体命名;最后以所述L个疾病实体命名为中心从医疗百科知识图谱中确定所述知识图谱子图,所述医疗百科知识图谱对应所述目标语言。
[0049] 具体地,在临床知识查询文本、病例图谱和医疗百科知识图谱对应不同语言的情况下,同一个疾病可能对应多个疾病实体命名,因此,在确定知识图谱子图之前,需要先对K个疾病实体命名进行命名统一化处理。如图2所示,临床知识问答装置可以将K个疾病实体命名映射到标准化编码ICD10或SNOMED‑CT上,ICD10与SNOMED‑CT编码体系是两种对于疾病分类的不同体系结构,自顶向下以多层结构对已发现的疾病进行组织,同时给出标准化编码。然后,根据标准化后的疾病编码生成目标语言的疾病实体命名,并将该目标语言的疾病实体命名与医疗百科知识图谱中的所有候选疾病实体命名进行字符串相似度匹配,以最相似的实体作为对齐后的疾病实体命名,从而得到L个疾病实体命名。之后,遍历L个疾病实体命名,以每个疾病实体命名为中心,从医疗百科知识图谱中获取三跳以内的所有事实三元组返回,得到问句激活的知识图谱子图。
[0050] 基于上述方案,由于可以对K个疾病实体命名进行标准化编码和目标语言映射,因此,即使临床知识查询文本、病例图谱对应的语言与医疗百科知识图谱对应的语言不同,也可以实现跨语言临床知识问答,如此,不仅可以解除知识问答过程中的语言限制,还可以解决因命名差异导致的答案不准确的问题,从而提高疾病实体对齐的准确性和鲁棒性。
[0051] 示例性地,以映射到标准化编码ICD10为例。临床知识问答装置可以将疾病实体命名与ICD10底层的术语分别计算字符串匹配距离(如Levenshtein距离),并将阈值小于0.2的候选ICD10实体中距离最小的返回作为疾病实体命名的标准化结果。若无结果返回,则将疾病实体命名与上一级ICD10实体进行匹配,以此类推。
[0052] 可选地,临床知识问答装置确定M个医疗知识路径的步骤包括:临床知识问答装置根据所述患者标识和所述临床知识查询文本确定知识图谱子图后;可以从所述知识图谱子图中确定包含所述关系提问词的医疗知识路径,从而得到所述M个医疗知识路径。
[0053] 具体地,如图2所示,临床知识问答装置可以遍历L个疾病实体命名,根据知识图谱子图生成以每个疾病实体命名为起点的、包括关系提问词的有向关系路径,同时删除不包含候选关系词的路径,从而得到M个医疗知识路径。
[0054] S103、临床知识问答装置计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径。
[0055] 其中,N为正整数,且M大于N。
[0056] 可选地,M个医疗知识路径包括目标路径,所述目标路径包括Q个关系词。临床知识问答装置计算临床知识查询文本与每个医疗知识路径的路径相似度,包括:确定所述临床知识查询文本的关键词词袋表示;计算每个关系词与所述关键词词袋表示的匹配值,并按照所述匹配值从高到低的顺序从所述Q个关系词中确定W个关系词;根据所述W个关系词确定所述临床知识查询文本与所述目标路径的路径相似度;其中,Q、W均为正整数,且Q大于或等于W。
[0057] 可选地,临床知识问答装置可以确定关系词与所述关键词词袋表示的单词相似度评分和2‑gram相似度评分;将所述单词相似度评分和所述2‑gram相似度评分的平均值确定为关系词与所述关键词词袋表示的匹配值。
[0058] 具体地,如图3所示,临床知识问答装置可以对临床知识查询文本进行分词处理和去停用词处理,从而得到关键词词袋表示。然后计算Q个关系词中每个关系词与该关键词词袋表示的匹配值。其中,单词相似度评分的计算方式可以采用最大公共子串比例,临床知识查询文本的关键词词袋表示为s={w1,w2,…,w|s|},关系词ri的单词相似度评分可以表示为下述公式(1),关系词ri的2‑gram相似度评分可以表示为下述公式(2),关系词ri与关键词词袋表示s的匹配值可以表示为下述公式(3):
[0059]
[0060] 其中,Common(ri,wj)表示ri与s的最大公共子串;
[0061]
[0062]
[0063] 之后,临床知识问答装置可以根据RelSim(s,ri)的排序结果,按照从高到低的顺序从所述Q个关系词中确定W个关系词。然后,临床知识问答装置可以基于W个关系词,通过下述公式(4)计算临床知识查询文本与目标路径的路径相似度。
[0064]
[0065] 在确定临床知识查询文本与M个医疗知识路径中每个路径的路径相似度后,临床知识问答装置可以根据路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径。
[0066] S104、临床知识问答装置将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本。
[0067] 其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度。
[0068] 可选地,临床知识问答装置可以基于答案评分模型确定每个医疗知识路径与所述临床知识查询文本的语义匹配度;其中,所述答案评分模型采用负采样损失计算方式进行参数优化。
[0069] 具体地,如图4所示,临床知识问答装置可以将临床知识查询文本与每个医疗知识路径进行拼接处理后作为答案评分模型的输入向量,该输入向量包括词嵌入向量和位置嵌入向量,答案评分模型可以输出临床知识查询文本与对应医疗知识路径的语义匹配度。临床知识问答装置可以将语义匹配度最高的医疗知识路径作为临床知识答案文本。其中,临床知识查询文本q与对应医疗知识路径y的语义匹配度可以通过下述公式(5)表示,临床知识答案文本 可以通过下述公式(6)表示:
[0070]
[0071]
[0072] 可选地,由于临床知识查询文本与医疗知识路径的语义匹配度并不存在真实标签值,因而无法通过回归方法进行模型参数优化。如图4所示,在本发明实施例中,临床知识问+ +答装置可以采用负采样损失计算方式进行模型参数优化。模型训练集为D={(q,y)},y 表示临床知识查询文本q的真实医疗知识路径,在进行模型训练时,可以按照预设比例从候选‑
医疗知识路径中随机采样错误答案,得到的集合记为A,临床知识查询文本q与对应医疗知识路径y的语义匹配度可以定义为下述公式(7),损失函数可以定义为下述公式(8):
[0073]
[0074]
[0075] 可选地,临床知识问答装置可以采用一阶梯度优化器Adam进行网络参数的优化。
[0076] 本发明实施例中,可以先基于临床知识查询文本与每个医疗知识路径的路径相似度对M个医疗知识路径进行筛选得到路径相似度最高的N个医疗知识路径,再从N个医疗知识路径中筛选语义匹配度最高的路径作为临床知识答案文本,由于M大于N,且路径相似度的计算速度大于语义匹配度的计算速度,因此通过两个阶段的答案筛选,可以在保证答案准确性的基础上提高系统响应速度,从而实现系统响应速度和答案准确性之间的平衡。
[0077] 上述主要从方法的度对本发明实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0078] 本发明实施例提供的临床知识问答方法,执行主体可以为临床知识问答装置,或者该临床知识问答装置中的用于临床知识问答的控制模块。本发明实施例中以临床知识问答装置执行临床知识问答方法为例,说明本发明实施例提供的临床知识问答装置。
[0079] 需要说明的是,本发明实施例可以根据上述方法示例对临床知识问答装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0080] 如图5所示,本发明实施例提供一种临床知识问答装置500。该临床知识问答装置500包括:获取模块501和处理模块502。所述获取模块501,用于获取目标患者的患者标识和临床知识查询文本;所述处理模块502,用于根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
[0081] 可选地,所述临床知识查询文本包括关系提问词;所述处理模块502用于:根据所述患者标识和所述临床知识查询文本确定知识图谱子图;从所述知识图谱子图中确定包含所述关系提问词的医疗知识路径,得到所述M个医疗知识路径。
[0082] 可选地,所述处理模块502用于:根据所述患者标识和所述临床知识查询文本确定K个疾病实体命名;对所述K个疾病实体命名进行标准化编码和目标语言映射,得到L个疾病实体命名;以所述L个疾病实体命名为中心从医疗百科知识图谱中确定所述知识图谱子图;其中,K、L均为正整数,且K大于或等于L,所述医疗百科知识图谱对应所述目标语言。
[0083] 可选地,所述K个疾病实体命名包括第一疾病实体命名和第二疾病实体命名;所述临床知识查询文本还包括医疗实体命名;所述处理模块502用于:根据所述患者标识确定所述目标患者的诊疗信息;基于所述诊疗信息确定相似患者对应的疾病实体命名,得到所述第一疾病实体命名;基于所述医疗实体命名和所述诊疗信息确定所述第二疾病实体命名。
[0084] 可选地,所述M个医疗知识路径包括目标路径,所述目标路径包括Q个关系词;所述处理模块502用于:确定所述临床知识查询文本的关键词词袋表示;计算每个关系词与所述关键词词袋表示的匹配值,并按照所述匹配值从高到低的顺序从所述Q个关系词中确定W个关系词;根据所述W个关系词确定所述临床知识查询文本与所述目标路径的路径相似度;其中,Q、W均为正整数,且Q大于或等于W。
[0085] 可选地,所述处理模块502用于:确定关系词与所述关键词词袋表示的单词相似度评分和2‑gram相似度评分;将所述单词相似度评分和所述2‑gram相似度评分的平均值确定为关系词与所述关键词词袋表示的匹配值。
[0086] 可选地,所述处理模块502用于:基于答案评分模型确定每个医疗知识路径与所述临床知识查询文本的语义匹配度;其中,所述答案评分模型采用负采样损失计算方式进行参数优化。
[0087] 本发明实施例中,可以先基于临床知识查询文本与每个医疗知识路径的路径相似度对M个医疗知识路径进行筛选得到路径相似度最高的N个医疗知识路径,再从N个医疗知识路径中筛选语义匹配度最高的路径作为临床知识答案文本,由于M大于N,且路径相似度的计算速度大于语义匹配度的计算速度,因此通过两个阶段的答案筛选,可以在保证答案准确性的基础上提高系统响应速度,从而实现系统响应速度和答案准确性之间的平衡。
[0088] 图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行临床知识问答方法,该方法包括:获取目标患者的患者标识和临床知识查询文本;根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
[0089] 此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0090] 另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的临床知识问答方法,该方法包括:获取目标患者的患者标识和临床知识查询文本;根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
[0091] 又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的临床知识问答方法,该方法包括:获取目标患者的患者标识和临床知识查询文本;根据所述患者标识和所述临床知识查询文本从医疗百科知识图谱中确定M个医疗知识路径;计算所述临床知识查询文本与每个医疗知识路径的路径相似度,并根据所述路径相似度对所述M个医疗知识路径进行排序和筛选,得到路径相似度最高的N个医疗知识路径;将所述N个医疗知识路径中与所述临床知识查询文本的语义匹配度最高的医疗知识路径作为临床知识答案文本;其中,所述路径相似度的计算速度大于所述语义匹配度的计算速度,M、N均为正整数,且M大于N。
[0092] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0093] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0094] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
QQ群二维码
意见反馈