首页 / 专利库 / 诊断设备和程序 / 内镜检查 / 胶囊内窥镜检查报告文本结构化方法、设备及介质

胶囊内窥镜检查报告文本结构化方法、设备及介质

阅读:743发布:2020-05-11

专利汇可以提供胶囊内窥镜检查报告文本结构化方法、设备及介质专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种胶囊 内窥镜 检查报告文本结构化方法、设备及介质,所述方法包括:S1、采用标注模型对报告文本进行标注;S2、对报告文本标注完成后,按照标注信息对报告文本中的每一 命名实体 分类标签采用分级树型结构化的方式存储形成树型结构图;S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。本发明通过标注模型对胶囊 内镜检查 报告进行自动标注,并对不同信息量的参数采用不同的结构进行输出,对胶囊内镜检查过程及检查结果进行定量、精准的 质量 控制,为胶囊内窥镜的医疗信息 电子 化提供足够便利。,下面是胶囊内窥镜检查报告文本结构化方法、设备及介质专利的具体信息内容。

1.一种胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:
S1、采用标注模型对报告文本进行标注;
S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对应报告文本中每一命名实体分类标签的命名类别;
S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。
2.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中之一。
3.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S1中标注模型的获取方法具体包括:
M1、采用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经网络大模型;
初始的小模型和大模型具有相同的命名实体划分规则;分别采用小模型和大模型对当前的一组报告文本进行预标注;
M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文本;
M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。
4.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S1具体包括:
S11、对报告文本进行预处理,以将报告文本整理形成可识别的报告文本;
S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每一命名实体分类标签;
S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签和区别于命名实体分类标签的文本进行标注。
5.根据权利要求4所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S11对报告文本进行预处理具体包括:
基于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中的错别字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、无关字符、不规范描述。
6.根据权利要求4所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S12之前,所述方法还包括:建立命名实体划分规则;
所述命名实体划分规则包括:
建立命名实体分类标签和标注信息的对应关系,所述标注信息包括:器官,对应于器官的描述信息,对应于器官的异常结构,对应于异常结构的描述参数,以及时间参数标识。
7.根据权利要求4所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S13具体包括:将每一命名实体分类标签的首字符均采用第一前缀和标注信息结合的方式进行标注,将每一命名实体分类标签的非首字符均采用第二前缀和标注信息结合的方式进行标注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、第二前缀和第三前缀均不相同。
8.根据权利要求3所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,对每一组报告文本进行预标注过程中,所述方法还包括:
通过标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用去重处理保留一份进行预标注及审核校正。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述的胶囊内窥镜检查报告文本结构化方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的胶囊内窥镜检查报告文本结构化方法中的步骤。

说明书全文

胶囊内窥镜检查报告文本结构化方法、设备及介质

技术领域

[0001] 本发明涉及医疗器械领域,尤其涉及一种胶囊内窥镜检查报告文本结构化 方法、设备及介质。

背景技术

[0002] 胶囊内窥镜是一种医疗设备,胶囊内窥镜将摄像头、无线传输天线等核心 器件集成于一个可被人体吞咽的胶囊内,在进行检查过程中,将胶囊内窥镜吞 入体内,内窥镜在体内采集消化道图像并同步传送到体外,以根据获得的图像 数据进行医疗检查。
[0003] 胶囊内窥镜检查完成以后,会生成一个检查报告,包含检查所见、诊断结 果,以及建议等;由于每个医生的习惯不同,书写方式不同,导致每一份检查 报告都有所不同;另外,消化道医生少,医生工作量大,可能存在漏写以及错 写等;为了便于后续查阅及分析,通常需要将检查报告进行整理标注。
[0004] 现有技术中,通常采用人工标注的方式整理检查报告,浪费人,增加标 注成本,另外,经过标注后的报告文本仍然保持原始文本的排布方式,极大的 占用存储空间,且不利于报告的查询。

发明内容

[0005] 为解决上述技术问题,本发明的目的在于提供一种胶囊内窥镜检查报告文 本结构化方法、设备及介质。
[0006] 为了实现上述发明目的之一,本发明一实施方式提供一种胶囊内窥镜检查 报告文本结构化方法,所述方法包括:S1、采用标注模型对报告文本进行标注;
[0007] S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体 分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对 应报告文本中每一命名实体分类标签的命名类别;
[0008] S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结 构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和 时间参数面板表。
[0009] 作为本发明一实施方式的进一步改进,所述方法包括:S4、选择性输出树 型结构图、异常结构面板表和时间参数面板表至少其中之一。
[0010] 作为本发明一实施方式的进一步改进,步骤S1中标注模型的获取方法具体 包括:
[0011] M1、采用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经 网络大模型;初始的小模型和大模型具有相同的命名实体划分规则;分别采用 小模型和大模型对当前的一组报告文本进行预标注;
[0012] M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文 本;
[0013] M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
[0014] M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正 报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小 模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
[0015] M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划 分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组 报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文 本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。
[0016] 作为本发明一实施方式的进一步改进,步骤S1具体包括:
[0017] S11、对报告文本进行预处理,以将报告文本整理形成可识别的报告文本;
[0018] S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每 一命名实体分类标签;
[0019] S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签 和区别于命名实体分类标签的文本进行标注。
[0020] 作为本发明一实施方式的进一步改进,步骤S11对报告文本进行预处理具 体包括:
[0021] 基于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中 的错别字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、 无关字符、不规范描述。
[0022] 作为本发明一实施方式的进一步改进,步骤S12之前,所述方法还包括: 建立命名实体划分规则;
[0023] 所述命名实体划分规则包括:
[0024] 建立命名实体分类标签和标注信息的对应关系,所述标注信息包括:器官, 对应于器官的描述信息,对应于器官的异常结构,对应于异常结构的描述参数, 以及时间参数标识。
[0025] 作为本发明一实施方式的进一步改进,步骤S13具体包括:将每一命名实 体分类标签的首字符均采用第一前缀和标注信息结合的方式进行标注,将每一 命名实体分类标签的非首字符均采用第二前缀和标注信息结合的方式进行标 注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、第二前缀和 第三前缀均不相同。
[0026] 作为本发明一实施方式的进一步改进,对每一组报告文本进行预标注过程 中,所述方法还包括:
[0027] 通过标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用 去重处理保留一份进行预标注及审核校正。
[0028] 为了解决上述发明目的之一,本发明一实施方式提供一种电子设备,包括 存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所 述处理器执行所述程序时实现如上所述的胶囊内窥镜检查报告文本结构化方法 中的步骤。
[0029] 为了解决上述发明目的之一,本发明一实施方式提供一种计算机可读存储 介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述 的胶囊内窥镜检查报告文本结构化方法中的步骤。
[0030] 与现有技术相比,本发明的有益效果是:本发明的胶囊内窥镜检查报告文 本结构化方法、设备及介质,通过标注模型对胶囊内镜检查报告进行自动标注, 并对不同信息量的参数采用不同的结构进行输出,对胶囊内镜检查过程及检查 结果进行定量、精准的质量控制,为胶囊内窥镜的医疗信息电子化提供足够便 利。附图说明
[0031] 图1是本发明一实施方式提供的胶囊内窥镜检查报告文本结构化方法的流 程示意图;
[0032] 图2是图1中标注模型的获取方法的流程示意图;
[0033] 图3是本发明一具体示例中短句去重处理的结构示意图;
[0034] 图4图1中步骤S1的具体实现流程示意图;
[0035] 图5是本发明一具体示例中采用BIO标记方式对报告文本进行标注的结构 示意图;
[0036] 图6是本发明一具体示例形成的树型结构图;
[0037] 图7是本发明一具体示例形成的异常结构面板表;
[0038] 图8是本发明一具体示例形成的时间参数面板表。
[0039]
[0040]

具体实施方式

[0041] 以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施 方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、 方法、或功能上的变换均包含在本发明的保护范围内。
[0042] 如图1所示,本发明第一实施方式中提供一种胶囊内窥镜检查报告文本结 构化方法,所述方法包括:
[0043] S1、采用标注模型对报告文本进行标注;
[0044] S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体 分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对 应报告文本中每一命名实体分类标签的命名类别;
[0045] S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结 构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和 时间参数面板表。
[0046] S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中 之一。
[0047] 本发明具体实施方式中,基于模型部署性能考虑,采用BiLSTM+CRF结构的 小模型方案识别报告文本命名实体;兼顾模型准确率,采用准确率更高的BERT 结构大模型指导小模型的训练,迭代提高BiLSTM+CRF小模型的准确率。
[0048] 具体的,结合图2所示,步骤S1中标注模型的获取方法具体包括:M1、采 用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经网络大模型; 初始的小模型和大模型具有相同的命名实体划分规则;分别采用小模型和大模 型对当前的一组报告文本进行预标注;
[0049] M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文 本;
[0050] M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
[0051] M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正 报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小 模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
[0052] M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划 分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组 报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文 本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。
[0053] 本发明具体实现过程中,采用了基于TensorFlow框架的BiLSTM+CRF和 BERT两种不同规模的深度学习神经网络模型进行命名实体分类标签的识别处 理。
[0054] BiLSTM+CRF方案的模型较小,通常约5~6M,包含双向LSTM层和条件随机 场CRF层,可以学习获取上、下文语义信息以及词之间的转移概率,约束使得 命名实体分类标签符合合法性规则,能够以较高的准确率预测实体类型,经过 多轮迭代训练,验证集准确率由平均90%整体提升到约98%;本发明较佳实施方 式中,将BiLSTM+CRF的小模型经过多轮迭代训练以及BERT的大模型的知识迁 移后,可以加快BiLSTM+CRF的训练速度。
[0055] 在步骤M3中,BiLSTM+CRF模型使用对数似然损失函数进行优化,其可表 示为:L=-∑klog(p(yk|X))=-∑klog(softmax(S(X,yk)));其中,p(yk|X)为输入的报 告文本的命名实体分类标签对应的标注信息的类别向量X,例如:命名实体分 类标签“胃底”中的“胃”的标签为B-QG,对应的one-hot向量[1,0,0,...]、 模型识别命名实体后输出的类别logit向量yk,例如:命名实体分类标签“胃 底”中的“胃”的模型输出类别logit未归一化向量[1.35,0.23,-2.41,...]) 的最大似然概率;
[0056] S ( X ,y k ) 为 条 件 随 机 场 修 正 后 的 输 出 分 数 ,定 义 形 式 为 其中,tk(...)为依赖当前和前一位置的转 移特征函数,sl(...)为仅依赖当前节点位置的状态特征函数,vk,ul为对应的权 值,特征函数和权值通过模型训练优化自动学习获得。
[0057] 进一步的,BERT方案的模型较大,其base模型约400M,使用双向自注意 力机制的Transformer模提升表达能力,基于Google开放提供的、在大量中 文语料上训练的BERT中文预训练模型,在报告文本数据集上进行迁移微调训 练,验证集准确率约99%(与人工审核标注的独立样本进行比较)。BERT模型使 用交叉熵损失函数L=-∑kqklog(Pk)进行优化,其中qk为命名实体标注标签类别 的one-hot向量;例如:“胃底”中“胃”的标签为B-QG,对应的one-hot向 量[1,0,0,...]),Pk为模型识别命名实体输出的类别向量对应的softmax归一 化概率;例如:“胃底”中“胃”的模型输出类别归一化向量[0.92,0.05,
0,...]。
[0058] 本发明较佳实施方式中,BERT模型也被用于迭代流程中的自动预标注,辅 助训练BiLSTM+CRF模型。
[0059] 本发明具体实现过程中,早期阶段的自动预标注依赖于模型中预置的命名 实体划分规则匹配,基于规则的标注,具有较高的确定性和处理速度;然而, 规则标注的泛化力稍差,独立的规则之间可能存在部分重叠、冲突的情况;通 过多轮迭代方式逐步更新完善规则,基于规则标注的弱点可以被有效降低。
[0060] 进一步的,对每一组报告文本进行预标注过程中,所述方法还包括:通过 标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用去重处理 保留一份进行预标注及审核校正。
[0061] 相应的,通过胶囊内窥镜检查后获得的报告文本,其格式和术语描述相对 固定,不同病例报告文本可能存在较多的相同描述短句;针对原始报告文档进 行短句去重复处理,同时记录原报告文本中各短句的标识ID以及在原报告文本 中的位置信息,便于短句标注后的正确回填;采用去重复后的短句文本进行预 标注及医生人工审核,可以有效减少约75%的重复标记工作量,并能有效避免 原始报告文本中相同短句标注可能出现的不一致性,影响后续模型学习的效果。 完成预标注、审核校正后,将具有正确标注信息的短句按照事先存储的位置信 息,回填到原始的报告文本中,实现对原始报告文本的完整标注。
[0062] 结合图3所示,本发明一具体示例中,箭头之前的为未进行标注的文本, S1至S15为分割后形成的多个短句,对短句去重后,形成箭头之后的短句集。
[0063] 预标注可以以较高准确率识别命名实体分类标签,针对报告文本进行自动 化标注,使用标注模型可以节省约95%以上的人工标注工作量;随着命名实体 划分规则、模型的迭代升级,自动预标注的准确率可以达到约98%以上;另外, 使用命名实体划分规则、模型进行自动预标注,可以保证大量文本标注的一致 性,有效规避对大量文本数据进行人工标注所面临的个体差异和格漂移。
[0064] 在上述标注模型的获取过程中,人工辅助对预标注的报告文本进行审核并 校正错标、标记漏标;人工审核校正可以有效提高数据集的标注质量,有利于 模型学习训练的迭代升级。
[0065] 依据审核后的报告文本训练深度学习神经网络模型;由于深度学习神经网 络模型在自然语言处理领域具有较好的推理性能和泛化能力,在命名实体分类 标签识别任务上可以达到接近专业人工标注的准确率;使用大量、良好标注的 报告文本进行深度学习训练、验证,能够获得具备较高准确率和健壮性的神经 网络模型;通过训练好的模型对报告文本进行自动标注,可以有效提高文本结 构化的一致性、自动化程度和执行效率。
[0066] 本发一具体示例中,采用多轮迭代的方式,逐步建立和完善报告文本的命 名实体划分规则。经过4轮迭代标注,分批标注了24份、2059份、4950份、 4539份胶囊内镜实际病例检查报告。基于规则、模型的自动预标注,可以显著 降低人工重复标注成本;本发明较佳实施方式中,还采用人工辅助审核校正报 告文本,并将审核校正用于训练深度学习神经网络模型,便于模型部署后对新 的报告文本进行标注;通过多轮迭代验证,逐步完善了用于标注的命名实体划 分规则、优化了神经网络模型,模型能够以较高的准确率实现报告文本的标注 功能,确保后续文本结构化结果的质量。
[0067] 可以理解的是,在实际工程部署时,依据设备算力、用途的差异,可以选 择使用不同量级的深度学习神经网络模型进行命名实体分类标签识别。轻量级 模型(BiLSTM+CRF)方案可以在CPU上部署,能够应用于报告文本的在线结构 化和报告质量控制;重量级模型(BERT)在有GPU支持的条件下可以执行在线 任务,也能够以较高准确率针对海量汇集存档报告进行批量结构化处理,将结 构化后的结果归档入库,构建知识图谱。
[0068] 本发明具体实现过程中,结合图4所示,步骤S1具体包括:S11、对报告 文本进行预处理,以将报告文本整理形成可识别的报告文本;
[0069] S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每 一命名实体分类标签;
[0070] S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签 和区别于命名实体分类标签的文本进行标注。
[0071] 本发明一具体实施方式中,步骤S11对报告文本进行预处理具体包括:基 于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中的错别 字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、无关 字符、不规范描述等,以有效修正原始报告文本中的低级错误,提高报告文本 的质量和后续结构化结果的质量。例如:通过规则匹配,将“邹壁”修正为“皱 襞”、将“0。4cm”修正为“0.4cm”,将“1小时2345”修正为“1小时23分 45秒”等。当然,在本发明的具体实施方式中,初始状态下,会预先设定一组 规则,随着报告文本的迭代学习,规则也会随着变化,在此不做进一步的赘述。
[0072] 在步骤S12之前,所述方法还包括:建立命名实体划分规则;
[0073] 所述命名实体划分规则包括:建立命名实体分类标签和标注信息的对应关 系,所述标注信息包括:器官,对应于器官的描述信息,对应于器官的异常结 构,对应于异常结构的描述参数,以及时间参数标识;任一标注信息对应多个 所述命名实体分类标签。
[0074] 本发明具体实施方式中,所述标注信息还可以包括组织,属性、表现、测 量值、否定和错误文本等;所述标注信息会随着报告文本中各命名实体分类标 签的类别进行增加、减少、修改
[0075] 需要说明的是,通过胶囊内窥镜检查获得的报告文本,其通常被划分为几 个区块,每一区块描述具有不同的描述;如此,在本发明具体实施方式中,可 以针对区块建立对应于每个区块的命名实体划分规则;且对于每一区块,同步 或异步执行上述步骤,并分别按照其具体需求对应输出。例如:胶囊内窥镜检 查获得的报告通常分为:检查所见、检查结果、检查建议等描述区块,实际应 用中,可对每一区块分别进行结构化处理。
[0076] 本发明具体示例中,根据报告文本统计特征,将命名实体分类标签与标注 信息进行匹配,形成命名实体划分规则。具体的,所述器官包括具有上下级关 系的一级器官和二级器官;
[0077] 一级器官对应的命名实体分类标签包括:口腔、食道、胃、十二指肠、小 肠和大肠等;二级器官是一级器官的进一步细分;胃的二级器官对应的命名实 体分类标签包括:胃底、贲、胃体、胃、胃窦、幽门等;十二指肠的二级 器官对应的命名实体分类标签包括:球部、降部、平部、升部等;小肠的二 级器官对应的命名实体分类标签包括:空肠、回肠等;大肠的二级器官对应的 命名实体分类标签包括:盲肠、阑尾、结肠、直肠、肛管等。器官对应的描述 信息对应的命名实体分类标签包括:齿状线、粘液湖、粘膜、血管、淋巴管、 皱襞、上皮、球腔、肠腔、肠壁、绒毛等;对应于器官的异常结构对应的命名 实体分类标签包括:息肉、隆起、溃疡、增生、糜烂、充血、出血、水肿、红 肿、肿物、扩张、突起、凹陷、病变、瘤、炎症、畸形、结节、憩室、龛影、 寄生虫、静脉曲张、异常新生物等;异常结构的描述参数对应的命名实体分类 标签例如某一异常结构的尺寸,该尺寸可能具有多种表达方式,包括但不限于: 数字+中文(3.5*4.5毫米、0.8公分)、数字+英文(3.5*4.5mm)等类型及其变 体;
[0078] 标注类型为时间参数标识时,涉及到多种类型,例如:胶囊运行总时间、 进入器官时间、器官内运行时间、所见异常结构时间等,而对于每种类型其对 应的命名实体分类标签具有多种表达方式,包括但不限于:数值时间 (01:23:45)、数字中文时间(1小时23分45秒)、数字英文时间(1h23min45s) 等类型及其变体。
[0079] 本发明具体实施方式中,采用BIO标记方式对每一命名实体分类标签和区 别于命名实体分类标签的文本进行标注,如此,便于依据标注处理结果准确地定 位命名实体分类标签,避免相邻同类实体的混淆。具体的,步骤S13具体包括: 将每一命名实体分类标签的首字符均采用第一前缀和标注信息结合的方式进行 标注,将每一命名实体分类标签的非首字符均采用第二前缀和标注信息结合的 方式进行标注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、 第二前缀和第三前缀均不相同。
[0080] 结合图5所示,本发明具体示例中,标注信息具体划分为:器官、组织、 异常结构、属性、表现、测量值、时间、否定、其它,并对每一标注信息以字 母进行标识,其分别为:QG代表器官、ZZ代表组织、YCJG代表异常结构、SX 代表属性、BX代表表现、CLZ代表测量值、SJ代表时间、FD代表否定、None 代表其它。
[0081] 以搜寻后获得的第一命名实体分类标签“胃底”为例:“胃底”对应的标注 信息为器官,“胃”为首字符,其以“B-QG”进行标注,“底”为非首字符,其 以“I-QG”进行标注,“:”为标点符号,不是命名实体分类标签,在该示例中 以“None”进行标注。
[0082] 结合图6所示,对于步骤S2,对于标注信息划分为上级集关系或具有对应 关系的命名实体分类标签,其在存储及输出时,采用分级树型结构化的方式存 储形成树型结构图,以有效节省数据存储空间,提高数据检索提取效率;在图 6所示示例中,树型结构图将标注信息进行分级,其中一级器官、二级器官、 组织与异常结构逐步分级,子叶部分存储属性、表现等描述性文字。
[0083] 进一步的,对于步骤S3,结合图7所示,对于检出疑似阳性结果的异常结 构部分,需要引起特别重视,采用面板数据结构化,建立异常结构的出现部位 (一级器官部分、二级器官部位)、尺寸大小(异常结构的描述参数)结构化; 便于相关人员更直观地搜索、查看目标信息。
[0084] 结合图8所示,该具体示例的胶囊内窥镜检查的报告文本中的时间参数包 括:胶囊的总运行时间、部位(器官)、进入时间(进入器官时间),运行时间 (器官内运行时间);采用这些时间参数可能被用于操作质控、图像快速定位、 特定图像提取等;采用面板数据结构化,建立时间值相关的结构化,便于相关 人员更直观地搜索、查看目标信息。
[0085] 对于步骤S4,采用自然语言描述的报告文本经过结构化处理之后,报告文 本中的命名实体分类标签以较高准确度被分割,命名实体分类标签之间建立了 比较明确的逻辑关联。而在实际应用中,涉及从大量报告文本获取特定的目标 信息,例如:异常结构的相关统计、时间参数的统计等;上述图7、图8所示 示例即是目标信息提取的典型示例。
[0086] 另外,需要说明的使,其它任务涉及的目标信息,均可以按照类似的方式 从建立逻辑关联的树型结构化图中提取。
[0087] 较佳的,本发明一实施方式提供一种电子设备,包括存储器和处理器,所 述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程 序时实现如上所述的胶囊内窥镜检查报告文本结构化方法中的步骤。
[0088] 较佳的,本发明一实施方式还提供一种计算机可读存储介质,其上存储有 计算机程序,所述计算机程序被处理器执行时实现如上所述的胶囊内窥镜检查 报告文本结构化方法中的步骤。
[0089] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述 的电子设备以及可存储介质的具体工作过程,可以参考前述方法实施方式中的 对应过程,在此不再赘述。
[0090] 综上所述,本发明的胶囊内窥镜检查报告文本结构化方法、设备及介质, 通过标注模型对胶囊内镜检查报告进行自动标注,并对不同信息量的参数采用 不同的结构进行输出,对胶囊内镜检查过程及检查结果进行定量、精准的质量 控制,为胶囊内窥镜的医疗信息电子化提供足够便利。
[0091] 应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅 包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域 技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当 组合,形成本领域技术人员可以理解的其他实施方式。
[0092] 上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具 体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作 的等效实施方式或变更均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈