首页 / 专利库 / 企业组织 / 术语学家 / 支持异构信息集成的乳腺钼靶报告语义树模型建立方法

支持异构信息集成的乳腺钼靶报告语义树模型建立方法

阅读:332发布:2020-05-15

专利汇可以提供支持异构信息集成的乳腺钼靶报告语义树模型建立方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种支持异构信息集成的乳腺钼靶报告语义树模型建立方法,其特征在于,包括以下步骤:形成 乳腺癌 钼靶影像表现文本描述的文本规范化 数据库 ;实时获取乳腺癌钼靶影像表现的文本描述,根据语义信息基于文本规范化数据库对文本描述进行短语的划分;获得实体的语义约束;形成文本描述的语义树。本发明通过构建乳腺钼靶语义树的方式实现将来自不同医院的、不同医生的、复杂的乳腺癌钼靶影像的文本信息结构化,实现异构信息的基于语义的集成。,下面是支持异构信息集成的乳腺钼靶报告语义树模型建立方法专利的具体信息内容。

1.一种支持异构信息集成的乳腺钼靶报告语义树模型建立方法,其特征在于,包括以下步骤:
步骤1、根据专家规则形成乳腺癌钼靶影像表现文本描述的文本规范化数据库,文本规范化数据库中存储有与乳腺癌钼靶影像表现文本描述相关的符合现行医学术语规范的短语;
步骤2、实时获取乳腺癌钼靶影像表现的文本描述,根据语义信息基于文本规范化数据库对文本描述进行短语的划分并且将不需要的冗余信息去除,提取与乳腺癌诊断相关的描述,划分各个实体的范围,其中,利用病灶的分类结果,将每一个病变作为一个实体;
步骤3、获得实体的语义约束;
步骤4、形成步骤2获得的文本描述的语义树,语义树的根节点为实体,语义树的内部节点是实体的每个属性,叶子节点为每个属性对应的属性描述。
2.如权利要求1所述的一种支持异构信息集成的乳腺钼靶报告语义树模型建立方法,其特征在于,还包括步骤5:
对上一步获得的语义树进行可视化展示。

说明书全文

支持异构信息集成的乳腺钼靶报告语义树模型建立方法

技术领域

[0001] 本发明涉及一种支持异构信息集成的乳腺钼靶报告语义树模型建立方法,属于医学文本结构化处理领域。

背景技术

[0002] 随着医疗信息化的高速发展,目前80%的医院已经完成了信息化服务建设。如今电子病历也已经代替了纸质病历,但不变的是患者的诊断报告仍旧是根据医生的知识以及工作经验借助自然语言对相关部位非结构化的描述,可自然语言却是计算机不能直接识别与处理的。
[0003] 文本结构化处理作为人工智能在医疗领域发展的关键,MedLEE(Medical Language Extraction and Encoding System)、UMLS(The Unified Medical Language System)等国外的自然语言处理系统已经很完善,但由于中文与英文在语义、语法结构上的巨大差异,对中文医学文本的可移植性较差。国内对医学文本结构化的研究起步较晚,借鉴了国外已有的技术也取得了许多突破性的进展,但对于乳腺钼靶影像诊断报告文本结构化的研究尚少。

发明内容

[0004] 本发明的目的是:提供一种乳腺钼靶影像诊断报告文本结构化处理方法。
[0005] 为了达到上述目的,本发明的技术方案是提供了一种支持异构信息集成的乳腺钼靶报告语义树模型建立方法,其特征在于,包括以下步骤:
[0006] 步骤1、根据专家规则形成乳腺癌钼靶影像表现文本描述的文本规范化数据库,文本规范化数据库中存储有与乳腺癌钼靶影像表现文本描述相关的符合现行医学术语规范的短语;
[0007] 步骤2、实时获取乳腺癌钼靶影像表现的文本描述,根据语义信息基于文本规范化数据库对文本描述进行短语的划分并且将不需要的冗余信息去除,提取与乳腺癌诊断相关的描述,划分各个实体的范围,其中,利用病灶的分类结果,将每一个病变作为一个实体;
[0008] 步骤3、获得实体的语义约束;
[0009] 步骤4、形成步骤2获得的文本描述的语义树,语义树的根节点为实体,语义树的内部节点是实体的每个属性,叶子节点为每个属性对应的属性描述。
[0010] 优选地,还包括步骤5:对上一步获得的语义树进行可视化展示。
[0011] 本发明通过构建乳腺钼靶语义树的方式实现将来自不同医院的、不同医生的、复杂的乳腺癌钼靶影像的文本信息结构化,实现异构信息的基于语义的集成。附图说明
[0012] 图1为中文乳腺钼靶影像表现文本语义树构建流程图,主要过程如下:输入待处理的乳腺钼靶影像文本;对文本进行分词;根据文本特点找出语义树的主要节点,并且利用其语义约束找到其叶子节点;根据输入顺序将语义树的节点挂上叶子节点,完成对该语义树的扫描。
[0013] 图2中文乳腺钼靶影像表现的文本分词样例,选取了一条乳腺癌目靶影像文本描述中的一个子句,进行分词的结果,从分词的结果,在不考虑省略的情况下,可以看出中文乳腺钼靶影像表现文本中一个子句的句法结构可以概括为位置+主语+谓词+不同属性描述。利用这样的结构可以快速找到对应于词语的类别。
[0014] 图3中文乳腺钼靶影像表现的语义树语义约束构造,是在进行了分词的基础上,将对于实体的相关描述根据其特点进行归类的结果。主要是利用词语的词性特点以及利用专家规则所构建的数据库中所存放的词语,对每一关键词语都赋予一个类别。将不需要的冗余词语丢弃。
[0015] 图4中文乳腺钼靶影像表现的语义树结构,根据一条乳腺癌钼靶影像文本描述中的一个子句,划分出的语义子树的构造。采用层次嵌套的方法,将实体逐级嵌套在所包含的层次中,在找到下一个实体前,不结束对于该实体的属性添加,对于忽略那些不存在的属性值。采用这样的方法所得到的每一棵语义树都是一个嵌套。

具体实施方式

[0016] 为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0017] 本发明提供的一种支持异构信息集成的乳腺钼靶报告语义树模型建立方法包括在医疗情景下针对真实世界表达的乳腺钼靶影像的文本描述构建相关语义树。构建中文乳腺钼靶影像表现语义树的主要包括以下步骤:根据专家规则形成乳腺癌钼靶影像表现文本描述的数据库;对于乳腺癌钼靶影像表现的文本描述利用先验知识来进行以病灶特征为划分手段的分词工作;利用上述特征将乳腺癌钼靶影像表现的文本描述中的实体进行语义约束;根据语义约束,将语义树中具有关系的节点相互联结,构成一棵完整的乳腺癌钼靶影像语义树。
[0018] 乳腺癌钼靶影像表现的文本规范化数据库
[0019] 首先,根据专家规则来构建乳腺癌钼靶影像表现描述的数据库。由于国内尚未就乳腺癌医疗影像描述形成统一的规范,我们需要分析不同放射科专业医师对于乳腺钼靶影像表现的描述。通过调研不同医院对于乳腺钼靶影像表现文本的不同结构并对其内容进行分析,得到符合现行医学术语规范的短语。借助以上方法将关于乳腺钼靶影像学表现的文本描述规范化,形成对于乳腺癌病征的标准统一描述。
[0020] 乳腺癌钼靶影像表现的文本分词
[0021] 对于输入的乳腺钼靶影像的文本描述根据语义信息来进行短语的划分并且将不需要的冗余信息去除,提取与乳腺癌诊断相关的重要描述。对于含义相近并属于对同一类描述的词语构建同义词库,保证对近义词的有效识别,增强语义树的可扩展性。通过对于影像文本的观察和总结,可以得出这样的结论:以实体为中心,实体之前是对其位置的描述,实体之后是对其各个属性特征的描述,因而可以较为快捷的划分各个实体的范围。由于医疗影像描述具有多名词、少动词、略主语等特点,尤其需要注意对于名词或名词性短语的区分。根据分词的语法特点可以将其划分为以下6类。
[0022]类别 编号
实体 1
谓语 2
属性 3
取值 4
量词 5
分布 6
[0023] 乳腺癌钼靶影像表现文本的语义约束
[0024] 通过前期调研了解乳腺钼靶影像表现的文本结构,利用病灶的分类结果,将每一个病变作为一个实体,按照内容划分,依据其不同特性,实体拥有不同的语义约束。体现在语义树上就是以叶子节点的形式。由于钼靶影像表现的文本描述一般会对皮肤等伴随征象进行描述,但对于恶性病灶仅在其出现时才会存在相关的表述,因而对于这类特征需要多加注意。最终得到的结果是综合考虑实际应用场景和乳腺钼靶影像文本描述中病灶的不同特征所得出的结果。
[0025] 乳腺癌钼靶影像表现文本的语义树构建
[0026] 通过语义约束,将语义树中不同实体之间、实体和其属性以及属性和其取值联系起来。需要注意文本中句法结构,经过分词后句中各个词语之间的联系。可能存在多个实体共享同一个属性特征描述的情况,也有可能存在单个实体的相同属性拥有多种描述。在此过程中不仅要考虑输入的乳腺钼靶影像文本描述中包含的逗号、句号以及连词等起到分隔作用的内容,还需要考虑上下文之间的关系,保证语义的完整流畅。
[0027] 乳腺癌钼靶影像表现文本的语义树可视化
[0028] 语义树可视化以较为直观的方式展现了乳腺癌钼靶影像表现文本结构化后的结果,可以便捷的展示钼靶影像表现文本的分类方式。语义树由于其树状的结构更加适用于可视化,而传统的输出方式难以清晰传达语义树的结构与内容。可视化的语义树也便于根据其不同特征进行查找和察看。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈