首页 / 专利库 / 视听技术与设备 / 统计变换 / 一种数字病理全切片图像检索方法

一种数字病理全切片图像检索方法

阅读:1025发布:2020-05-27

专利汇可以提供一种数字病理全切片图像检索方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种数字病理全切片图像检索方法,具体包括以下步骤:步骤1:图像预备处理,步骤2:提取图像特征步骤3:构建视觉词典,步骤4:统计数据,生成码书,步骤5:引入TF-IDF权值,步骤6:生成查询图像生成同样的加权特征值,步骤7:比较加权 算法 特征值,本发明涉及图像检索技术领域。该数字病理全切片图像检索方法,通过提取图像特征,可以将图片的尺度不变特征变换,生成更多的特征点,扩充了图像检索的维度,方便在后期机器对病理图片进行检索时,可以更快更精确的搜索到相对应的图片,通过图像预备处理,图片在被搜索前经过分割、扩充等处理操作,图像可以在后期被更加顺畅的操作,提高了搜索速度。,下面是一种数字病理全切片图像检索方法专利的具体信息内容。

1.一种数字病理全切片图像检索方法,其特征在于:具体包括以下步骤:
步骤1:图像预备处理:图片在正式被检索前,需要对图片局部特征提取,通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的零散图片,并获得各零散图片处的特征;
步骤2:提取图像特征:提取图像的SIFT特征,首先是构造DoG尺度空间,在SIFT中使用不同参数的高斯模糊来表示不同的尺度空间,删除不稳定的极值点,确定特征点的主方向,生成特征点的描述;
步骤3:构建视觉词典:将所有图像的所有SIFT特征点放在一起,进行聚类,得出的聚类中心便是视觉词汇,所有视觉词汇的集合便是视觉词典,聚类中心的大小可以设置,本申请采用K-Means聚类算法
步骤4:统计数据,生成码书:生成码书就是构造算法特征,计算每幅图像的视觉词数量,统计出词频矩阵;
步骤5:引入TF-IDF权值:计算TF值和IDF值进而得到TF-IDF矩阵,并对其进行L2归一化;
步骤6:生成查询图像生成同样的加权特征值:自动生成查询图像后生成同样的加权特征值;
步骤7:比较加权算法特征值:使用汉明距离,比较查询图像与数据库里的图像。
2.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤1中,零散图片特征包括Haar特征。
3.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤2中,删除低对比度的极值点以及不稳定的边缘响应点。
4.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤3中,随机选择聚类时的聚类点。
5.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤3中,统计视觉词典中每个单词在图像中出现的次数,图像表示成为一个K维数值向量。
6.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤4中,基于码书的图像检索,信息检索从文本推广到图像领域,采用文本检索的技术路线进行图像检索。
7.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤7中,汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个相同长度的字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。
8.根据权利要求1所述的一种数字病理全切片图像检索方法,其特征在于:所述步骤5中,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

说明书全文

一种数字病理全切片图像检索方法

技术领域

[0001] 本发明涉及图像检索技术领域,具体为一种数字病理全切片图像检索方法。

背景技术

[0002] 病理切片制作时将部分有病变的组织或脏器经过各种化学品和埋藏法的处理,使之固定硬化,在切片机上切成薄片,粘附在玻片上,染以各种颜色,供在显微镜下检查,以观察病理变化,作出病理诊断,为临床诊断和治疗提供帮助。取材组织愈新鲜愈好,人体组织一般在离体后,动物组织在处死后迅速固定,以保证原有的形态学结构。有关图像检索的研究,主要是基于文本的图像检索技术,利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。
[0003] 从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术,利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索技术。CBIR属于基于内容检索的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。
[0004] 现在很多医疗患者在做检查时,需要对部分组织制作病理全切片,然后通过医院的数字化系统制作成数字病理全切片,查看病理全切片的医生可以通医院的软件系统直接在办公室观察患者的病理切片,这种做法避免了患者每次检查均需携带病理切片至医生处,但数字病理圈切片的总量过多,医生需要花费大量去查找相关患者的病理切片,这种做法将会严重影响医生的工作效率。

发明内容

[0005] (一)解决的技术问题
[0006] 针对现有技术的不足,本发明提供了一种数字病理全切片图像检索方法,解决了数字病理圈切片的总量过多,医生需要花费大量去查找相关患者的病理切片,这种做法将会严重影响医生工作效率的问题。
[0007] (二)技术方案
[0008] 为实现以上目的,本发明通过以下技术方案予以实现:一种数字病理全切片图像检索方法,具体包括以下步骤:
[0009] 步骤1:图像预备处理:图片在正式被检索前,需要对图片局部特征提取,通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的零散图片,并获得各零散图片处的特征;
[0010] 步骤2:提取图像特征:提取图像的SIFT特征,首先是构造DoG尺度空间,在SIFT中使用不同参数的高斯模糊来表示不同的尺度空间,删除不稳定的极值点,确定特征点的主方向,生成特征点的描述;
[0011] 步骤3:构建视觉词典:将所有图像的所有SIFT特征点放在一起,进行聚类,得出的聚类中心便是视觉词汇,所有视觉词汇的集合便是视觉词典,聚类中心的大小可以设置,本申请采用K-Means聚类算法
[0012] 步骤4:统计数据,生成码书:生成码书就是构造算法特征,计算每幅图像的视觉词数量,统计出词频矩阵;
[0013] 步骤5:引入TF-IDF权值:计算TF值和IDF值进而得到TF-IDF矩阵,并对其进行L2归一化;
[0014] 步骤6:生成查询图像生成同样的加权特征值:自动生成查询图像后生成同样的加权特征值;
[0015] 步骤7:比较加权算法特征值:使用汉明距离,比较查询图像与数据库里的图像。
[0016] 优选的,所述步骤1中,零散图片特征包括Haar特征。
[0017] 优选的,所述步骤2中,删除低对比度的极值点以及不稳定的边缘响应点。
[0018] 优选的,所述步骤3中,随机选择聚类时的聚类点。
[0019] 优选的,所述步骤3中,统计视觉词典中每个单词在图像中出现的次数,图像表示成为一个K维数值向量。
[0020] 优选的,所述步骤4中,基于码书的图像检索,信息检索从文本推广到图像领域,采用文本检索的技术路线进行图像检索。
[0021] 优选的,所述步骤7中,汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个相同长度的字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。
[0022] 优选的,所述步骤5中,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
[0023] (三)有益效果
[0024] 本发明提供了一种数字病理全切片图像检索方法。与现有技术相比,具备以下有益效果:
[0025] (1)、该数字病理全切片图像检索方法,通过图片在正式被检索前,需要对图片局部特征提取,通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的零散图片,并获得各零散图片处的特征,提取图像的SIFT特征,首先是构造DoG尺度空间,在SIFT中使用不同参数的高斯模糊来表示不同的尺度空间,删除不稳定的极值点,确定特征点的主方向,生成特征点的描述,通过提取图像特征,可以将图片的尺度不变特征变换,生成更多的特征点,扩充了图像检索的维度,方便在后期机器对病理图片进行检索时,可以更快更精确的搜索到相对应的图片,通过图像预备处理,图片在被搜索前经过分割、扩充等处理操作,图像可以在后期被更加顺畅的操作,提高了搜索速度。
[0026] (2)、该数字病理全切片图像检索方法,通过将所有图像的所有SIFT特征点放在一起,进行聚类,得出的聚类中心便是视觉词汇,所有视觉词汇的集合便是视觉词典,聚类中心的大小可以设置,本申请采用K-Means聚类算法,通过视觉词典的构建,同一类目标的不同实例之间虽然存在差异,但仍然可以找到它们之间的一些共同的地方,例如人的脸差别比较大,但眼睛,嘴,鼻子等一些比较细小的部位,却观察不到太大差别,把这些不同实例之间共同的部位提取出来,作为识别这一类目标的视觉词汇,可以进一步提高图像检索速度。
[0027] (3)、该数字病理全切片图像检索方法,通过生成码书就是构造算法特征,计算每幅图像的视觉词数量,统计出词频矩阵,计算TF值和IDF值进而得到TF-IDF矩阵,并对其进行L2归一化,通过生成码书,建立基于码书的图像检索,把信息检索从文本领域推广到图像领域,与以往的需要以关键字对图像进行人工注释的“以文查图”的方式不同,采用文本检索的技术陆轩直接进行图像检索,矢量量化产生码本、编码图像、建立信息模型来检索图像,上述做法能够明显提高图像检索效率。附图说明
[0028] 图1为本发明的工作流程图

具体实施方式

[0029] 下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0030] 本发明实施例提供一种技术方案:一种数字病理全切片图像检索方法,具体包括以下步骤:
[0031] 步骤1:图像预备处理:图片在正式被检索前,需要对图片局部特征提取,通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的零散图片,并获得各零散图片处的特征;
[0032] 步骤2:提取图像特征:提取图像的SIFT特征,首先是构造DoG尺度空间,在SIFT中使用不同参数的高斯模糊来表示不同的尺度空间,删除不稳定的极值点,确定特征点的主方向,生成特征点的描述,以3mm为半径的领域内计算各个像素点的梯度的幅和幅值,然后使用直方图对梯度的幅角进行统计;
[0033] 步骤3:构建视觉词典:将所有图像的所有SIFT特征点放在一起,进行聚类,得出的聚类中心便是视觉词汇,所有视觉词汇的集合便是视觉词典,聚类中心的大小可以设置,本申请采用K-Means聚类算法,视觉词典是图像分类检索等领域的图像建模方法,该方法源于文档分析领域中的词典表示,词典表示将文档描述为词典中关键词出现频率的向量;
[0034] 步骤4:统计数据,生成码书:生成码书就是构造算法特征,计算每幅图像的视觉词数量,统计出词频矩阵;
[0035] 步骤5:引入TF-IDF权值:计算TF值和IDF值进而得到TF-IDF矩阵,并对其进行L2归一化;
[0036] 步骤6:生成查询图像生成同样的加权特征值:自动生成查询图像后生成同样的加权特征值;
[0037] 步骤7:比较加权算法特征值:使用汉明距离,比较查询图像与数据库里的图像。
[0038] 步骤1中,零散图片特征包括Haar特征,在计算Haar特征值时,用白色区域像素值的和减去黑色区域像素值的和,也就是说白色区域的权值为正值,黑色区域的权值为负值,而且权值与矩形区域的面积成反比,抵消两种矩形区域面积不等造成的影响,保证Haar特征值在灰度分布均匀的区域特征值趋近于0。
[0039] 步骤2中,删除低对比度的极值点以及不稳定的边缘响应点,在一个图像窗口中,积分图构建可以提取出大量的Haar矩形特征区域,如果在计算Haar特征值时,每次都遍历矩形特征区域。
[0040] 步骤3中,随机选择聚类时的聚类点。
[0041] 步骤3中,统计视觉词典中每个单词在图像中出现的次数,图像表示成为一个K维数值向量。
[0042] 步骤4中,基于码书的图像检索,信息检索从文本推广到图像领域,采用文本检索的技术路线进行图像检索。
[0043] 步骤7中,汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个相同长度的字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。
[0044] 步骤5中,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
[0045] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0046] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈