一种精准可控和多模态输入的道路病害数据集扩充方法

申请号 CN202410155563.1 申请日 2024-02-04 公开(公告)号 CN117975199A 公开(公告)日 2024-05-03
申请人 浙江海康智联科技有限公司; 发明人 王静静; 谢文丽; 汤镥锴; 黄明亮; 王笔神;
摘要 本 发明 公开了一种精准可控和多模态输入的道路病害数据集扩充方法,能够基于文本或样例图片等多模态输入,按照 指定 的数据集格式、病害类型以及生成 位置 等需求,生成相应的高 质量 道路病害图片和标注数据,对道路病害数据集进行快速扩充。生成的高 分辨率 病害图像能够捕捉到道路病害的多样性和细节,具有较强的真实感,降低了构建数据集时大量采集真实图片的成本;生成高质量病害图片的同时,还能够根据指定的位置信息、数据集格式等精细的定制化需求,提供与生成图片对应的检测标注信息或者分割标注信息,降低了数据集的人工标注成本;生成数据集还为某些稀缺病害难以采集到足够真实样本的难题提供了解决思路。
权利要求

1.一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:包括如下步骤:
S1、数据收集和准备,收集少量的真实道路病害图片,制作图片对应的文本描述文件以及相应的病害标注文件,作为模型的多模态输入数据集。文本描述文件是对图片中主要内容的文字描述,病害标注文件需要包括每个病害的类别、每个病害对应的检测标注和分割标注、根据分割标注制作对应的mask图片;
S2、多模态图像生成大模型的微调,使用具有位置可控性的多模态图像生成大模型GLIGEN作为基础模型,使用S1步骤中制作的多模态病害数据集,仅对多模态融合部分进行微调,在训练中学习病害的文本描述、图像、位置标注等多种模态信息之间的关联,用对比学习损失和Focal Loss作为损失函数进行优化迭代,直至训练和评估达到预期;
S3、虚拟病害图片的生成,根据不同的输入条件生成虚拟病害图片的过程,有两种主要方式可以实现:a、给定病害的类型和边界框的起点和宽、高,生成包含指定病害的检测数据集,b、给定病害类型、病害外轮廓的起点、点数量、病害面积,生成包含指定病害的分割数据集;
S4、数据集扩充,生成的虚拟病害图片与原始真实数据集合并,对现有的检测数据集和分割数据集进行扩充,为道路病害检测和分割模型提供更大的训练数据集。
2.根据权利要求1所述的一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:所述S1中的数据收集,通过道路养护巡查车上的高清相机抓拍,来获取真实的道路病害图片,作为生成模型的训练集图片,通过人工标注,获取图片中病害的检测标注信息——bounding box,以及分割标注信息——病害的多边形包围曲线及二值化mask图像。
3.根据权利要求1所述的一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:所述S1中的病害的类别、图片的文本描述文件、病害的检测标注和分割标注:
病害的类别:病害类别主要有裂缝、坑槽、伸缩缝损坏等。裂缝,指的是道路表面出现的横向、纵向、或不规则网状的开裂;坑槽是指道路表面因交通和气候等因素而磨损,出现的下沉与下陷;伸缩缝损坏指的是伸缩缝表面材料脱落或损坏;
图片的文本描述:人工对图片进行观察,将图片中的主要内容,用文字进行描述,形成对应的文本描述文件;或者先由现有的多模态大模型如Clip模型,对图片自动进行理解和描述,生成对应的文本描述文件,然后人工进行复审,形成最终的文本描述文件;
病害的检测标注:是指识别出图片中的病害类别,然后将其位置信息,以四边形的方式,将病害位置大致包围和标记出来,形成该图片对应的检测标注文件。检测标注一般使用人工标注完成,由培训过的专业标注人员,对采集的真实道路图像中的病害进行识别,标记图片中包含的每个病害类别、位置边界框等;
病害的分割标注:病害的分割标注是指识别出图片中的病害类别后,将其在图像中的位置以多边形的形式完整地分割出来,形成精确的病害区域标注,分割标注一般也使用人工标注,其标注的信息能够比检测标注提供更详细、更精确的病害形状,有助于进行深度学习模型更深入的学习病害的语义特征。
4.根据权利要求1所述的一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:为了使生成模型具有更准确的病害语义理解能,我们在模型的输入部分,利用标注的mask信息对原始图片进行了一些预处理,由于掌握了病害的位置信息和mask图像,我们利用这些特性,尝试将原图中的病害部分和非病害部分做出明显的区分,这里我们尝试了根据病害位置进行图片裁剪、背景模糊、前景高亮、mask与原图叠加等方式,最终选择了效果最好的叠加方式,在训练过程中,随机选取一定比例的训练数据,将原图中的非病害部分像素置为0,病害部分像素不变;
在图片生成模型中,为了学习位置信息和病害的文本描述、图片特征之间的关系,我们将标注信息中的边界框做FourierEmbedding之后,与图像特征、文本特征进行拼接融合,输入到后续的Transformer模中学习它们之间的联系,这一举措也得到更为密集的向量表示,进而加强图像和文本的语义对齐能力。
5.根据权利要求1所述的一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:所述微调采用监督学习的方式进行,经过微调后,我们得到了一个微调训练完成的多模态大模型,这个模型已经具备了生成道路病害图像的能力,并根据输入的边界框、mask图像等条件在指定的位置生成指定类型的病害图像。
6.根据权利要求1所述的一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:所述S3中的虚拟病害两种生成方式:基于检测边界框生成:用户提供一个边界框信息,包含边界框的起点、宽、高,以及该位置所需生成的病害类型,用脚本根据这些信息生成边界框,模型在对应的边界框内生成指定类型的道路病害图片;基于分割多边形生成:用户提供病害的外接轮廓多边形的角点数量及病害面积、病害类型,脚本将根据这些信息生成mask,模型使用mask生成与之匹配的道路病害图片。
7.根据权利要求6所述的一种精准可控和多模态输入的道路病害数据集扩充方法,其特征在于:所述数据集扩充的方法:首先,配置生成图像的宽高、进行图片生成的所有病害类型、生成图片的总数量、数据集类型,然后,python程序读取配置文件,生成样本量为N,包含M个类型病害的检测或分割数据集;其中,python程序首先为每张图片生成一份指定格式的标注文件,当指定标注格式为检测格式时,标注文件包含每个病害的类别和形如x、y、w和h的边界框信息,其中,x,y代表病害边界框起始点的二维坐标、w和h为边界框的宽和高,w和h的大小不超过用户设定的病害尺寸阈值w_thres和h_thres;x、y、w和h为程序运行时生成的随机数,并且同时满足0

说明书全文

一种精准可控和多模态输入的道路病害数据集扩充方法

技术领域

[0001] 本发明属于道路病害识别技术领域,更具体地说,尤其涉及一种精准可控和多模态输入的道路病害数据集扩充方法。

背景技术

[0002] 随着近年来中国各大城市智慧交通和智慧道路建设的迅猛发展,智能化城市交通治理和道路病害监测成为了其中关键的组成部分。
[0003] 深度学习技术在道路病害识别和智慧交通管理中具有巨大潜,但其性能往往受限于两个方面的瓶颈:一是深度学习模型的复杂性,需要大规模训练数据以取得良好的效果;二是相关数据集的匮乏、质量不一且类别严重不均衡、标注成本高昂、数据隐私问题等挑战,无法满足深度学习模型的需求。在道路病害数据集中,存在一个显著的挑战,即长尾效应。长尾效应反映在数据分布中,大多数数据点集中在少数几个常见类别中,而大量的稀有类别样本分布在长尾部分。这一现象在道路病害数据中具有明显的体现。一方面,某些病害,如坑槽、裂缝等,本来就相对罕见,因此难以进行大规模采集。另一方面,许多城市正在积极采用人工治理方法来及时修补常见病害,以减少道路病害的数量,维护道路的健康状态,以确保城市的可持续发展和居民的行车安全。然而,这一做法同时导致了那些不太常见的病害样本更加难以获取,进一步加剧了数据集中长尾效应的问题。
[0004] 1.道路病害图像数据集通常相对稀缺,尤其是对于一些罕见的病害类型。这通常容易导致训练深度学习模型时的欠拟合或过拟合问题,使得模型的性能低下或泛化能力较差。
[0005] 2.道路病害数据集中,一些常见病害的样本数量远远超过罕见病害的样本数量,导致数据不平衡和长尾效应。这会使得模型对于常见病害的性能过于强大,而对罕见病害的性能较差。
[0006] 3.实际采集道路病害图像涉及大量人力、时间和金钱成本。从采集图像到数据集制作完成,通常需要经过多个步骤,包括图像采集、标注、审核、返修、再次审核等,时间周期也相当长。这不仅使数据采集变得昂贵,还增加了数据集制作的复杂度和耗时。

发明内容

[0007] 本发明的目的是为了解决现有技术中存在的缺点,本发明能够生成更加逼真、高质量的道路病害图像,生成的图像不仅具有高分辨率和真实感,还能够捕捉到道路病害的多样性和细节,使得训练模型更具鲁棒性和泛化能力,降低了采集成本;而提出的一种精准可控和多模态输入的道路病害数据集扩充方法。
[0008] 为实现上述目的,本发明提供如下技术方案:
[0009] 一种精准可控和多模态输入的道路病害数据集扩充方法,包括如下步骤:
[0010] S1、数据收集和准备,收集少量的真实道路病害图片,制作图片对应的文本描述文件以及相应的病害标注文件,作为模型的多模态输入数据集。文本描述文件是对图片中主要内容的文字描述,病害标注文件需要包括每个病害的类别、每个病害对应的检测标注和分割标注、根据分割标注制作对应的mask图片;
[0011] S2、多模态图像生成大模型的微调,使用具有位置可控性的多模态图像生成大模型GLIGEN作为基础模型,使用S1步骤中制作的多模态病害数据集,仅对多模态融合部分进行微调,在训练中学习病害的文本描述、图像、位置标注等多种模态信息之间的关联,用对比学习损失和Focal Loss作为损失函数进行优化迭代,直至训练和评估达到预期;
[0012] S3、虚拟病害图片的生成,根据不同的输入条件生成虚拟病害图片的过程,有两种主要方式可以实现:a、给定病害的类型和边界框的起点和宽、高,生成包含指定病害的检测数据集,b、给定病害类型、病害外轮廓的起点、点数量、病害面积,生成包含指定病害的分割数据集;
[0013] S4、数据集扩充,生成的虚拟病害图片能够与原始真实数据集合并,从而扩充现有的检测数据集和分割数据集,这将有助于提高道路病害检测和分割模型的性能,因为更多的训练数据能够提供更好的泛化能力。
[0014] 优选的,所述S1中的数据收集,通过道路养护巡查车上的高清相机抓拍,来获取真实的道路病害图片,作为生成模型的训练集图片,通过人工标注,获取图片中病害的检测标注信息——bounding box,以及分割标注信息——病害的多边形包围曲线及二值化mask图像。
[0015] 优选的,所述S1中的病害的类别、图片的文本描述文件、病害的检测标注和分割标注:
[0016] 病害的类别:病害类别主要有裂缝(包括横向裂缝、纵向裂缝和网状裂缝等)、坑槽、伸缩缝损坏等。裂缝,指的是道路表面出现的横向、纵向、或不规则网状的开裂;坑槽是指道路表面因交通和气候等因素而磨损,出现的下沉与下陷;伸缩缝损坏指的是伸缩缝表面材料脱落或损坏;
[0017] 图片的文本描述:人工对图片进行观察,将图片中的主要内容,用文字进行描述,形成对应的文本描述文件;或者先由现有的多模态大模型如Clip模型,对图片自动进行理解和描述,生成对应的文本描述文件,然后人工进行复审,形成最终的文本描述文件;
[0018] 病害的检测标注:是指识别出图片中的病害类别,然后将其位置信息,以四边形的方式(如将起点和病害的宽高标记为(x,y,w,h)),将病害位置大致包围和标记出来,形成该图片对应的检测标注文件。检测标注一般使用人工标注完成,由培训过的专业标注人员,对采集的真实道路图像中的病害进行识别,标记图片中包含的每个病害类别、位置边界框等;
[0019] 病害的分割标注:病害的分割标注是指识别出图片中的病害类别后,将其在图像中的位置以多边形的形式(如将病害区域从起点开始,以二维坐标点的形式标记为[(x1,y1),(x2,y2),...,(xn,yn)])完整地分割出来,形成精确的病害区域标注。分割标注一般也使用人工标注,其标注的信息能够比检测标注提供更详细、更精确的病害形状,有助于进行深度学习模型更深入的学习病害的语义特征。
[0020] 优选的,所述S2中病害的数据集进行微调,为了使生成模型具有更准确的病害语义理解能力,我们在模型的输入部分,利用标注的mask信息对原始图片进行了一些预处理。由于掌握了病害的位置信息和mask图像(mask图像中用像素值0和1来区分每个像素是否为病害),我们利用这些特性,尝试将原图中的病害部分和非病害部分做出明显的区分,这里我们尝试了根据病害位置进行图片裁剪、背景模糊、前景高亮、mask与原图叠加等方式,最终选择了效果最好的叠加方式,在训练过程中,随机选取一定比例的训练数据,将原图中的非病害部分像素置为0,病害部分像素不变;
[0021] 在图片生成模型中,为了学习位置信息和病害的文本描述、图片特征之间的关系,我们将标注信息中的边界框做FourierEmbedding之后,与图像特征、文本特征进行拼接融合,输入到后续的Transformer模中学习它们之间的联系,这一举措也得到更为密集的向量表示,进而加强图像和文本的语义对齐能力。
[0022] 优选的,所述微调采用监督学习的方式进行,经过微调后,我们得到了一个微调训练完成的多模态大模型,这个模型已经具备了生成道路病害图像的能力,并根据输入的边界框、mask图像等条件生成指定类型的病害图像。
[0023] 优选的,所述S3中的虚拟病害两种生成方式:基于检测边界框生成:用户提供一个边界框信息,包含边界框的起点、宽、高,以及该位置所需生成的病害类型,用脚本根据这些信息生成边界框,模型在对应的边界框内生成指定类型的道路病害图片;基于分割多边形生成:用户提供病害的外接轮廓多边形的角点数量及病害面积、病害类型,脚本将根据这些信息生成mask,模型使用mask生成与之匹配的道路病害图片。
[0024] 优选的,所述数据集扩充的方法:首先,配置生成图像的宽高、进行图片生成的所有病害类型、生成图片的总数量、数据集类型,然后,python程序读取配置文件,生成样本量为N,包含M个类型病害的检测或分割数据集;其中,python程序首先为每张图片生成一份指定格式的标注文件,当指定标注格式为检测格式时,标注文件包含每个病害的类别和形如x、y、w和h的边界框信息,其中,x,y代表病害边界框起始点的二维坐标、w和h为边界框的宽和高,w和h的大小不超过用户设定的病害尺寸阈值w_thres和h_thres;x、y、w和h为程序运行时生成的随机数,并且同时满足0
[0025] 本发明的技术效果和优点:本发明提供的一种精准可控和多模态输入的道路病害数据集扩充方法,与现有技术相比:
[0026] 1.与传统的合成数据集方法相比,本发明能够生成更加逼真、高质量的道路病害图像。生成的图像不仅具有高分辨率和真实感,还能够捕捉到道路病害的多样性和细节,使得训练模型更具鲁棒性和泛化能力,降低了采集成本。
[0027] 2.提供位置信息及分割标注的mask信息,减少数据准备工作量。与一般的图像生成方法不同,这个发明不仅能够生成包含道路病害的图像,还能够提供病害对应的位置信息,例如边界框(Bounding Box)信息、每个像素的mask信息等。能够为物体检测任务、语义分割和实例分割任务等,提供宝贵的标注信息,节省大量的人工标注、审核等成本。
[0028] 3.精准可控性:本发明允许用户精确控制生成的道路病害图像的各种属性,包括病害的类型、大小、形状、位置等。这种精准可控性使得生成的数据能够满足特定任务或研究领域的需求,为定制化的数据准备提供了灵活性。
[0029] 总体而言,本发明不仅能够生成逼真的道路病害图像,还提供了位置信息、分割标注的mask信息,以及精准可控性,从而为道路病害识别领域的模型训练和评估提供了更丰富和高质量的数据资源。这些优点使得本发明在解决现有数据集扩充方案的不足和问题方面具有显著竞争优势。并且,通过提供稀缺病害的样例图片或由文字描述的病害类型,在生成位置批量快速扩充稀缺病害数据集,从而为基于深度学习的道路病害识别模型训练和评估过程提供更丰富和高质量的数据资源,缓解道路病害识别中的长尾问题,使得训练模型更具鲁棒性和泛化能力。附图说明
[0030] 图1为本发明的方法流程图
[0031] 图2为本发明的多模态图像生成流程图。
[0032] 图3为本发明的裂缝数据生成图。
[0033] 图4为本发明的坑槽数据生成图。

具体实施方式

[0034] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035] 实施例1
[0036] 综上,本发明一种精准可控和多模态输入的道路病害数据集扩充方法,包括如下步骤:
[0037] S1、数据收集和准备,收集少量的真实道路病害图片,制作图片对应的文本描述文件以及相应的病害标注文件,作为模型的多模态输入数据集。文本描述文件是对图片中主要内容的文字描述,病害标注文件需要包括每个病害的类别、每个病害对应的检测标注和分割标注、根据分割标注制作对应的mask图片;
[0038] S2、多模态图像生成大模型的微调,使用具有位置可控性的多模态图像生成大模型GLIGEN作为基础模型,使用S1步骤中制作的多模态病害数据集,仅对多模态融合部分进行微调,在训练中学习病害的文本描述、图像、位置标注等多种模态信息之间的关联,用对比学习损失和Focal Loss作为损失函数进行优化迭代,直至训练和评估达到预期;
[0039] S3、虚拟病害图片的生成,根据不同的输入条件生成虚拟病害图片的过程,有两种主要方式可以实现:a、给定病害的类型和边界框的起点和宽、高,生成包含指定病害的检测数据集,b、给定病害类型、病害外轮廓的起点、角点数量、病害面积,生成包含指定病害的分割数据集;
[0040] S4、数据集扩充,生成的虚拟病害图片能够与原始真实数据集合并,从而扩充现有的检测数据集和分割数据集,这将有助于提高道路病害检测和分割模型的性能,因为更多的训练数据能够提供更好的泛化能力。
[0041] S1中的数据收集,通过道路养护巡查车上的高清相机抓拍,来获取真实的道路病害图片,作为生成模型的训练集图片,通过人工标注,获取图片中病害的检测标注信息——bounding box,以及分割标注信息——病害的多边形包围曲线及二值化mask图像。
[0042] S1中的病害的类别、图片的文本描述文件、病害的检测标注和分割标注:
[0043] 病害的类别:病害类别主要有裂缝(包括横向裂缝、纵向裂缝和网状裂缝等)、坑槽、伸缩缝损坏等。裂缝,指的是道路表面出现的横向、纵向、或不规则网状的开裂;坑槽是指道路表面因交通和气候等因素而磨损,出现的下沉与下陷;伸缩缝损坏指的是伸缩缝表面材料脱落或损坏;
[0044] 图片的文本描述:人工对图片进行观察,将图片中的主要内容,用文字进行描述,形成对应的文本描述文件;或者先由现有的多模态大模型如Clip模型,对图片自动进行理解和描述,生成对应的文本描述文件,然后人工进行复审,形成最终的文本描述文件;
[0045] 病害的检测标注:是指识别出图片中的病害类别,然后将其位置信息,以四边形的方式(如将起点和病害的宽高标记为(x,y,w,h)),将病害位置大致包围和标记出来,形成该图片对应的检测标注文件。检测标注一般使用人工标注完成,由培训过的专业标注人员,对采集的真实道路图像中的病害进行识别,标记图片中包含的每个病害类别、位置边界框等;
[0046] 病害的分割标注:病害的分割标注是指识别出图片中的病害类别后,将其在图像中的位置以多边形的形式(如将病害区域从起点开始,以二维坐标点的形式标记为[(x1,y1),(x2,y2),...,(xn,yn)])完整地分割出来,形成精确的病害区域标注。分割标注一般也使用人工标注,其标注的信息能够比检测标注提供更详细、更精确的病害形状,有助于进行深度学习模型更深入的学习病害的语义特征。
[0047] S2中病害的数据集进行微调,为了使生成模型具有更准确的病害语义理解能力,我们在模型的输入部分,利用标注的mask信息对原始图片进行了一些预处理。由于掌握了病害的位置信息和mask图像(mask图像中用像素值0和1来区分每个像素是否为病害),我们利用这些特性,尝试将原图中的病害部分和非病害部分做出明显的区分,这里我们尝试了根据病害位置进行图片裁剪、背景模糊、前景高亮、mask与原图叠加等方式,最终选择了效果最好的叠加方式,在训练过程中,随机选取一定比例的训练数据,将原图中的非病害部分像素置为0,病害部分像素不变;
[0048] 在图片生成模型中,为了学习位置信息和病害的文本描述、图片特征之间的关系,我们将标注信息中的边界框做FourierEmbedding之后,与图像特征、文本特征进行拼接融合,输入到后续的Transformer模块中学习它们之间的联系,这一举措也得到更为密集的向量表示,进而加强图像和文本的语义对齐能力。
[0049] 微调采用监督学习的方式进行,经过微调后,我们得到了一个微调训练完成的多模态大模型,这个模型已经具备了生成道路病害图像的能力,并根据输入的边界框、mask图像等条件生成指定类型的病害图像。
[0050] S3中的虚拟病害两种生成方式:基于检测边界框生成:用户提供一个边界框信息,包含边界框的起点、宽、高,以及该位置所需生成的病害类型,用脚本根据这些信息生成边界框,模型在对应的边界框内生成指定类型的道路病害图片;基于分割多边形生成:用户提供病害的外接轮廓多边形的角点数量及病害面积、病害类型,脚本将根据这些信息生成mask,模型使用mask生成与之匹配的道路病害图片。
[0051] 数据集扩充的方法:首先,配置生成图像的宽高、进行图片生成的所有病害类型、生成图片的总数量、数据集类型,然后,python程序读取配置文件,生成样本量为N,包含M个类型病害的检测或分割数据集;其中,python程序首先为每张图片生成一份指定格式的标注文件,当指定标注格式为检测格式时,标注文件包含每个病害的类别和形如x、y、w和h的边界框信息,其中,x,y代表病害边界框起始点的二维坐标、w和h为边界框的宽和高,w和h的大小不超过用户设定的病害尺寸阈值w_thres和h_thres;x、y、w和h为程序运行时生成的随机数,并且同时满足0
[0052] 最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
QQ群二维码
意见反馈