专利汇可以提供Système de traitement d'images专利检索,专利查询,专利分析的服务。并且Système de traitement d'images comprenant des moyens (100,110) d'acquisition de signaux vidéo correspondant à ces images et des moyens de traitement desdits signaux acquis, caractérisé en ce que lesdits moyens de traitement comprennent eux-mêmes :
(a) un étage (300) d'estimation de mouvement ;
(b) un étage (400) de filtrage morphologique ;
(c) un étage de mémorisation et/ou de visualisation (500) ;
ledit étage de filtrage morphologique comprenant lui-même un circuit (410) de définition d'un élément structurant spatio-temporel à partir des paramètres de mouvement estimés par l'étage d'estimation de mouvement, et un circuit (420) de filtrage morphologique.,下面是Système de traitement d'images专利的具体信息内容。
La présente invention concerne un système de traitement d'images comprenant des moyens d'acquisition de signaux vidéo correspondant à ces images et des moyens de traitement desdits signaux acquis.
Pendant plusieurs années, la majorité des procédés et dispositifs de traitement d'images étaient dédiés à l'analyse de scènes statiques, car la plupart des applications envisagées ne prenaient pas en compte les informations temporelles. L'accroissement de la puissance de calcul des matériels informatiques a cependant progressivement permis d'envisager le traitement en temps réel de séquences d'images, notamment dans des applications telles que la vision artificielle, les systèmes de surveillance, la détection de mouvement avec extraction des objets mobiles de la scène, ou encore pour atteindre une meilleure qualité des images par réduction du bruit affectant les séquences d'images.
D'importants efforts ont également été déployés pour résoudre les problèmes inhérents au traitement d'images dynamiques. On ne décrira pas ici les nombreuses expériences psychovisuelles effectuées en matière de perception du mouvement par le système visuel humain. On rappellera simplement qu'il apparaît, à la suite de telles expériences, que ledit système visuel peut distinguer le mouvement relatif de deux régions constituées par des distributions aléatoires de niveaux de gris, à condition que la succession des images soit suffisamment rapide par rapport à l'amplitude du mouvement (voir D.H. Ballard et Ch.M. Brown, "Computer vision", Prentice-Hall Inc., 1982). Cette constatation indique que la détection du mouvement s'effectue au niveau de l'image même et non pas exclusivement par l'intermédiaire d'une représentation symbolique de la scène observée.
La détection de mouvement au niveau d'une image est généralement effectuée selon l'une des trois approches décrites dans T.Z. Young et K.S.Fu, "Handbook of pattern recognition and image processing", Academic Press, 1986. Tout d'abord, on peut chercher à mettre en correspondance des points physiques de la scène et estimer le déplacement de la caméra entre images successives. Cette approche conduit à un système extrêmement complexe d'équations non linéaires à N inconnues, faisant en outre appel à un nombre important d'hypothèses contraignantes. Une autre méthode, plus simple, utilise la notion de flot optique défini par les vitesses instantanées en chaque point X,Y de l'image prise à un instant donné. Dans ce cas, on ne s'intéresse donc qu'à la projection des mouvements tridimensionnels des objets sur un plan particulier, celui de l'image, et cette méthode fait également appel à un certain nombre d'hypothèses restrictives indispensables à l'estimation d'un champ de vitesses, telles que vélocité maximale bornée, cohérence spatiale du champ des vitesses instantanées, etc.... On peut enfin opérer selon une troisième approche prévoyant une détection et une estimation de mouvement par filtrages spatio-temporels.
La détection de mouvement par filtrage spatio-temporel est particulièrement intéressante pour les raisons suivantes. D'une part elle est fondée sur des expériences psychovisuelles qui indiquent que la perception du mouvement par le système visuel humain fait appel à des mécanismes très proches du point de vue formel, et cette similarité avec le comportement des systèmes visuels organiques se manifeste par exemple dans le cas de mouvements apparents induits par des illusions visuelles dynamiques. Par ailleurs, les filtres spatio-temporels classiques permettent d'obtenir une bonne sélectivité en fonction de la direction du mouvement apparent détecté, ainsi qu'en fonction de la vélocité de ce mouvement apparent (dans une moindre mesure cependant, car la sensibilité de l'homme à une variation de vitesse est moindre que sa sensibilité à une variation de direction). Enfin ces filtres permettent la détection de mouvements locaux, c'est-à-dire de mouvements différents en différents points de l'image, à l'opposé des méthodes cherchant une estimation d'un mouvement paramétrique global de la scène observée.
Pratiquement toutes les techniques connues de filtrage spatio-temporel s'accordent pour considérer la séquence d'images à traiter comme un signal tridimensionnel f(x,y,t). Le filtre spatio-temporel, défini dans cet espace tridimensionnel x,y,t pour faire correspondre à f(x,y,t) un signal filtré égal à T(f(x,y,t)), doit, pour respecter la règle du caractère local, être entièrement défini sur un support spatio-temporel borné de cet espace tridimensionnel. A priori, cet espace s'apparenterait à un espace tridimensionnel classique dans lequel les objets sont définis en hauteur, largeur et profondeur, mais, dans le cas présent, la dimension temporelle prend une signification particulière du fait de ses caractéristiques propres et notamment de son irréversibilité. Les filtres spatio-temporels connus ont donc souvent un comportement voisin en x et en y, associé à un comportement spécifique suivant la dimension temporelle.
Le filtrage spatio-temporel le plus simple consiste (voir par exemple A.P. Bernat et al., "Security applications of computer motion detection", SPIE Vol.786, Applications of Artificial Intelligence V, 1987, p.512-517) à effectuer une différence point à point entre deux images successives : si deux points correspondants n'ont pas la même luminance, cette différence n'est pas nulle et indique un mouvement apparent. Cette technique, sensible au bruit, peut être améliorée en effectuant un filtrage médian ou une moyenne spatiale des niveaux de gris avant de calculer la différence entre images successives. Les filtres réalisés selon cette technique vérifient bien la condition de caractère local, mais aucune sélectivité n'est obtenue suivant la direction du mouvement ou sa vélocité, et leurs performances, assez médiocres, ne peuvent être améliorées qu'à l'aide de techniques qui ne sont plus du domaine du filtrage spatio-temporel proprement dit.
Une technique de filtrage spatio-temporel améliorée consiste à faire appel aux propriétés connues des filtres linéaires et à leurs transformées de Fourier. On peut alors, au prix de traitements particuliers tels que l'estimation de l'énergie spatio-temporelle du mouvement, mesurée par la somme des carrés de deux réponses de filtres linéaires en quadrature de phase, ou cette même estimation pour l'énergie en opposition de phase en remplaçant la somme quadratique par une différence sur les réponses de deux filtres en quadrature de phase, obtenir des filtres sensibles à la direction du mouvement et/ou au sens du déplacement. L'utilisation de batteries de filtres conduit finalement à une possibilité d'estimation à la fois de la direction et de la vélocité du déplacement local.
La communication de S. Beucher, J.M. Blosseville et F. Lenoir, effectuée en novembre 1987 à l'occasion du SPIE Cambridge Symposium on Advances in Intelligent Robotics Systems et ayant pour titre "Traffic spatial measurements using video image processing : application of mathematic morphology to vehicles detection", fait appel à un autre type de filtrage, le filtrage morphologique, en vue de mesurer automatiquement le flot des véhicules. Ce filtrage morphologique ne concerne cependant qu'une image bidimensionnelle reconstruite à partir d'une moyenne de différences entre images successives de la séquence d'images du trafic. Il y a donc, là encore, comme dans les précédents filtres présentés, un comportement d'un certain type dans le plan spatial de l'image et un comportement spécifique suivant la direction temporelle.
Un but de l'invention est de proposer un dispositif de traitement de séquence d'images prévoyant, de façon nouvelle, un filtrage spatio-temporel de comportement similaire suivant chacune des directions spatiales et temporelle.
A cet effet l'invention concerne un système de traitement d'images caractérisé en ce que lesdits moyens de traitement comprennent eux-mêmes :
Dans une variante perfectionnée de réalisation, l'invention concerne également un système caractérisé en ce que l'étage d'estimation de mouvement est précédé d'un circuit de recalage d'images, d'un circuit de détermination de différences entre images, et d'un circuit à seuil, tous trois prévus en série.
Les particularités et avantages de l'invention apparaîtront maintenant de façon plus précise dans la description qui suit et dans les dessins annexés, donnés à titre d'exemples non limitatifs et dans lesquels les figures 1 et 2 montrent deux exemples distincts de réalisation d'un système de traitement d'images selon l'invention.
Un système de traitement d'images comprend en général des moyens d'acquisition d'images tels qu'une caméra, puis, éventuellement, des moyens de correction des défauts spécifiques à ces moyens d'acquisition. Il est en effet nécessaire, le plus souvent, de réduire le bruit électronique issu de la partie acquisition des images (plus précisément, le bruit issu des détecteurs, des circuits d'amplification, et des circuits de numérisation puisque les signaux analogiques de sortie de la caméra sont en général envoyés vers un convertisseur analogique-numérique pour être traités sous forme numérique), et de réduire également les défauts propres à la caméra (distorsions, différences de réponse de détecteurs, etc...).
Ces moyens de correction des défauts de la caméra ou des circuits qui lui sont immédiatement associés sont désormais classiques et ne seront pas décrits de façon détaillée. On signale simplement qu'ils permettent une amélioration des performances de détection et de la qualité des images obtenues par rapport aux images d'origine, et que de telles améliorations contribuent à accroître les performances des traitements ultérieurs.
La figure 1 montre un exemple de réalisation d'un système de traitement d'images comprenant successivement une caméra 100, un convertisseur analogique-numérique 110, et un étage de correction de défauts 120 assurant comme indiqué ci-dessus la réduction du bruit et des défauts propres à la caméra et à ses circuits électroniques associés. On supposera, dans l'exemple ici décrit, que la séquence d'images en sortie de l'étage 120 est une séquence de 25 images entrelacées par seconde, de format 512 points x 512 points, ce qui sera dans la suite de la description et sur la figure 1, noté de la façon suivante : 50 Hz, 2:1, 512 x 512, les points de l'image étant en outre codés à l'aide de 2⁸ = 256 niveaux de gris.
Cette séquence d'images 50 Hz, 2:1, 512 x 512 est d'abord fournie à un circuit 130 de conversion de format entrelacé en format séquentiel, puis à un étage d'estimation de mouvement 300 de type connu. Cette estimation de mouvement peut être effectuée par exemple en estimant d'abord la rotation globale de l'image par extraction des contours et détection du pic de corrélation entre histogrammes des directions de ces contours (voir le document suivant : Thèse Universitaire de Compiègne, Eva Salmeron, "Mise en coïncidence automatique des contours extraits d'images aériennes et d'éléments cartographiques", 1986). L'estimation de la rotation est alors suivie du calcul de la translation globale qui peut être effectué en appliquant la méthode du plan de corrélation de phase après compensation de la rotation précédemment estimée (voir "The Phase Correlation Image Alignement Method", C.D. Kuglin & D.C. Hines, IEEE Int. Conf. on Cybernetics and Society, San-Francisco, CA 1975, September 23-25). L'étage 300 permet ainsi de déterminer le mouvement du fond de l'image.
L'étage 300 est suivi d'un étage de filtrage morphologique 400, qui comprend un circuit 410 de définition d'un élément structurant spatio-temporel en fonction des paramètres du mouvement estimés par l'étage 300, puis un circuit de filtrage morphologique 420.
On rappellera ici quelques notions en matière de morphologie mathématique. L'approche morphologique consiste à considérer une image comme un ensemble sur lequel on va faire intervenir des opérateurs. Pour cela, on définit ce qu'on appelle des éléments structurants, qui sont des formes géométriques données, repérées par la position de leur centre. En faisant coincider ce centre avec les points d'un ensemble, on peut définir des opérateurs particuliers (érosion, dilatation, etc...), comme indiqué ci-dessous, l'espace considéré, dans le cas présent d'application à des images étant le graphe de la fonction "niveau de gris" de ces images. Le langage de la morphologie mathématique est donc celui de la théorie des ensembles. Dans ce sens, un filtrage morphologique est une transformation non-linéaire d'un signal, qui modifie localement les caractéristiques géométriques de ce signal. Dans le cas d'une image bidimensionnelle binaire, le signal est équivalent à la donnée de l'ensemble des points de niveau 1 (= objets) et de celui des points de niveau 0 (= fond). Effectuer un filtrage morphologique sur cette image consiste à analyser l'interaction entre l'ensemble S des objets avec un ensemble compact B donné, a priori, et qui est l'élément structurant. C'est cet élément qui définit le filtrage à effectuer parl'intermédiaire des opérations de Minkowski sur les ensembles. On peut rappeler ici que l'addition et la soustraction de Minkowski de deux ensembles A et B sont définies par les relations (1) et (2). En définissant le symétrique de B noté B′ par la relation (3), on peut proposer deux filtres morphologiques duaux, l'érosion de X par B (relation (4)), et la dilatation de X par B (relation (5)). On notera que l'érodé de X par B coïncide avec l'ensemble des points z de l'image pour lesquels l'élément structurant centré en z et noté Bz est entièrement inclus dans X. De même, le dilaté de X par B correspond aux points z de l'image pour lesquels Bz intersecte l'ensemble X. Les deux transformations de base, érosion et dilatation par B ne sont pas inverses l'une de l'autre et leur succession définit deux nouveaux filtres qui sont l'ouverture de X par B, définie par la relation (6), et la fermeture de X par B, définie par la relation (7).
Comme on l'a vu plus haut, les filtres morphologiques ont surtout été appliqués à l'analyse d'images bidimensionnelles statiques, et non pas à des signaux spatio-temporels. Dans la présente application, l'élément structurant constitue ici en fait le support borné B du domaine spatio-temporel sur lequel sont définis les filtrages à effectuer (c'est-à-dire que B est défini comme l'ensemble des points (x₀, y₀, t₀) du domaine spatio-temporel sur lesquels seront effectués les filtrages élémentaires tels qu'érosions et dilatations). La section temporelle Bs (x₀, y₀) = B(x₀, y₀, 0) passant par l'origine de l'espace (x,y,t) étant fixée arbitrairement (par exemple comme un disque de rayon R donné), les autres sections s'en déduisent par les formules (8) et (9) données en annexe et où ϑ, tx, ty sont les paramètres, estimés par l'étage 300, du mouvement entre l'instant t et l'instant t+t₀. L'extension temporelle [t₁,t₂] de cet élément structurant B(x₀, y₀, t₀) est fixée arbitrairement en fonction du degré de lissage choisi, mais de toute façon le support doit être borné aussi bien dans l'espace que dans le temps.
Une fois l'élément structurant B défini, un circuit 420 effectue les filtrages morphologiques correspondants. Dans le but de réduire le bruit par filtrage temporel en tenant compte du mouvement relatif entre deux images, on effectuera de préférence une ouverture ou une fermeture ou bien encore une succession de ces deux filtrages pour obtenir une ouverture-fermeture (c'est-à-dire une ouverture suivie d'une fermeture) ou une fermeture-ouverture (c'est-à-dire une fermeture suivie d'une ouverture). Chacune de ces transformations se décompose en une succession des deux opérations spatio-temporelles élémentaires, l'érosion et la dilatation.
L'érosion spatio-temporelle ici concernée est définie par l'expression (10), et la dilatation spatio-temporelle par l'expression (11), ces expressions étant, comme précédemment, données en annexe. Dans ces expressions, f(x,y,t) est la valeur de gris de l'image au point (x,y) et à l'instant t. L'ouverture est alors obtenue en effectuant une érosion suivie d'une dilatation et la fermeture par la succession d'une dilatation et d'une érosion (il faut noter que l'extraction du minimum ou du maximum des valeurs de gris de la séquence d'images sur l'élément structurant B(x₀, y₀, t₀) peut se décomposer en une succession de trois extractions successives de minimum ou de maximum suivant chacune des dimensions x, y ou t, dans n'importe quel ordre).
L'étage 400 est à son tour suivi d'un étage 500 qui permet finalement la mémorisation et/ou visualisation des images filtrées.
Dans une variante de réalisation du système ainsi décrit, on peut compléter ce filtrage spatio-temporel, conduisant à une amélioration de la qualité des images obtenues, par une meilleure détection des principaux objets mobiles par rapport au fond et apparaissant sur ces images. La figure 2, qui montre une telle variante de réalisation, comprend d'une part les mêmes éléments que ceux de la figure 1, et qui portent donc les mêmes références, et d'autre part, entre le circuit de conversion de format 130 et l'étage d'estimation de mouvement 300, trois circuits supplémentaires en série qui sont les suivants.
La suite d'images séquentielles de sortie du circuit 130 est d'abord fournie à un circuit de recalage d'images 200, destiné à compenser le mouvement du fond sur la séquence afin d'obtenir en sortie de cet étage une séquence d'images avec un fond fixe. Un exemple de technique de recalage consiste à effectuer une estimation des paramètres du mouvement global entre images successives par mise en correspondance de fenêtres d'une image sur la suivante, puis le calcul de la transformation géométrique globale par estimateur des moindres carrés sur les vecteurs de déplacement ainsi extraits (voir le document "Detection of moving vehicles in thermal imagery obtained from a moving platform", Arthur V. Forman et al., SPIE, vol.432, Applications of Digital Image Processing VI, p.136-147). Ce circuit est suivi d'un circuit 210 de détermination de différences entre images, qui délivre une séquence d'images sur lesquelles apparaissent uniquement les parties mobiles par rapport au fond de la scène (les parties fixes étant éliminées et mises au niveau zéro), avec en plus le bruit issu des étages d'acquisition et de traitement précédents. Un circuit à seuil 220 permet alors d'opérer une sélection sur ces signaux, en fournissant finalement une séquence d'images binaires sur lesquelles les points d'image appartenant à la séquence des différences d'images successives sont mis à 1 si leur valeur de gris sur ces images est différente de zéro (ces points d'image correspondant ainsi aux parties mobiles de la séquence mais aussi au bruit résiduel). La sortie du circuit à seuil 220 est fournie à l'étage d'estimation de mouvement 300, qui est utilisé cette fois pour fournir les paramètres des différentes translations tx, ty entre deux images successives des objets mobiles de la séquence binaire précédente, ce qui peut être effectué par exemple en appliquant la technique du plan de corrélation de phase déjà décrite.
Bien entendu, la présente invention n'est pas limitée aux exemples de réalisation ci-dessus décrits et représentés, à partir desquels des variantes peuvent être proposées sans pour cela sortir du cadre de l'invention. En particulier, on omettra le circuit 130 de conversion de format lorque la suite d'images à fournir à l'étage d'estimation de mouvement 300 est déjà sous forme séquentielle.
avec (X)B = (x ⊖ B′) ⊕ B
avec (X)B = (X ⊖ B′) ⊖ B
(pour x₀, y₀, t₀ appartenant à B)
(pour x₀, y₀, t₀ appartenant à B)
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
预测图像产生方法及设备和图像视频编/解码方法及设备 | 2021-03-16 | 3 |
用于运动估计的耦合距离和强度成像 | 2020-07-22 | 5 |
用于编码交错形状信息的方法和设备 | 2022-09-03 | 3 |
运动估计设备及其控制方法 | 2021-06-18 | 6 |
PARALLEL THREE-DIMENSIONAL RECURSIVE SEARCH (3DRS) MEANDERING ALGORITHM | 2021-04-14 | 1 |
Method and apparatus for motion compensated video coding | 2022-03-20 | 5 |
MOTION ESTIMATION APPARATUS AND CONTROL METHOD THEREOF | 2021-09-05 | 3 |
Method and apparatus for monitoring movement and breathing of multiple subjects in a common bed | 2020-08-11 | 2 |
Bidirectional motion estimation in a motion video compression system | 2022-11-01 | 0 |
Moving image coder and control method thereof, and program | 2022-01-19 | 3 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。