La rétine artificielle fait de l'œil à l'industrie avec les caméras événementielles

La vision industrielle commence à profiter de la rapidité et de l’efficacité des caméras dites événementielles, ou « event based », qui n’enregistrent plus des images mais des changements dans l'espace et le temps. Avec à la clé, une vision ultra-rapide et économe en données. Le français Prophesee est une tête d’affiche de cette filière naissante, pionnière de la microélectronique neuromorphique.

Frédéric Monflier

Publié le 29 janvier 2021 à 14h00

Réservé aux abonnés

Image d'illustration de l'article — Cette caméra d'évaluation intégrant le capteur de Prophesee compte, par seconde, plus de 1000 objets se mouvant à très haute vitesse (10 m/s) avec une précision de 99,5 %

Alliée de la robotisation, de l’inspection automatisée ou encore de la métrologie, la vision industrielle est en forte expansion : ce marché pesait 3 milliards de dollars dans le monde en 2019 et son taux de croissance annuel cumulé est estimé à 10 % jusqu’en 2025, selon Yole Développement. Les fournisseurs sont à l’affût d’innovations, la vitesse des lignes de production dépendant de la rapidité de leurs systèmes de supervision et de pilotage. « Il n’existe pas de technologie unique pour couvrir tous les besoins, qui ont tendance à se diversifier », constate Pierre Cambou, principal analyst chez Yole Développement.

Dès lors, les caméras dites événementielles, ou « event based », ont une place à prendre, en complément des caméras classiques. « Quand les notions de mouvement et de vitesse prévalent, elles vont au-delà des limitations actuelles et pourraient exceller dans le tri, l’analyse vibratoire sans contact et la détection d’objets très rapides », poursuit Pierre Cambou. La filière est encore embryonnaire. Jusqu’à présent, seul l’intégrateur allemand Imago Technologies commercialise une caméra événementielle à usage industriel, équipée d’un capteur Prophesee.

Un capteur bio-inspiré à l'assaut du marché de la vision industrielle

Cette start-up française (ex-Chronocam) a aussi signé avec CenturyArks, fabricant de modules de caméra, et d’autres partenaires sont attendus d’ici peu. Prophesee a appuyé sur l’accélérateur en septembre dernier en lançant Metavision Intelligence Suite, une boîte à outils logiciels. « C’est un message fort pour crédibiliser la technologie et un complément d’offre nécessaire pour que les ingénieurs et les développeurs puissent créer des systèmes autour de notre capteur, explique Luca Verre, le directeur général et cofondateur de Prophesee. Metavision propose 62 algorithmes, 54 exemples de codes informatiques et 11 applications prêtes à l’emploi, pour le comptage rapide, le contrôle de soudure, la mesure de vibrations, le suivi d’objets… Le fruit de cinq ans de travail de 25 ingénieurs, qui ont mis au point des centaines de preuves de concept dans l’automobile, l’IoT… »

Un capteur événementiel demande de l’accompagnement car son comportement est singulier : il reproduit le fonctionnement de notre rétine. Il est davantage question de perception que de vision-machine au sens habituel. Un capteur CMOS traditionnel est formé d’une grille de photorécepteurs qui transforment le flux lumineux incident en charges électriques. Ces informations sont relevées à une fréquence de 30 Hz ou davantage, pour former une image composée de pixels. Peu importe si la plupart des informations sont redondantes spatialement ou temporellement, les pixels sont capturés dans leur totalité à un intervalle de temps prédéterminé.

Résolution temporelle équivalente à 10 000 images par seconde

Un capteur bio-inspiré, lui, ne perçoit que les informations dynamiques, ou événements. « Seuls les changements dans l’espace et le temps sont détectés puis transmis, précise Sio-Hoi Ieng, professeur associé à l’Institut de la vision, rattaché à Sorbonne Université. Le temps de pose global disparaît. Chaque photorécepteur est indépendant et indique binairement la hausse ou la baisse de l’intensité du signal lumineux reçu. La résolution temporelle est de l’ordre de la microseconde, soit l’équivalent d’un capteur mégahertz. C’est l’idéal pour observer des phénomènes transitoires rapides. »

Les caméras à très haute vitesse ne sont pas aussi performantes et réclament l’analyse a posteriori de plusieurs gigaoctets de données. « Un capteur événementiel peut travailler à grande vitesse malgré une faible puissance de calcul », argue Luca Verre. De facto, il génère beaucoup moins de données et consomme moins d’énergie. Un atout pour les systèmes autonomes et plus généralement pour la « machine vision », alors que la loi de Moore s’est essoufflée.

Illustration avec une caméra d'évaluation de Prophesee. Equipée du capteur de troisième génération mis au point par la start-up française et d’un processeur Qualcomm pour smartphone, la caméra compte, par seconde, plus de 1 000 objets se mouvant à très haute vitesse (10 m/s) avec une précision de 99,5 %. Sa résolution temporelle équivaut à quelque 10 000 images par seconde. Un comptage aussi rapide, malgré une faible puissance de calcul, reste hors de portée d’une caméra haute vitesse standard.

« Un prix quatre à huit fois inférieur », Carsten Strampe, directeur général d'Imago Technologies

« Notre partenariat avec Prophesee a débuté il y a deux ans. Nous avons immédiatement perçu le potentiel d’un capteur événementiel pour les applications à très haute vitesse. Avec une approche classique, vous avez besoin d’une caméra à haute vitesse, d’une carte d’acquisition d’images et d’un ordinateur industriel. Notre caméra VisionCam EB regroupe toutes ces fonctions pour un coût quatre à huit fois moindre. Nous ciblons par exemple l’industrie de l’emballage, fabricants de machines compris, et l’industrie de process. Plusieurs projets ont dépassé le stade de la preuve de concept, les clients déployant notre solution sur leurs lignes de production. Pour le traitement des données, les librairies Metavision de Prophesee sont une option, mais les clients sont libres de récupérer les données brutes et d’utiliser les plates-formes matérielles et logicielles de leur choix. »

Microélectronique neuromorphique

La rétine artificielle est l’aboutissement des travaux de Carver Mead, pionnier de la microélectronique neuromorphique, et de la doctorante Misha Mahowald, à la fin des années 1980 au Caltech. En 2004, à l’École polytechnique fédérale (ETH) de Zurich, Tobi Delbruck, ancien étudiant de Carver Mead, élabore un prototype, siglé DVS (dynamic vision sensor), qu’il raccorde à un ordinateur afin de collecter et exploiter les données. Un jalon technologique est posé. Tous les capteurs à vision dynamique actuels sont les héritiers du DVS et partagent le même principe : un micro-circuit logique est assigné à chaque photorécepteur et détecte les variations du flux lumineux, signes d’un événement.

En Europe, les principaux centres de recherche se situent à Zurich, à l’Institut autrichien de technologie (AIT), à l’université de Séville et à l’Institut de la vision, en France. Depuis la fin des années 2000, ils ont essaimé plus ou moins directement des entreprises qui défrichent l’immense champ applicatif (vision industrielle, IoT, navigation autonome, réalité virtuelle, réalité mixte…) en quête de débouchés commerciaux : Inivation, Insightness et, en France, Prophesee.

Les géants des capteurs d’image avancent leurs pions

Hors de l’Europe, on trouve le chinois Celepixel et le coréen Samsung. Mais les lignes bougent : Sony, qui domine le marché du capteur CMOS, a fait l’acquisition en 2019 d’Insightness, pour diversifier ses activités… et ne pas laisser le champ libre à Samsung, deuxième producteur mondial de capteur CMOS. Celepixel appartient depuis quelques mois au chinois Will Semiconductor, qui s’était emparé il y a deux ans d’Omnivision, le troisième producteur de capteur CMOS.

Les géants des capteurs d’image avancent leurs pions. Les intentions des uns et des autres ne convergent pas toujours. Samsung investit dans les capteurs DVS pour vraisemblablement équiper ses futurs smartphones. Le coréen commercialise déjà un capteur événementiel à l’attention des particuliers, consacré à la surveillance du domicile. L’offre de Prophesee, tout aussi concrète, se concentre davantage sur des applications professionnelles et industrielles. Les autres concepteurs de capteurs prospectent à 360°, mais faute d’un développement aussi avancé, ne livrent que des kits d’évaluation pour la recherche académique et les essais dans l’industrie.

Définition et sensibilité s'améliorent

Au fil des perfectionnements technologiques, les définitions croissent – 1 280 x 960 pixels pour le plus récent capteur de Samsung – et les photorécepteurs rapetissent. Annoncé cette année, le capteur de quatrième génération de Prophesee dispose de photorécepteurs de 4,86 micromètres au lieu de 40 pour le capteur DVS128 d’Inivation, douze ans plus tôt. Les capteurs de dernière génération de Prophesee et Samsung profitent des procédés de fabrication les plus modernes s’appliquant aux capteurs CMOS, comme l’illumination par l’arrière et l’empilement (« stacked BSI ») : la surface photosensible occupe seule le devant du capteur, ce qui améliore la sensibilité. C’est l’objet des partenariats entre Prophesee et Sony, et entre Inivation et Samsung. Ces poids lourds peuvent lancer une production de masse dès que nécessaire.

Certains capteurs offrent la possibilité de produire une véritable image en niveaux de gris, un circuit électronique supplémentaire mesurant la valeur absolue de l’intensité lumineuse. C’est le cas du Celex-V de Celepixel et du Davis346 d’Inivation. L’idée est de multiplier les options pour couvrir davantage d’applications et recycler des algorithmes d’analyse d’image éprouvés, l’information temporelle étant écrasée. « Mais la redondance spatiale éliminée par le capteur réapparaît et la latence augmente, nuance Sio-Hoi Ieng. Avec un traitement d’image standard, il n’y a pas de raison d’utiliser un capteur event based. Il vaut mieux exploiter leurs propriétés natives. »

Le futur : coupler ces capteurs à des processeurs neuromorphiques

« Une image reconstituée est un facteur critique si elle doit faire l’objet d’une appréciation humaine, dans la vidéosurveillance par exemple, avance Luca Verre. Nos réseaux de neurones récurrents permettent aujourd’hui de reconstruire une image à partir d’événements. » Le capteur Gen4 de Prophesee, dont l’industrialisation démarrera fin 2021, sera doté d’un ESP (event signal processor), l’équivalent du DSP qui accompagne nombre de circuits électroniques. « Un prétraitement des données est nécessaire pour faciliter l’intégration avec les unités de calcul standard et maintenir les performances des algorithmes », explique le dirigeant.

La prochaine étape logique serait d’associer les capteurs DVS, qui envoient des impulsions électriques, et les processeurs neuromorphiques (IBM TrueNorth par exemple), qui les « comprennent ». « L’impact des caméras événementielles sera maximisé au cours de la prochaine décennie si les processeurs fonctionnent de la même façon », conclut Pierre Cambou.

Trois produits pour capter les événements

VisionCam EB d’imago Technologies

Voici la première caméra « event based » opérationnelle pour la vision industrielle. Elle contient un capteur Prophesee de troisième génération, avec une définition de 640 x 480 pixels et une capacité de traitement de 30 millions d’événements par seconde. Le processeur est un ARM Cortex A15 à 1,5 GHz. La communication s’opère via un port gigabit ethernet, un port série et des entrées/sorties numériques. Programmable, la VisionCam EB fonctionne sous Linux Debian.

DVL-5000 d’Inivation

Le profileur laser DVL-5000 embarque le capteur Dvxplorer (640 x 480 pixels), dont la résolution temporelle est de 200 microsecondes et la latence inférieure à la milliseconde. Objectif : accroître la réactivité des systèmes robotiques dans le contrôle qualité, le guidage et l’inspection haute vitesse. Il s’agit d’un kit d’évaluation, mais Inivation négocie avec des partenaires industriels, tant des fournisseurs de systèmes que des clients finaux.

Celex-V de Celepixel

Celepixel vise large : conduite autonome, logistique, robotique, maintenance prédictive… Son dernier capteur, Celex-V, offre une définition de 1 280 x 800 pixels et traite jusqu’à 140 millions d’événements à la seconde. Il peut également produire une image en niveaux de gris. L’entreprise chinoise ne fournit pour le moment que des échantillons pour le développement d’applications de « machine vision ».