Reconnaissance faciale à Zurich

Gain de sécurité ou début de la surveillance de masse ?

J’ai grandi dans un système où, même enfant, on apprenait ce que l’on pouvait dire et ce qu’il valait mieux taire. Mes parents me disaient souvent : « Fais attention, tu ne dois en parler à personne. » À cette époque, le Ministère de la Sécurité d’État, la Stasi, gérait le plus grand appareil de surveillance de l’histoire mondiale. En 1989, environ 280 000 personnes exerçaient officiellement des fonctions proches de la police, auxquelles s’ajoutaient environ trois millions de citoyens dans des fonctions liées à la sécurité. Si l’on additionnait toutes ces forces, la « densité de sécurité » correspondait à un acteur pour environ cinq habitants. Le contrôle n’était pas un sentiment, mais le quotidien. On faisait attention à qui écoutait. On ne se demandait pas si l’on était surveillé. On le savait. C’était il y a de nombreuses années. Aujourd’hui, je vis dans une démocratie, dans un système de droits, de liberté d’expression et de transparence.

Dans les derniers jours de novembre 2025, le Conseil cantonal de Zurich a franchi une étape décisive : il a décidé que la reconnaissance faciale automatique dans l’espace public devrait à l’avenir être autorisée sous certaines conditions. Cette décision a immédiatement déclenché un vif débat. Les partisans parlent d’une opportunité d’accroître la sécurité, par exemple pour la recherche de personnes recherchées, en cas de violences en centre-ville ou en présence de dangers menaçants lors de grands événements. Les critiques mettent toutefois en garde contre une rupture dangereuse : les partis de gauche et les défenseurs de la protection des données évoquent le danger d’une « surveillance généralisée ».

Je sais ce que cela fait lorsque l’État s’approche trop près. Quand on se sent petit. Quand on n’est pas sûr d’avoir le droit de parler. Je le déteste encore aujourd’hui, et c’est précisément pour cette raison qu’il est important pour moi que cela ne se reproduise jamais.

Mais tout aussi dangereuse que la méfiance est l’impuissance. Quand des infractions restent non élucidées. Quand la violence dans l’espace public augmente. Quand la police n’arrive plus à suivre. Alors, les gens perdent confiance dans l’État. Dans le cadre de cet article, la technologie de reconnaissance faciale est expliquée à l’aide de l’exemple de la plateforme Vaidio AI Vision. Il ne s’agit pas seulement du fonctionnement technique, mais aussi de l’utilisation et de l’utilité.

Quelle est la situation initiale à Zurich

À Zurich, comme dans de nombreuses grandes villes, la police est confrontée chaque jour à un nombre croissant d’infractions et à un manque de ressources. Les statistiques policières de la criminalité 2024 montrent : Zurich est de plus en plus sous pression. Rien que dans l’espace urbain, plus de 48 000 infractions ont été enregistrées, soit environ 4,5 % de plus que l’année précédente. Dans l’ensemble du canton de Zurich, plus de 110 000 infractions selon le Code pénal (StGB) ont été comptabilisées.

De loin, la plus grande partie de toutes les infractions concerne les délits contre le patrimoine, représentant plus de 66 % de tous les cas. Cela inclut le vol, le cambriolage, la fraude et les dommages matériels. Mais c’est précisément dans ce domaine que le taux d’élucidation est faible : deux cas sur trois restent non résolus.

Une augmentation est également observable dans le domaine de la violence. En 2024, plus de 10 700 infractions violentes ont été enregistrées. Ce qui est particulièrement frappant, c’est que la plupart de ces actes ne se produisent pas dans des espaces privés, mais là où les gens se rencontrent. L’espace public constitue le principal point focal : rues, places, parkings, établissements gastronomiques, surfaces de vente, institutions éducatives ou lieux de loisirs sont les scènes de conflits spontanés et de situations qui dégénèrent. Plus des deux tiers de tous les actes de violence à Zurich se produisent dans ces zones, souvent en quelques secondes et généralement sans avertissement. L’arrivée de la police sur les lieux se fait presque toujours après coup, car une intervention préventive est très difficile. Un problème structurel aggrave encore la situation : comparée aux États européens, la densité policière en Suisse est nettement inférieure à la valeur recommandée d’un agent pour 300 habitants. Les estimations actuelles pour 2025 parlent d’un policier pour 477 habitants. Comparée à d’autres pays européens, la Suisse fait partie des pays ayant une densité policière très faible.

Un autre regard sur les statistiques révèle également un constat déterminant : la criminalité ne se répartit pas uniformément au sein de la population. En 2024, 16 751 personnes adultes ont été enregistrées pour des infractions. Parmi eux, près de la moitié n’a commis qu’une seule infraction. L’autre moitié, en revanche, s’est fait remarquer à plusieurs reprises. Plus de 50 % du travail d’enquête concernait donc des personnes ayant commis deux, trois ou même davantage d’infractions au cours d’une seule année. Un petit groupe de récidivistes est particulièrement actif et représente une part importante de la situation globale. Cela montre clairement que : toutes les personnes ne sont pas potentiellement suspectes, mais un groupe relativement restreint et connu qui apparaît à plusieurs reprises et mobilise fortement les ressources policières.

De ce constat découle une perspective importante pour toute discussion sur les nouvelles technologies. La reconnaissance faciale ne signifierait pas que toutes les personnes devraient être surveillées ou contrôlées. Elle serait plutôt un instrument permettant d’identifier plus rapidement les récidivistes connus avant qu’ils ne frappent à nouveau.

Mythes courants sur la reconnaissance faciale

Lorsqu’on parle d’IA et de reconnaissance faciale, une certaine image apparaît souvent immédiatement dans l’esprit : des caméras qui voient tout, savent tout et identifient instantanément chaque personne dans la rue. Une technologie qui observe chaque pas, évalue chaque mouvement et sait peut-être même plus sur nous que nous-mêmes. Cette seule idée suffit souvent à déclencher de fortes émotions. Fascination d’un côté, inquiétude et méfiance de l’autre.

Les reportages médiatiques façonnent également cette image : les scandales et les abus potentiels sont mis en lumière et renforcent le scepticisme. Des revirements marquants et des débats au niveau de l’UE (campagnes contre la biométrie de masse) suscitent souvent le doute plutôt que la confiance. Dans l’ensemble, la perception publique véhicule souvent l’image d’une « IA omnivoyante » sans vie privée.

Dans notre vie quotidienne, toutefois, nous utilisons la reconnaissance faciale tout à fait volontairement, sans nous sentir suivis. Un exemple typique est le déverrouillage de notre smartphone. Lorsque nous regardons notre téléphone le matin et le déverrouillons d’un simple regard, nous ne le percevons pas comme une surveillance, mais comme une protection et un confort. Nous utilisons la même technologie uniquement dans un cadre sûr et privé que nous contrôlons nous-mêmes. Là, la reconnaissance faciale n’apparaît pas comme une menace, mais comme une aide.

C’est précisément pour cette raison qu’il est nécessaire, avant de parler des opportunités ou des risques, de d’abord comprendre la technologie. Comment une IA « voit-elle » un visage ? Que reconnaît-elle réellement – et que ne reconnaît-elle pas ?

Qu’est-ce que la reconnaissance faciale et comment fonctionne-t-elle ?

La reconnaissance faciale comme celle de Vaidio repose sur des algorithmes d’apprentissage profond. Dans ce processus, les visages sont d’abord détectés dans l’image vidéo, alignés, puis convertis en vecteurs de caractéristiques numériques (« embeddings »). Ce processus est typique des systèmes de reconnaissance faciale modernes : à partir des données d’image, un réseau neuronal génère des extractions de caractéristiques automatiques qui fournissent des descriptions robustes et sémantiques des visages. Le système compare ensuite les visages capturés avec une base de données de modèles connus. Si une correspondance est détectée (sur la base d’un seuil), une identité ou une attribution de groupe ou de rôle est délivrée.

Pour mieux comprendre le fonctionnement de la reconnaissance faciale, il est utile d’examiner deux situations différentes. Imaginons un lieu, par exemple une gare ou l’entrée d’un bâtiment. Une caméra enregistre les personnes qui passent. Le logiciel derrière cela reconnaît automatiquement qu’un visage est visible et commence à l’analyser. À présent, tout dépend du fait que la personne soit enregistrée dans une base de données ou non.

Si la personne n’est pas enregistrée dans une base de données, il ne se passe en réalité pas grand-chose. Le système remarque qu’un visage est présent dans l’image, crée une « empreinte faciale » temporaire, c’est-à-dire un motif mathématique basé sur certaines caractéristiques comme la distance entre les yeux ou la forme du menton, puis la rejette à nouveau. Pour l’IA, cette personne reste anonyme. Il n’est ni reconnu, ni identifié, ni enregistré. L’IA voit donc qu’une personne est présente, mais elle ne la connaît pas. On pourrait dire : le visage n’est qu’une image neutre, sans nom et sans signification.

C’est différent pour une personne qui a été volontairement enregistrée dans une base de données, par exemple parce qu’elle figure sur une liste de personnes recherchées. Si cette personne se présente devant la caméra, le logiciel analyse à nouveau son visage et crée une empreinte faciale. Celui-ci est comparé aux codes enregistrés dans la base de données. Si une correspondance est trouvée, le système reconnaît la personne et peut déclencher immédiatement une alerte. On pourrait dire : l’IA se souvient d’elle, non pas parce qu’elle connaît chaque personne, mais seulement parce qu’elle a été enregistrée intentionnellement auparavant.

Comment les enquêtes se déroulent aujourd’hui

Une personne est agressée en pleine rue, l’auteur s’enfuit en quelques secondes. Il n’y a pas de témoins directs, à part des passants qui ont observé l’incident sans toutefois savoir précisément à quoi ressemblait l’auteur. La description de l’auteur se résume alors souvent à : « Veste sombre, capuche, peut-être une barbe. » La police sécurise les traces et commence ensuite le travail d’enquête. Ce qui suit est de la routine, mais extrêmement chronophage :
Tout d’abord, les enregistrements vidéo des caméras environnantes doivent être sécurisés puis visionnés. Il s’agit souvent d’heures, voire de jours de matériel vidéo, simplement pour découvrir quand l’auteur apparaît, où il est allé et s’il se trouvait déjà sur place auparavant. S’il y a plusieurs caméras, les profils de mouvement doivent être reconstitués manuellement. Cela signifie que les enquêteurs passent des jours à essayer de déterminer si la personne réapparaît à certains endroits. Souvent, des suspects doivent être surveillés, les mouvements consignés et des schémas de comportement recueillis. De telles mesures mobilisent beaucoup de personnel et se déroulent généralement en arrière-plan, parfois avec succès, parfois sans résultat.

Comment la vidéosurveillance basée sur l’IA avec reconnaissance faciale transforme les enquêtes

Avec une plateforme d’analyse vidéo basée sur l’IA comme Vaidio, l’ensemble de ce processus d’enquête change fondamentalement. Dès que du matériel vidéo est disponible, qu’il provienne de caméras publiques, de systèmes privés ou d’un commerce, il peut être analysé automatiquement et recherché selon certaines caractéristiques. Le système reconnaît par exemple une personne avec une capuche, estime le sexe et l’âge approximatif, enregistre les caractéristiques vestimentaires, les accessoires visibles comme des sacs ou des sacs à dos et analyse les mouvements. Ces informations ne se limitent pas à une seule caméra. Elles sont, si cela est autorisé, corrélées entre toutes les caméras connectées. Au lieu de parcourir manuellement d’innombrables heures d’enregistrements, le système fournit des réponses à des questions concrètes : Quand cette personne est-elle apparue pour la première fois ? Cette personne se trouvait-elle déjà au même endroit les jours précédents ? Cette personne se déplace-t-elle seule ou apparaît-elle à plusieurs reprises dans l’entourage du même groupe de personnes ?

Si la reconnaissance faciale est utilisée en plus, le déroulement change encore davantage. Dans ce cas, l’empreinte faciale préalablement générée d’une personne est comparée aux entrées enregistrées dans une base de données. S’il est constaté une correspondance, cela ne signifie pas simplement un indice, mais une indication claire de localisation : le système montre quand et où une personne recherchée a été vue pour la dernière fois, par exemple dans une gare, dans la vieille ville ou à proximité d’un lieu de crime. Ainsi, une séquence vidéo anonyme devient une piste concrète. La police sait non seulement que la personne était en déplacement, mais aussi où elle se trouvait, dans quelle direction elle est allée et si elle était déjà apparue auparavant à un autre endroit. Et cela en quelques secondes. Ce qui est particulier : non seulement le temps de recherche se réduit drastiquement. L’approche d’enquête change également. Les observations n’ont plus besoin d’être reconstruites péniblement, elles peuvent être retracées. Les éléments de suspicion ne sont plus découverts par hasard, mais rendus visibles. Au lieu de commencer les enquêtes à partir de zéro, elles peuvent débuter là où l’on n’arrivait qu’après plusieurs jours autrefois.

Un bref regard dans la mauvaise direction

Une objection fréquente est : « Nous avons déjà toutes les données biométriques dans les passeports – une telle base de données existe donc déjà. »
Oui, c’est vrai : en Suisse, les données biométriques pour les passeports sont stockées de manière centralisée dans le système d’information sur les documents d’identité (ISA). Il contient les données personnelles, la photo du passeport et les empreintes digitales, exclusivement à des fins administratives. L’objectif est clairement limité : identification lors de procédures officielles, assistance en cas de déclaration de perte, protection contre la fraude à l’identité. Seules des autorités autorisées, comme Fedpol, les autorités cantonales ou le corps des gardes-frontière, y ont accès. Mais ce qui est déterminant, c’est ce que l’ISA n’est pas : l’ISA n’est pas un système de surveillance, pas une base de données en direct pour les caméras, pas un instrument qui identifie automatiquement les visages dans l’espace public. Mais ce ne serait qu’un demi-regard dans la mauvaise direction si l’on s’arrêtait là. Théoriquement, une base de données nationale de visages pourrait être créée ; techniquement, cela serait réalisable. Mais pour cela, des millions d’enregistrements biométriques devraient être collectés, validés et accessibles en temps réel. Si chaque visage dans ces enregistrements était comparé à des millions de profils biométriques, un volume de données gigantesque serait créé, qui ne pourrait être géré qu’avec une infrastructure nationale haute performance.

De tels systèmes existent réellement. Dans des pays comme la Chine, les centres de calcul font partie de l’infrastructure de l’État et sont reliés à des systèmes de caméras couvrant tout le territoire. Lorsque nous regardons vers la Chine, nous voyons où un tel développement peut mener. Là-bas, de vastes systèmes de surveillance urbaine sont directement reliés à des bases de données biométriques gérées de manière centralisée. Les caméras sont conçues pour la reconnaissance en temps réel, et les mouvements dans l’espace public peuvent être automatiquement attribués à des profils personnels. La reconnaissance faciale y fait partie d’une infrastructure étatique complète, utilisée non seulement pour la sécurité, mais aussi pour l’administration, le contrôle d’accès et parfois même pour des systèmes d’évaluation sociale. Ce modèle repose sur d’autres bases juridiques et sociétales, sur une conception de l’État et du citoyen qui n’est pas compatible avec les principes européens de protection des données et de liberté, et qui, espérons-le, ne le sera jamais à l’avenir.

Il est de notre responsabilité de veiller à ce que cela ne se reproduise jamais. Pas dans la responsabilité d’un quelconque logiciel, mais dans la force de nos principes d’État de droit. Dans nos lois, dans notre transparence, dans l’obligation de motiver et dans le droit d’opposition. La démocratie n’est pas quelque chose que l’on atteint une fois pour ensuite la conserver. Elle est défendue chaque jour, en particulier là où de nouvelles technologies apparaissent. Si nous définissons des limites claires, intégrons des mécanismes de protection et laissons le contrôle aux êtres humains, la reconnaissance faciale peut faire partie d’une architecture de sécurité moderne. Non pas comme un instrument de pouvoir, mais comme un service à la société.

Conclusion – Allégement, non contrôle

Avec la reconnaissance faciale moderne, il ne s’agit pas de capturer toutes les personnes, mais de reconnaître rapidement quelques individus connus qui apparaissent à plusieurs reprises. Les données sur la criminalité montrent que ce n’est pas la population générale qui devrait être au centre, mais une petite partie de récidivistes. C’est exactement là que l’analyse vidéo intelligente peut aider.

C’est une différence décisive. Le terme « surveillance de masse » apparaît souvent dans les débats, mais techniquement et juridiquement, une reconnaissance faciale généralisée ne serait ni sensée, ni pratique, ni compatible avec les valeurs démocratiques. Elle gaspillerait des ressources, générerait des volumes de données difficiles à traiter et perdrait finalement de vue ce qui est vraiment pertinent.

Au lieu de cela, un système comme Vaidio poursuit un objectif clair : préparer les informations de manière à ce que les enquêteurs puissent commencer là où cela compte. Elle représente un gain de temps pour les moments où chaque minute compte.

La sécurité moderne ne signifie pas : tout voir.
La sécurité moderne signifie : reconnaître ce qui est juste.