Gesichtserkennung in Zürich
Sicherheitsgewinn oder Beginn der Massenüberwachung?
Ich bin in einem System aufgewachsen, in dem man schon als Kind lernte, was man sagen darf und was besser nicht. Meine Eltern sagten oft zu mir: „Pass auf, das darfst du aber niemandem erzählen.“ Damals betrieb das Ministerium für Staatssicherheit, die Stasi, den größten Überwachungsapparat der Weltgeschichte. 1989 waren rund 280.000 Menschen offiziell polizeinah tätig, dazu kamen weitere rund drei Millionen Bürger in sicherheitsnahen Funktionen. Rechnete man all diese Kräfte zusammen, lag die „Sicherheitsdichte“ bei einem Akteur pro etwa fünf Einwohner. Kontrolle war kein Gefühl, sondern Alltag. Man passte auf, wer zuhört. Man fragte sich nicht, ob man beobachtet wird. Man wusste es. Das ist viele Jahre her. Heute lebe ich in einer Demokratie, in einem System der Rechte, der Meinungsfreiheit und der Transparenz.
In den letzten Tagen des November 2025 hat der Zürcher Kantonsrat einen entscheidenden Schritt gewagt: Er entschied, dass automatische Gesichtserkennung im öffentlichen Raum künftig unter bestimmten Bedingungen erlaubt sein soll. Diese Entscheidung löste sofort eine heftige Debatte aus. Befürworter sprechen von einer Chance für mehr Sicherheit, zum Beispiel bei der Fahndung nach gesuchten Personen, bei Gewalt in der Innenstadt oder bei drohenden Gefahren an großen Events. Kritiker warnen jedoch vor einem gefährlichen Dammbruch: Linke Parteien und Datenschützer sprechen von der Gefahr einer „flächendeckenden Überwachung“.
Ich weiß, wie es sich anfühlt, wenn der Staat zu nah kommt. Wenn man sich klein fühlt. Wenn man nicht sicher ist, ob man sprechen darf. Ich verachte es bis heute und genau deshalb ist mir wichtig, dass das nie wieder passiert.
Aber genauso gefährlich wie Misstrauen ist Hilflosigkeit. Wenn Straftaten unaufgeklärt bleiben. Wenn Gewalt im öffentlichen Raum zunimmt. Wenn Polizei nicht mehr hinterherkommt. Dann verlieren Menschen das Vertrauen in den Staat. Im Rahmen dieses Artikels wird die Technik der Gesichtserkennung am Beispiel der Vaidio AI Vision Plattform erläutert. Dabei geht es nicht nur um die technische Funktionsweise, sondern auch um Einsatz und Nutzen.
Wie ist die Ausgangslage in Zürich
In Zürich, ebenso wie in vielen großen Städten, steht die Polizei täglich vor einer wachsenden Zahl an Straftaten und mangelnden Ressourcen. Die polizeiliche Kriminalstatistik 2024 zeigt: Zürich steht zunehmend unter Druck. Allein im Stadtraum wurden über 48 000 Straftaten registriert, rund 4,5 Prozent mehr als im Vorjahr. Im gesamten Kanton Zürich wurden sogar über 110 000 Straftaten nach Strafgesetzbuch (StGB) gezählt.
Der mit Abstand größte Teil aller Straftaten betrifft Vermögensdelikte, über 66 Prozent aller Fälle. Dazu gehören Diebstahl, Einbruch, Betrug und Sachbeschädigungen. Doch gerade hier ist die Aufklärungsquote niedrig: Zwei von drei Fällen bleiben ungelöst.
Auch im Bereich der Gewalt ist ein Anstieg zu verzeichnen. 2024 wurden über 10 700 Gewaltdelikte erfasst. Besonders auffällig ist, dass die meisten dieser Taten nicht im privaten Raum stattfinden, sondern dort, wo Menschen aufeinandertreffen. Der öffentliche Raum bildet den Schwerpunkt: Straßen, Plätze, Parkplätze, Gastronomie, Verkaufsflächen, Bildungsstätten oder Freizeitorte sind die Schauplätze spontaner Konflikte und eskalierender Situationen. Mehr als zwei Drittel aller Gewalttaten in Zürich geschehen in diesen Bereichen, oftmals innerhalb weniger Sekunden und meist ohne Vorwarnung. Das Eintreffen der Polizei am Ort des Geschehens geschieht fast immer nachträglich, denn präventives Eingreifen ist nur schwer möglich. Ein strukturelles Problem verschärft die Lage zusätzlich: Im Vergleich zu europäischen Staaten liegt die Polizeidichte in der Schweiz deutlich unter dem empfohlenen Wert von 1 zu 300 Einwohnern. Aktuelle Schätzungen für 2025 sprechen von 1 Polizisten auf 477 Einwohner. Im europäischen Vergleich gehört die Schweiz zu den Ländern mit einer sehr tiefen Polizeidichte.
Ein weiterer Blick in die Statistik zeigt zudem einen entscheidenden Befund: Kriminalität verteilt sich nicht gleichmäßig auf die Bevölkerung. Im Jahr 2024 wurden 16 751 erwachsene Personen wegen Straftaten registriert. Davon begingen knapp die Hälfte nur eine einzige Straftat. Die andere Hälfte allerdings war mehrfach auffällig. Mehr als 50 Prozent der Ermittlungsarbeit entfiel somit auf Personen, die zwei, drei oder sogar mehr Delikte innerhalb eines Jahres begangen haben. Eine kleine Gruppe von Wiederholungstätern ist überdurchschnittlich aktiv und verursacht einen erheblichen Teil der Gesamtlage. Damit wird klar: Es sind nicht alle Menschen potenziell verdächtig, sondern ein relativ kleiner, bekannter Teil, der immer wieder in Erscheinung tritt und die polizeilichen Ressourcen stark bindet.
Aus dieser Erkenntnis ergibt sich eine wichtige Perspektive für jede Diskussion über neue Technologien. Gesichtserkennung würde nicht bedeuten, dass alle Menschen überwacht oder kontrolliert werden müssten. Sie wäre vielmehr ein Instrument, um bekannte Wiederholungstäter schneller zu identifizieren, bevor sie erneut zuschlagen.
Gängige Mythen über Gesichtserkennung
Wenn über KI und Gesichtserkennung gesprochen wird, entsteht oft sofort ein bestimmtes Bild im Kopf: Kameras, die alles sehen, alles wissen und jeden Menschen auf der Straße sofort identifizieren. Eine Technologie, die jeden Schritt beobachtet, jede Bewegung bewertet und vielleicht sogar mehr über uns weiß als wir selbst. Allein diese Vorstellung reicht oft schon aus, um starke Emotionen auszulösen. Faszination auf der einen Seite, Sorge und Misstrauen auf der anderen.
Auch Medienberichte prägen das Bild: Skandale und mögliche Missbräuche rücken ins Rampenlicht und verstärken die Skepsis. Prominente Rückzieher und Debatten auf EU-Ebene (Kampagnen gegen Massen-Biometrie) flößen oft Zweifel statt Vertrauen ein. In Summe steht im öffentlichen Bewusstsein häufig ein Bild von „Allsehender KI“ ohne Privatsphäre im Raum.
Im eigenen Alltag nutzen wir Gesichtserkennung jedoch ganz freiwillig, ohne uns verfolgt zu fühlen. Ein typisches Beispiel ist das Entsperren unseres Smartphones. Wenn wir morgens auf das Handy schauen und es mit einem Blick entsperren, empfinden wir das nicht als Überwachung, sondern als Schutz und als Komfort. Wir nutzen dieselbe Technologie nur in einem sicheren, privaten Rahmen, den wir selbst kontrollieren. Dort wirkt Gesichtserkennung nicht bedrohlich, sondern hilfreich.
Genau deshalb ist es erforderlich, bevor man über Chancen oder Risiken spricht, zuerst die Technik zu verstehen. Wie „sieht“ eine KI ein Gesicht? Was erkennt sie tatsächlich – und was nicht?
Was ist Gesichtserkennung und wie funktioniert sie?
Face Recognition wie die von Vaidio basiert auf Deep-Learning-Algorithmen. Dabei werden Gesichter zunächst im Videobild detektiert, ausgerichtet und in numerische Merkmals-Vektoren („Embeddings“) überführt. Dieser Prozess ist typisch für moderne FR-Systeme: Aus den Bilddaten werden durch ein neuronales Netz automatische Feature-Extraktionen gewonnen, die robuste, semantische Beschreibungen der Gesichter liefern. Anschließend vergleicht das System die erfassten Gesichter mit einer Datenbank bekannter Templates. Ist eine Übereinstimmung erkennbar (Threshold-basiert), so wird eine Identität bzw. eine Gruppen- oder Rollen-Zuordnung ausgegeben.
Um besser zu verstehen, wie Gesichtserkennung funktioniert, hilft ein Blick auf zwei verschiedene Situationen. Stellen wir uns einen Ort vor, zum Beispiel einen Bahnhof oder den Eingang zu einem Gebäude. Eine Kamera nimmt Menschen auf, die hindurchgehen. Die Software dahinter erkennt automatisch, dass ein Gesicht zu sehen ist und beginnt, es zu analysieren. Jetzt entscheidet sich alles daran, ob die Person in einer Datenbank gespeichert wurde oder nicht.
Wenn die Person nicht in einer Datenbank hinterlegt ist, passiert eigentlich sehr wenig. Das System bemerkt, dass ein Gesicht im Bild ist, erstellt einen kurzzeitigen „Gesichtsabdruck“, also ein mathematisches Muster aus bestimmten Merkmalen wie Augenabstand oder Kinnform und verwirft es wieder. Für die KI bleibt dieser Mensch anonym. Er wird nicht erkannt, nicht identifiziert und nicht gespeichert. Die KI sieht also, dass ein Mensch da ist, aber sie kennt ihn nicht. Man könnte sagen: Das Gesicht ist nur ein neutrales Bild, ohne Namen und ohne Bedeutung.
Anders ist es bei einer Person, die bewusst in einer Datenbank hinterlegt wurde, zum Beispiel weil sie auf einer Fahndungsliste steht. Tritt diese Person vor die Kamera, analysiert die Software wieder ihr Gesicht und erstellt einen Gesichtsabdruck. Dieser wird mit den gespeicherten Codes in der Datenbank verglichen. Wenn eine Übereinstimmung gefunden wird, erkennt das System die Person und kann sofort Alarm auslösen. Man könnte sagen: Die KI erinnert sich an sie, nicht weil sie jeden Menschen kennt, sondern nur, weil sie zuvor gezielt gespeichert wurde.
Wie Ermittlungen heute ablaufen
Zunächst müssen Videoaufnahmen umliegender Kameras gesichert und anschließend gesichtet werden. Das sind oft Stunden oder sogar Tage an Videomaterial, allein um herauszufinden, wann der Täter auftaucht, wo er hingegangen ist und ob er vorher schon vor Ort war. Gibt es mehrere Kameras, müssen Bewegungsprofile manuell zusammengesetzt werden. Das bedeutet: Ermittler versuchen über Tage herauszufinden, ob die Person an bestimmten Orten wieder auftaucht. Oft müssen Verdächtige observiert, Bewegungen protokolliert und Verhaltensmuster gesammelt werden. Solche Maßnahmen binden viel Personal und finden meist im Hintergrund statt, manchmal mit Erfolg, manchmal ohne Ergebnis.
Wie KI-basierte Videoüberwachung mit Gesichtserkennung Ermittlungen verändert
Mit einer KI-basierten Videoanalyseplattform wie Vaidio verändert sich dieser gesamte Ermittlungsprozess grundlegend. Sobald Videomaterial vorhanden ist, unabhängig davon, ob es von öffentlichen Kameras, privaten Systemen oder aus einem Geschäft stammt, kann es automatisch ausgewertet und nach bestimmten Merkmalen durchsucht werden. Das System erkennt etwa eine Person mit Kapuze, schätzt Geschlecht und ungefähres Alter, registriert Kleidungsmerkmale, auffällige Accessoires wie Taschen oder Rucksäcke und analysiert Bewegungsabläufe. Diese Informationen bleiben nicht auf eine einzelne Kamera beschränkt. Sie werden, sofern berechtigt, über alle verbundenen Kameras hinweg miteinander verknüpft. Statt unzählige Stunden an Aufzeichnungen manuell durchzugehen, liefert das System Antworten auf konkrete Fragen: Wann ist diese Person erstmals aufgetaucht? Hielt sie sich bereits an Tagen zuvor am selben Ort auf? Ist sie alleine unterwegs oder taucht sie wiederholt im Umfeld derselben Personengruppe auf?
Kommt zusätzlich Gesichtserkennung zum Einsatz, verändert sich der Ablauf noch stärker. In diesem Fall wird der zuvor generierte Gesichtsabdruck einer Person mit gespeicherten Einträgen in einer Datenbank verglichen. Wird eine Übereinstimmung festgestellt, bedeutet das nicht einfach einen Hinweis, sondern einen klaren Standortbezug: Das System zeigt, wann und wo eine gesuchte Person zuletzt gesehen wurde, zum Beispiel an einem Bahnhof, in der Altstadt oder in der Nähe eines Tatorts. Damit wird aus einer anonymen Videosequenz eine konkrete Spur. Die Polizei weiß nicht nur, dass die Person unterwegs war, sondern auch wo sie sich befand, in welche Richtung sie gegangen ist und ob sie zuvor bereits an einem anderen Ort aufgetaucht ist. Und das sekundenschnell. Das Besondere daran: Nicht nur die Suchzeit verkürzt sich drastisch. Auch der Ermittlungsansatz verändert sich. Beobachtungen müssen nicht mehr mühsam rekonstruiert werden, sondern lassen sich nachvollziehen. Verdachtsmomente werden nicht mehr zufällig entdeckt, sondern erkennbar gemacht. Statt Ermittlungen bei null zu beginnen, können sie dort starten, wo früher erst nach Tagen angekommen wurde.
Ein kurzer Blick in die falsche Richtung
Ein häufiger Einwand lautet: „Wir haben doch bereits alle biometrischen Daten in den Pässen – also existiert so eine Datenbank doch längst.“
Ja, es stimmt: In der Schweiz werden biometrische Daten für Reisepässe zentral im Informationssystem Ausweisschriften (ISA) gespeichert. Darin enthalten sind Personalien, das Passfoto und Fingerabdrücke, ausschließlich für Verwaltungszwecke. Der Zweck ist klar begrenzt: Identifikation bei offiziellen Verfahren, Unterstützung bei Verlustmeldungen, Schutz vor Identitätsbetrug. Zugriff haben nur autorisierte Stellen wie Fedpol, kantonale Behörden oder das Grenzwachkorps. Doch entscheidend ist, was ISA nicht ist: ISA ist kein Überwachungssystem, keine Live-Datenbank für Kameras, kein Instrument, das Gesichter im öffentlichen Raum automatisch identifiziert. Aber es wäre nur ein halber Blick in die falsche Richtung, wenn man dabei stehenbliebe. Theoretisch könnte eine nationale Gesichtsdatenbank aufgebaut werden, technisch wäre das machbar. Doch dafür müssten Millionen biometrische Datensätze erfasst, validiert und in Echtzeit abrufbar sein. Würde jedes Gesicht in diesen Aufnahmen mit Millionen biometrischer Profile verglichen, entstünde ein gigantisches Datenvolumen, das nur mit einer nationalen Hochleistungsinfrastruktur bewältigt werden könnte.
Solche Systeme existieren tatsächlich. In Ländern wie China sind Rechenzentren Teil staatlicher Infrastruktur und mit flächendeckenden Kamerasystemen verbunden. Wenn wir nach China schauen, sehen wir, wohin solch eine Entwicklung führen kann. Dort sind große städtische Überwachungssysteme direkt mit zentral verwalteten biometrischen Datenbanken verbunden. Kameras sind auf Echtzeit-Erkennung ausgelegt, und Bewegungen im öffentlichen Raum können automatisiert Personenprofilen zugeordnet werden. Gesichtserkennung ist dort Teil einer umfassenden staatlichen Infrastruktur, die nicht nur für Sicherheit, sondern auch für Verwaltung, Zugangskontrolle und teilweise sogar für soziale Bewertungssysteme genutzt wird. Dieses Modell basiert auf anderen rechtlichen und gesellschaftlichen Grundlagen, auf einem Verständnis von Staat und Bürger, das mit europäischen Datenschutz- und Freiheitsprinzipien nicht vereinbar ist und in der Zukunft auch hoffentlich nie sein wird.
Dass das nie wieder passiert, liegt in unserer Verantwortung. Nicht in der Verantwortung irgendeiner Software, sondern in der Stärke unserer rechtsstaatlichen Prinzipien. In unseren Gesetzen, in unserer Transparenz, in der Pflicht zur Begründung und im Recht auf Widerspruch. Demokratie ist nichts, das man einmal erreicht und dann behält. Sie wird jeden Tag verteidigt, gerade dort, wo neue Technologien entstehen. Wenn wir klare Grenzen definieren, Schutzmechanismen einbauen und die Kontrolle beim Menschen belassen, kann Gesichtserkennung Teil einer modernen Sicherheitsarchitektur sein. Nicht als Werkzeug der Macht, sondern als Dienst an der Gesellschaft.
Fazit – Entlastung, nicht Kontrolle
Bei moderner Gesichtserkennung geht es nicht um das Erfassen aller Menschen, sondern um das schnelle Erkennen weniger bekannter Personen, die immer wieder in Erscheinung treten. Kriminalitätsdaten zeigen, dass nicht die breite Bevölkerung im Fokus stehen müsste, sondern ein kleiner Teil von Wiederholungstätern. Genau hier kann intelligente Videoanalyse helfen.
Das ist ein entscheidender Unterschied. Der Begriff „Massenüberwachung“ taucht in Debatten oft auf, technisch und rechtlich aber wäre eine flächendeckende Gesichtserkennung weder sinnvoll, noch praktikabel, noch mit demokratischen Grundwerten vereinbar. Sie würde Ressourcen verschwenden, Datenmengen erzeugen, die kaum zu verarbeiten wären, und letztlich den Blick auf das verlieren, was wirklich relevant ist.
Stattdessen verfolgt ein System wie Vaidio ein klares Ziel: Informationen so aufzubereiten, dass Ermittler dort ansetzen können, wo es zählt. Sie stellt ein Zeitgewinn für die Momente dar, in denen jede Minute zählt.
Moderne Sicherheit heißt nicht: alles sehen.
Moderne Sicherheit heißt: das Richtige erkennen.
Quellen:
Autoren:
Anne-Katrin Michelmann
Datum: 27.11.2025