Art. 10 EU AI Act: Datenqualität für Hochrisiko-KI

Eine Hochrisiko-KI ist nur so vertrauenswürdig wie die Daten, mit denen sie trainiert, validiert und getestet wurde. Der EU AI Act zieht genau hier eine Linie, die viele Organisationen unterschätzen: Artikel 10 der Verordnung (EU) 2024/1689 macht Daten-Governance zu einer eigenständigen, prüfbaren Pflicht für Hochrisiko-Systeme. Nicht das fertige Modell steht im Zentrum, sondern die Frage, auf welcher Datengrundlage es überhaupt entstanden ist — und ob diese Grundlage dem beabsichtigten Zweck standhält.

Warum Datenqualität eine Rechtspflicht ist, keine Kür

In der klassischen ML-Praxis gilt Datenqualität als Best Practice: Wer saubere Daten verwendet, bekommt bessere Modelle. Der EU AI Act hebt diesen Grundsatz auf eine andere Ebene. Für Hochrisiko-Systeme, die mit dem Training von Modellen mit Daten arbeiten, schreibt Art. 10 vor, dass Trainings-, Validierungs- und Testdatensätze festgelegten Qualitätskriterien genügen müssen. Aus einer Empfehlung wird eine Bedingung für das Inverkehrbringen.

Der Grund ist konsequent: Verzerrte, lückenhafte oder unpassende Daten sind bei Hochrisiko-KI keine technische Unannehmlichkeit, sondern eine direkte Quelle für Gefahren für Gesundheit, Sicherheit und Grundrechte. Ein Recruiting-System, das auf historisch einseitigen Bewerberdaten trainiert wurde, reproduziert Diskriminierung — unabhängig davon, wie elegant die Modellarchitektur ist. Art. 10 setzt deshalb vor dem Modell an: an der Provenienz und Beschaffenheit der Daten selbst.

Daten-Governance: Die Praktiken hinter dem Datensatz

Art. 10 Abs. 2 verlangt keine einmalige Datenprüfung, sondern etablierte Daten-Governance- und Datenverwaltungspraktiken, die zum Zweck des Systems passen. Die Verordnung benennt dabei ausdrücklich eine Reihe von Aspekten, die abgedeckt sein müssen, und macht damit Schluss mit der Vorstellung, ein Datensatz sei eine Blackbox.

Dazu gehören die relevanten Entwurfsentscheidungen ebenso wie die Datenerhebungsprozesse und der Ursprung der Daten. Hinzu kommen die einschlägigen Aufbereitungsschritte — Annotation, Kennzeichnung, Bereinigung, Aktualisierung, Anreicherung und Aggregation. Provider müssen außerdem die zugrunde gelegten Annahmen formulieren, insbesondere mit Blick darauf, was die Daten messen und repräsentieren sollen, und eine Bewertung von Verfügbarkeit, Menge und Eignung der Datensätze vornehmen.

Diese Anforderungen verlangen, dass eine Organisation ihren eigenen Datensatz beschreiben und begründen kann. Woher stammen die Daten? Welche Annahmen stecken in der Auswahl? Welche Aufbereitungsschritte haben die Daten durchlaufen, und wer hat sie verantwortet? Wer diese Fragen nicht beantworten kann, erfüllt Art. 10 nicht — selbst wenn das Modell im Test gut abschneidet. Eine Übersicht, welche Systeme überhaupt unter die Hochrisiko-Kategorien fallen, bietet hochrisiko-ki.com.

Bias-Prüfung als ausdrückliche Pflicht

Ein Kernstück von Art. 10 ist die Auseinandersetzung mit Verzerrungen. Die Verordnung verlangt eine Untersuchung der Datensätze im Hinblick auf mögliche Bias, die die Gesundheit und Sicherheit von Personen beeinträchtigen, Grundrechte negativ beeinflussen oder zu Diskriminierung führen könnten — besonders dort, wo Datenausgaben künftige Eingaben beeinflussen, also Rückkopplungsschleifen entstehen.

Es bleibt nicht bei der bloßen Untersuchung. Art. 10 fordert geeignete Maßnahmen, um solche Verzerrungen zu erkennen, zu verhindern und abzumildern. Ergänzend müssen relevante Datenlücken oder Mängel identifiziert werden, zusammen mit der Frage, wie sich diese beheben lassen. Diese Verzahnung von Erkennen und Handeln ist entscheidend: Eine dokumentierte Bias-Analyse, die folgenlos bleibt, genügt der Pflicht nicht.

Für die ansonsten strenge Trennlinie der DSGVO macht der EU AI Act an dieser Stelle eine eng umgrenzte Ausnahme. Art. 10 Abs. 5 erlaubt unter strikten Schutzvorkehrungen die Verarbeitung besonderer Kategorien personenbezogener Daten, soweit dies für die Erkennung und Korrektur von Verzerrungen unbedingt erforderlich ist — ein Hinweis darauf, wie ernst der Gesetzgeber die Bias-Frage nimmt.

Relevant, repräsentativ, fehlerarm

Die wohl meistzitierte Anforderung steht in Art. 10 Abs. 3: Trainings-, Validierungs- und Testdatensätze müssen relevant, hinreichend repräsentativ und so weit wie möglich fehlerfrei und vollständig im Hinblick auf die Zweckbestimmung sein. Sie sollen die geeigneten statistischen Eigenschaften aufweisen, auch in Bezug auf die Personen oder Personengruppen, bei denen das System eingesetzt werden soll.

Bemerkenswert ist die Formulierung "so weit wie möglich". Der EU AI Act verlangt keine perfekten Daten — perfekte Daten existieren in der Praxis nicht. Er verlangt einen am Zweck ausgerichteten, begründbaren Umgang mit den unvermeidlichen Unzulänglichkeiten. Hinzu kommt nach Art. 10 Abs. 4 die Pflicht, die besonderen Merkmale des konkreten geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Umfelds zu berücksichtigen, in dem das System genutzt werden soll. Ein Modell, das für einen Markt trainiert und in einem anderen Rechtsraum — etwa DE, EU27-Rest, UK oder CH — ohne diese Anpassung eingesetzt wird, kann die Repräsentativitätsanforderung verfehlen.

Eine wichtige Differenzierung betrifft Systeme, die nicht auf dem Training von Modellen beruhen. Für sie gelten die Datenanforderungen nach Art. 10 Abs. 6 nur in Bezug auf die Testdatensätze. Die Pflicht skaliert also mit der Art, wie ein System Daten überhaupt nutzt.

Vom Datensatz zum belastbaren Nachweis

Art. 10 beschreibt einen Qualitätsanspruch — im Audit zählt aber nicht der Anspruch, sondern die nachvollziehbare Praxis. Genau hier wird Daten-Governance zur Trust-Frage. Eine Organisation kann ihre Datensätze sorgfältig kuratiert haben; wenn sie nicht belegen kann, woher die Daten stammen, welche Aufbereitungsschritte sie durchlaufen haben und mit welchem Ergebnis sie auf Verzerrungen geprüft wurden, bleibt der Nachweis lückenhaft.

Belastbar wird Art. 10 erst, wenn die Datengrundlage eine dokumentierte Geschichte hat: nachvollziehbare Herkunft, protokollierte Aufbereitungsschritte mit Verantwortlichkeit, datierte Bias-Analysen samt der daraus abgeleiteten Maßnahmen und eine begründete Bewertung von Repräsentativität und Datenlücken. Diese Evidenz entsteht nicht rückwirkend kurz vor der Konformitätsbewertung. Sie fällt im laufenden Datenmanagement an — was den engen Zusammenhang zu einem gelebten AI Management System (AIMS nach ISO 42001 × CMMI v3) erklärt. Das Managementsystem liefert die Routinen, in denen die von Art. 10 geforderte Daten-Evidenz zuverlässig entsteht und wiederholbar wird.

Bis zum Wirksamwerden der Durchsetzung am 02.12.2027 (Digital Omnibus) bleibt Organisationen Zeit, ihre Daten-Governance von verstreuten Notizen zu einem nachweisbaren Dauerbetrieb umzubauen. Art. 10 ist deshalb mehr als eine technische Datenanforderung. Er ist der Punkt, an dem sich entscheidet, ob eine Organisation die Qualität ihrer Datengrundlage behaupten oder belegen kann. Genau dort setzt evidenzbasierter AI Trust an: nachweisbar, audit-ready — nicht als Versprechen, sondern als nachvollziehbare Praxis. Mehr zur AEGIRA Trust-Platform: aegira.ai.