Loading AI tools
Diskriminierung Aus Wikipedia, der freien Enzyklopädie
Von Diskriminierungsrisiken bei maschinellem Lernen spricht man, wenn Entscheidungen, die von automatisierten Systemen getroffen werden, dazu führen, dass bestimmte Bevölkerungsgruppen diskriminiert werden.
Algorithmen sind zunehmend Bestandteile von Systemen der automatisierten Entscheidung. Einige dieser Algorithmen werden durch maschinelles Lernen, als Teilbereich der künstlichen Intelligenz, mit Verwendung von Datensätzen trainiert. Algorithmen kommen dabei in vielfältigen Anwendungsfeldern zum Einsatz; so zum Beispiel bei individualisierter Werbung, bei der Personalauswahl, bei der Mieterauswahl auf dem Immobilienmarkt, bei der Ermittlung von Kreditwürdigkeit oder bei der Berechnung von Kriminalitätsrisiken.
Im Vergleich zwischen menschlichen und automatisierten Entscheidungen wird erwartet, dass automatisierte Entscheidungen „neutraler“ und „objektiver“ sind gegenüber menschlichen Entscheidungen, die aufgrund kognitiver Verzerrung bzw. selektiver Wahrnehmung anfällig sind für Vorurteile und Stereotypen. Durch automatisierte Entscheidungen können jedoch neue Diskriminierungen entstehen. Anders als bei individuellen Diskriminierungen durch z. B. einzelne Sachbearbeiter in menschlichen Entscheidungen, kann es durch die Art der Anwendung von automatisierten Entscheidungen zu Massenphänomenen und zu kumulierten Benachteiligungen kommen. Zudem können durch Entwicklungen des maschinellen Lernens Eigenschaften der Persönlichkeit (z. B. Gesundheitszustand, emotionale Zustände oder sexuelle Orientierung) aus Daten ermittelt werden. Sie können in der automatisierten Entscheidungsfindung zur Differenzierung von Personen eingesetzt werden. Ein Beispiel ist das Persönlichkeitsmerkmal „Vertrauenswürdigkeit“ bei der Bildung von Kreditscores. Während lange nur Zahlungshistorie und andere finanzielle Informationen in den Score einflossen, werden heute auch Daten über die Kommunikation und Beziehungen in sozialen Onlinenetzwerken berücksichtigt.[1] Dabei ist unklar, wie weitgehend derartige Analysemethoden bereits in der Praxis angewandt werden.
Im Gegensatz zur präferenzbasierten Diskriminierung, die sich in affektiver Zu- oder Abneigung bestimmter Gruppen oder Personen der Entscheidenden begründet, kommt es bei der Diskriminierung durch die Anwendung von Algorithmen zu statistischer Diskriminierung. Diese beschreibt die Ungleichbehandlung durch statistische Berechnungen durch den Einsatz von Ersatzinformationen. Ersatzinformationen werden dann herangezogen, wenn über das Hauptmerkmal von Personen keine Informationen vorliegen oder diese mit hohem Kostenaufwand erzeugt werden müssten. Diese Ersatzinformationen können Variablen, die geschützte Merkmale (z. B. Alter, Geschlecht) oder Variablen, die eine Korrelation zu geschützten Merkmalen aufweisen, sein und enthalten somit ein Diskriminierungsrisiko. Zusätzlich wird bei der statistischen Diskriminierung der statistische Zusammenhang zwischen Variablen einer Gruppenzugehörigkeit und dem Differenzierungsziel angenommen und generalisiert, d. h., für individuelle Gruppenzugehörige angenommen. Die Bewertungen beziehen sich damit nicht auf eine Einzelperson, sondern auf statistisch gebildete Gruppen. Es kann zu Akkumulations- und Verstärkungseffekten von Ungleichbehandlungen ganzer Bevölkerungsgruppen kommen.
Risiken der Diskriminierung bei automatisierten Entscheidungen lassen sich in folgende Punkte unterteilen:
(1) Diskriminierungsrisiken, die durch die Verwendung von Algorithmen aufgrund ihrer besonderen technischen Eigenschaften resultieren
(2) Diskriminierungsrisiken, die durch die Verwendung der algorithmen- und datenbasierten Differenzierungen und Entscheidungssysteme an sich entstehen und als gesellschaftliche Risiken auftreten.
Laut Barocas und Selbst[2] lassen sich diese Diskriminierungsrisiken bei maschinellem Lernen in fünf Arten einteilen:
Diese beschreiben das gewünschte Ergebnis. Sie definieren damit den gewünschten Endzustand (beispielsweise „gute“ Jobbewerber). Zielvariablen beinhalten Urteile darüber, welche Daten relevant sind und welche nicht. Sie bestimmen damit auch, welche Kategorien und Gruppen gebildet werden. Falls diese Gruppenbildung an zu schützende Merkmale geknüpft wird, entstehen Diskriminierungsrisiken.
Als Labeling wird das Zuordnen von Kategorien im Datensatz bezeichnet. Wenn das System im Prozess des maschinellen Lernens mit vorurteilsbelasteten Trainingsdaten ausgestattet wird, kann es zu diskriminierenden Ergebnissen kommen. Barocas und Selbst beschreiben zwei Möglichkeiten, wie voreingenommene Trainingsdaten diskriminierende Auswirkungen haben können. Erstens kann das KI-System auf voreingenommenen Daten trainiert werden. Zweitens können Probleme entstehen, wenn das KI-System aus einer verzerrten Stichprobe lernt.[3] Ein Beispiel für entstehende Diskriminierung durch voreingenommene Trainingsdaten zeigen Bolukbasi u. a in einer Studie zur geschlechtsbezogenen Stereotypen bei maschineller Textanalyse.[4] Bei einem Übersetzungsprogramm wurden Berufsbezeichnungen geschlechtsspezifisch zugeordnet, beispielsweise wurde dem Begriff „nurse“ (deutsch: Pflegekraft) die weibliche Variante „Krankenschwester“ zugeordnet. „Maschinelle Textanalysen werden in verschiedensten Anwendungen eingesetzt, wie der automatisierten Analyse von z. B. Dokumenten, Lebensläufen oder der schriftlichen Kommunikation in sozialen Netzwerken sowie der automatisierten Rangfolgenbildung bei Suchmaschinenergebnissen, Produktempfehlungen oder maschinellen Übersetzungen. Werden die so erzeugten „embedding“-Algorithmen, die stereotype Wortbeziehungen übernommen haben, dort eingesetzt, kann es zu problematischen Ergebnissen kommen, in dem Sinne, dass überkommene Geschlechterrollen fortgesetzt werden.“[5]
Ein anderes Risiko stellt das Zusammenstellen der Trainingsdaten dar. Durch eine überproportionale Repräsentation bestimmter Gruppen, können die Ergebnisse einer Analyse der Stichprobe zugunsten oder zuungunsten der über- oder unterrepräsentierten Klasse verzerrt sein.
Bei der „Feature Selection“ werden Attribute ausgewählt, die in die Analyse eingebaut werden. Bei der Entscheidung, welche Attribute in die Entscheidungsfindung aufgenommen werden sollen, können Gruppen diskriminiert werden, wenn diese in ausgewählten Merkmalen unterrepräsentiert sind. Ein Beispiel aus dem Arbeitsmarkt: Bei Einstellungsprozessen wurde die Reputation des ausbildenden Colleges stark gewichtet, obwohl das kaum etwas über Kompetenzen der Bewerber aussagt. Minderheiten, die Colleges mit großer Reputation unterdurchschnittlich häufig besuchen, werden so durch die algorithmenbasierte Entscheidung diskriminiert.[6]
Obwohl die ausgewählten Attribute keine diskriminierenden Effekte beinhalten, kann es trotzdem zu Diskriminierungen durch sogenannte „Proxies“ kommen, wenn zwischen diesen und geschützten Merkmalen eine Korrelation besteht. Die gewählten Merkmale sind in diesem Fall systematisch diskriminierend für Mitglieder bestimmter Gruppen, da sie neben den gewünschten Kriterien Zugehörigkeit zu Gruppen beinhalten. Laut Lehr und Ohm muss allerdings zwischen „playing with the data“ und dem laufenden System unterschieden werden. Sie kritisieren Baracos und Selbst dafür, dass sie nicht alle Stufen des maschinellen Lernens behandeln. Vor allem die mathematischen Bedingungen des Algorithmus und die damit verbundenen Möglichkeiten fehlerhafte Inputs zu korrigieren, werden von Baracos und Selbst nicht berücksichtigt. Durch den Fokus auf die Datenbeschaffung und Aufarbeitung werden aber auch Risiken übersehen, die durch die Wahl und Entwicklung eines Algorithmus entstehen.[7]
Neben den technischen Diskriminierungsrisiken, die in Teilen vermieden werden können, können gesellschaftliche Diskriminierungsrisiken aus der Verwendung von algorithmenbasierten Differenzierungsverfahren und automatisierten Entscheidungssystemen an sich entstehen.[8]
Statistische Diskriminierung richtet sich gegen Personengruppen und verstellt den Blick auf Einzelfälle. So kann es durch generalisierende Vorgänge zu Unrecht kommen, da Individuen nicht in ihrer individuellen Situation und nach ihren individuellen Eigenschaften beurteilt werden.[9] Ein Beispiel in diesem Zusammenhang ist das Kreditscoring. In Finnland wurde 2018 von dem Nationalen Nicht-Diskriminierungs- und Gleichheitstribunal ein Fall des Kreditscorings als Diskriminierung verurteilt. Einem männlichen Antragssteller wurde durch die angewandten statistischen Verfahren eine Kreditverlängerung verweigert. Das Tribunal begründete seine Entscheidung einerseits damit, dass ein Fall von Mehrfachdiskriminierung durch die Verwendung von rechtlich geschützten Merkmalen (Geschlecht, Muttersprache, Alter und Wohnort) vorgelegen habe; anderseits bemängelte das Tribunal, dass keine Einzelfallprüfung durchgeführt wurde, sondern abstrakte Kreditdaten herangezogen wurden.[10]
Der öffentliche Sektor ist gesetzlich verpflichtet, allen Bürgern diskriminierungsfreie Dienstleistungen zu bieten. Wenn ADM-Systeme für die Verteilung von Dienstleistungen an Zivilpersonen eingesetzt werden, muss sichergestellt werden, dass sie keine Diskriminierungsrisiken bergen. Es ist jedoch keine leichte Aufgabe, diese Risiken zu minimieren. Zu den drei wichtigsten Erkenntnissen, die bei der Entwicklung von ADM-Technologien für den öffentlichen Sektor zu berücksichtigen sind, gehören die Betrachtung von ADM als fehlbar, die Berücksichtigung von Machtungleichgewichten und der Schutz von Hinweisgebern.[11]
Akkumulations- und Verstärkungseffekte bei Benachteiligungen können sich auf viele Lebensbereiche auswirken: Entwicklungs- und Entfaltungschancen, Einkommenssicherung, Grad der politischen Involvierung und Durchsetzen von Gerechtigkeit im Rechtssystem.[12] Diese Effekte sind nicht mit algorithmenbasierten Differenzierungen entstanden, treten aber insbesondere dann auf, wenn Ersatzinformationen diskriminierungsanfällige Merkmale enthalten oder aber „Ungleichgewichte in der Repräsentation von Personengruppen bzw. Repräsentationsrisiken“ in den Datensätzen vorliegen.[13] Im Bildungswesen liegen beispielsweise Verstärkungseffekte vor, wenn durch bestehende Ungleichheiten Betroffenen Anreize genommen werden, sich weiterzuqualifizieren.[14] Beispielsweise kann durch stereotype Bildsuchergebnisse bei Suchmaschinen dann der Karrierewunsch bzw. das Karrierestreben beeinflusst werden, wenn Frauen in Ergebnissen der Bildersuche von Berufen unterrepräsentiert sind.[15] Ein weiteres Beispiel von Verstärkungseffekten ist das Predictive Policing (vorausschauende Polizeiarbeit). Verzerrte Datensätze können zu verzerrten Vorhersagen von Verbrechen führen und entsprechend zu mehr Einsätzen. In diesen vermehrten Einsätzen werden dann zusätzliche Straftaten beobachtet.[16] Die Vorhersagen werden somit in die Berechnungen miteingefügt und das System verstärkt sich selbst.
Durch wirtschaftlich angestrebten Gewinn können gesellschaftliche Risiken entstehen, wenn die Anwendung von Algorithmen personen- oder gruppenbezogene Differenzierungen zu Gunsten von Effizienzbestrebungen miteinschließt. Allerdings sprechen Gleichheitsbestrebungen und sozialpolitische Ziele zum Teil gegen diese Form der Differenzierung. Deshalb sollte eine solche Differenzierung in bestimmten Fällen nicht angewandt werden. Das gilt erstens für vergangenes Diskriminierungsunrecht und strukturelle Benachteiligung bestimmter Merkmalsträger. Akkumulations- und Verstärkungseffekte könnten durch einen Verzicht von Differenzierung durchbrochen werden. Zweitens sollte auf Differenzierung verzichtet werden, wenn Mitgliedern einer strukturell benachteiligten Gruppe der Zugang zu Gütern, Ressourcen und Positionen erschwert würde und damit eine Überwindung der Benachteiligung zusätzlich beeinträchtigt werden würde. Beispiele hierfür sind Zugang zu Beschäftigungsverhältnissen oder Krediten. Außerdem beinhaltet Differenzierung die Gefahr einer expandierenden Stereotypisierung, also zusätzliche Stereotype bei Gruppen, die ohnehin mit negativen Stereotypen konfrontiert sind. Schließlich kann Differenzierung gegen gesundheits- oder sozialpolitische Ziele stehen. Das ist dann der Fall, wenn Praktiken und Modelle, die auf Solidarität beruhen, wie z. B. Krankenversicherungen, durch individuelle Lösungen ersetzt werden sollen.
Die Anwendung von Algorithmen kann dazu führen, „dass Menschen nicht mehr als Individuen bzw. in Anerkennung ihrer grundrechtlich verbrieften Menschenwürde und ihrer einmaligen individuellen Subjektqualität“[17] gesehen werden. Sie werden dann zu bloßen Objekten beziehungsweise Mitteln, wenn sie in einer Weise behandelt werden, der sie nicht zustimmen können. Vor allem bei algorithmischer Datenanalyse des Data-Minings, der Big-Data-Analytik oder bei Vorgängen des maschinellen Lernens werden nur Korrelationen und keine Kausalzusammenhänge erzeugt. Die Entscheidenden können so den Betroffenen die Entscheidung nicht hinreichend erläutern, wenn z. B. eine betroffene Person aussortiert wird. Eine Zustimmung oder Ablehnung einer solchen Behandlung wird durch diese Prozesse unmöglich. Zudem besteht das Risiko einer psychologischen Distanzierung durch algorithmenbasierte Entscheidungsverfahren, wenn die verantwortliche Person durch das Verfahren eine Distanz zu den Betroffenen und der Entscheidung aufbaut. Ein Beispiel hierfür sind autonome Waffensysteme.
Algorithmenbasierte Anwendungen berühren zudem das Recht auf die freie Entfaltung der Persönlichkeit nach Art. 2 Abs. 1 Grundgesetz, wenn Bewertende sich ein Bild von Personen machen und den Betroffenen somit eine fremd-konstruierte Identität, also „Fremdbilder“, zuordnen.[18][19] Durch algorithmenbasierte Anwendung wird den Betroffenen außerdem das Recht auf Selbstdarstellung, das sich aus dem Recht auf die freie Entfaltung der Persönlichkeit herleitet, genommen. Das Recht auf freie Entfaltung der Persönlichkeit und Selbstdarstellung lässt sich in zwei Weisen aufteilen. Die äußere Entfaltung beschreibt die Möglichkeit, sich als Individuum vor anderen darzustellen und zu erreichen, dass diese Anderen sich ein „günstiges“ Bild machen. So wahrt das Individuum seinen Entscheidungs- und Handlungsspielraum, da dieser von der Kooperationsbereitschaft anderer abhängt. Wenn das Individuum keinen Einfluss darauf hat, welche Informationen und Daten in das Fremdbild eingeschlossen werden, kann die Antizipation von Fremdbildern prohibitiv wirken. Der zweite Teil ist die innere Entfaltung. In den schon beschriebenen Interaktionsprozessen konstituiert sich Identität und Persönlichkeit. Dabei ist aber auch wichtig, dass das Individuum in diesen Vorgängen die eigene Persönlichkeit als frei gewählt begreifen kann.[20] In Bezug auf algorithmenbasierte Anwendung kann es zu Einschränkungen der Persönlichkeitsentfaltung kommen. Durch umfassende datenbasierte Persönlichkeitsprofile wird dem Individuum die Möglichkeit der eigenen Rolleninterpretation und Identitätsbildung in sozialen Kontexten genommen. Aber auch der Gebrauch von Ersatzinformationen führt zu stereotypen Persönlichkeitskonstruktionen und beeinträchtigt damit das Recht auf die freie Entfaltung der Persönlichkeit.
Risiken der strukturellen Überlegenheit mit Folge von Monopolbildung entstehen, wenn bestimmte Unternehmen Zugang zu großen Datenmengen haben und somit bevorzugte Möglichkeiten des Data-Minings und der Auswertung von Big Data haben. Algorithmische Analysemethoden können Persönlichkeitsmerkmale, Charaktereigenschaften und emotionale Zustände automatisiert identifizieren und können so ermitteln, ob eine Person auf ein Produkt oder eine Dienstleistung angewiesen ist. So wird die strukturelle Überlegenheit der Anbietenden weiter erhöht. Vor allem bei Onlineplattformen kann es dann zu Netzwerkeffekten kommen. Netzwerkeffekte führen dazu, dass Nutzende einen hohen Wechselaufwand haben und dadurch Wahl- und Ausweichmöglichkeiten verringert werden. Damit wird die strukturelle Überlegenheit der Anbietenden weiter erhöht.
Auf der rechtlichen Ebene werden Diskriminierungsrisiken, die durch Algorithmen entstehen, einerseits im Anti-Diskriminierungsrecht und anderseits im Datenschutzrecht reguliert. Das Anti-Diskriminierungsrecht ermöglicht rechtliche Schritte gegen Diskriminierungen. Das beinhaltet auch Diskriminierungen durch Differenzierungsentscheidungen, die aufgrund von algorithmenbasierter Anwendung getroffen wurden. Das Anti-Diskriminierungsrecht sieht nach §22 AGG eine Beweiserleichterung für Betroffene vor, indem der beschuldigten Partei die Beweislast zukommt. Allerdings ist diese Beweiserleichterung nach Ebert[21] an drei Voraussetzungen geknüpft:
(1) Nachweis über Andersbehandlung (2) Nachweis, dass es sich um ein geschütztes Merkmal (nach § 1 AGG) handelt (3) Erbringen von Indizien, dass die Diskriminierung mit großer Wahrscheinlichkeit auf dem angeführten geschützten Merkmal basiert.
In Bezug auf algorithmenbasierte Differenzierungen sind diese Voraussetzungen problematisch, da es schwierig oder in manchen Fällen unmöglich ist, eine Benachteiligung durch Algorithmen nachzuweisen. Die dynamische Komponente des maschinellen Lernens erschwert den Nachweis dabei zusätzlich. Es wird so schwieriger, sich gegen Diskriminierung zu wehren. Weiterführend fordern vor allem Verbraucherverbände die Möglichkeit der Verbandsklage als ein Rechtsmittel, das es ermöglicht, sich kollektiv gegen Diskriminierung zu wehren.[22][23] Auch bei einer Sammelklage muss jedoch eine Schädigung umständlich bewiesen werden.
Das Datenschutzrecht enthält sowohl verschiedene Informationspflichten von datenverarbeitenden Stellen gegenüber den Betroffenen (Art. 12, 13 und 14 DSGVO) als auch Auskunftsrechte, die die Betroffenen gegenüber den Betreibenden geltend machen können (Art. 15 DSGVO). Durch die Informationspflichten können Betroffene von der Datenverarbeitung erfahren und ihre Rechte somit effektiv wahrnehmen. Allerdings lassen sich Diskriminierungsrisiken durch die datenschutzrechtlichen Informationspflichten nicht einfach erkennen. Außerdem behandelt Art. 22 der DSGVO automatisierte Entscheidungen. Der Artikel enthält das Recht der betroffenen Person, „nicht einer ausschließlich auf einer automatisierten Verarbeitung – einschließlich Profiling – beruhenden Entscheidung unterworfen zu werden, die ihr gegenüber rechtliche Wirkung entfaltet oder sie in ähnlicher Weise erheblich beeinträchtigt“ (Art 22 Absatz 1 DSGVO). Absatz 2 umfasst drei Ausnahmen dieser Regelung:
„1. für den Abschluss oder die Erfüllung eines Vertrags zwischen der betroffenen Person und dem Verantwortlichen erforderlich ist, 2. aufgrund von Rechtsvorschriften der Union oder der Mitgliedstaaten, denen der Verantwortliche unterliegt, zulässig ist und diese Rechtsvorschriften angemessene Maßnahmen zur Wahrung der Rechte und Freiheiten sowie der berechtigten Interessen der betroffenen Person enthalten oder 3. mit ausdrücklicher Einwilligung der betroffenen Person erfolgt.“[24]
Die Ausnahmen werden aber als problematisch gesehen, da der Umfang der Ausnahmen nicht klar geregelt ist. Ebenso sind die Voraussetzungen, wann der Artikel greift, und die Konsequenzen, insbesondere Informationspflichten über die involvierte Logik und über Auswirkungen der automatisierten Entscheidungen einschließlich Diskriminierungsrisiken, noch nicht ausreichend klar.[25]
Neben den rechtlichen Maßnahmen gehören zu vorgeschlagenen Regulierungsinstrumenten Verbote bestimmter Anwendungen, Audits oder Selbstregulierungsansätze. Eine Maßnahme sind Algorithmen-Audits, also Untersuchungen, die Diskriminierungsrisiken bei maschinellen Lernverfahren und algorithmenbasierten Entscheidungen erkennen sollen. Das Audit kann sich dabei sowohl auf den Programmcode als auch auf den Datensatz und die Beschaffung von Datensätzen beziehen. Eine weitere Regulierungsstrategie ist die Selbstregulierung. Diese Selbstregulierung beruht meist auf ausgearbeiteten Standards, die dann durch eine Zertifizierungsstelle überprüft werden. Die Regulierungsinstrumente und Vorschläge gehen dabei Hand in Hand mit gesellschaftlichen Debatten über Diskriminierung, (Un-)Gleichheit und die sich anschließenden Themenkomplexen.
Konkrete Regulierungsvorschläge und Maßnahmen werden auf europäischer Ebene diskutiert. Im Weißbuch „Zur Künstlichen Intelligenz – ein europäisches Konzept für Exzellenz und Vertrauen“ vom 19. Februar 2020 beschreibt die Europäische Kommission die Notwendigkeit einer europäischen Governance-Struktur.[26] Es sieht vor, algorithmenbasierte Anwendungen je nach involvierten Risiken zu regulieren. Für Anwendungen mit hohem Risiko fordert die EU-Kommission dann Regulierungsmaßnahmen für Trainingsdaten, die Aufbewahrung von Daten und Aufzeichnungen, Bereitstellung von Informationen, (technische) Robustheit und Genauigkeit und das Einbeziehen von menschlicher Aufsicht.[27] Auch im Gesetzesentwurf vom April 2021 schlägt die Kommission einen risikobasierten Ansatz vor. Anwendungen der künstlichen Intelligenz mit hohem Risiko für Grundrechte und die Gesundheit und Sicherheit sollen stärker reguliert werden als solche mit niedrigem Risiko.[28]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.