Marketingscience: hoe (on)eerlijk is jouw algoritme?

Esther Lietaert Peerbolte
25 sep 2020

In 2014 besloot Amazon automatisering in te zetten in het selecteren van nieuw talent. Data scientists ontwierpen een algoritme dat sollicitanten een score van 1 ster (niet geschikt) tot 5 sterren (enorm geschikt) gaf. Een systeem dat vergelijkbaar was met de manier waarop we producten beoordelen. Een jaar later bleek echter dat het algoritme niet iedereen dezelfde kans gaf: vrouwen werden systematisch lager gescoord op technische vacatures, ongeacht hun kennis, vaardigheden of ervaring.

Wat bleek? Doordat het systeem getraind was op aangeleverde cv’s uit eerdere jaren werd de bias in de tech wereld versterkt: de industrie werd gedomineerd door mannen, waardoor de meeste aangeleverde cv’s ook van mannen kwamen. Toen Amazon dit eenmaal in de gaten kreeg, werd het algoritme opnieuw getraind om deze bias te verwijderen. Het vertrouwen in het systeem was echter al verloren.

Dit verhaal is een bekend voorbeeld van hoe AI-systemen, ondanks de allerbeste intenties, oneerlijk kunnen uitpakken. Helaas is Amazon niet het enige bedrijf waarbij het in het verleden mis is gegaan. Steeds vaker worden er nieuwsartikelen gepubliceerd waarin de risico’s van big data worden getoond. Doordat het belang van (big) data alleen nog zal blijven groeien, en daarmee dus ook de risico’s, is er een belangrijke maatschappelijke discussie ontstaan: de ethiek binnen het gebied van Artificial Intelligence.

Niemand kiest bewust voor oneerlijkheid

Centraal in dit gebied staan de keuzes die gemaakt worden tijdens het creëren van een big data-product. Deze kunnen ervoor zorgen dat het systeem, ondanks goede intenties, oneerlijk wordt. Hoe meer verkeerde keuzes, hoe oneerlijker het systeem en hoe groter de consequenties. Hoewel die consequenties enorm kunnen verschillen in de impact die ze hebben op de maatschappij, hebben ze doorgaans één ding gemeenschappelijk: een (grote) groep mensen wordt onterecht benadeeld. Met een alsmaar groeiende hoeveelheid algoritmes die wordt ingezet ons te helpen bij het maken van beslissingen, wordt de noodzaak hier iets aan te doen des te groter.

Welke beslissingen zorgen dan voor deze consequenties? Hoewel er veel verschillende manieren zijn waarop het mis kan gaan, zijn deze doorgaans terug te leiden naar drie fases tijdens (big) data projecten: data, design en decisions.

Data: welke data gebruik je om je systeem op te trainen?

Een systeem is nooit beter dan de data die erin wordt gestopt. We zeggen dan ook vaak garbage in, garbage out. Hetzelfde geldt voor bias: Bias in, bias out. Wanneer onze data al bevooroordeeld is, zoals de data die Amazon gebruikte om succes op een functie te voorspellen, zal het systeem dit vooroordeel alleen maar bevestigen. Hierdoor verstevigt het systeem de status quo. Een wereld gedomineerd door mannen zal door mannen gedomineerd blijven.

Design: welk algoritme kies je?

Zelfs wanneer je alle juiste keuzes maakt bij het selecteren van je data kan een systeem verkeerd uitpakken doordat je niet begrijpt waarop het systeem beslissingen neemt. De bekende black box algoritmes maken het lastig te snappen waarom de ene persoon A in hokje 1 geplaatst wordt en persoon B in hokje 2.

Decisions: welke beslissingen ga je nemen op basis van de voorspellingen?

Dit is de allesbeslissende fase; wat ga je doen met de uitkomsten van je model? Gebruik je ze om te bepalen wie je een e-mail gaat sturen met een aanbieding of gebruik je ze om te bepalen wiens gevangenisstraf je zult verlengen? Het is duidelijk dat een verkeerde beslissing in het laatste voorbeeld een stuk erger is dan in het eerste voorbeeld. De omvang van de beslissing vergroot dus de impact van de oneerlijkheid.

Elk van deze fases brengt dus eigen keuzes met zich mee. Om deze keuzes weloverwogen te maken, kun je de volgende pijlers gebruiken:

  • Privacy: is de privacy van je klanten gewaarborgd? Is er geen enkele manier deze data te herleiden naar een persoon?
  • Explainability: kun je uitleggen op basis van welke beslissingen het algoritme een voorspelling maakt? Is deze uitleg ook helder voor de business?
  • Accountability: kun je niet alleen uitleggen waarom een keuze gemaakt is, maar deze ook verantwoorden? Durf je de verantwoordelijkheid te nemen voor de voorspellingen die het model maakt?
  • Fairness: heeft iedereen in de dataset een gelijke kans op een bepaalde uitkomst? Worden er geen groepen benadeeld?
  • Human values: hebben de keuzes die je maakt de beste belangen van de mensheid voor ogen? Hoe groot is de impact van onze handelingen op mensen die een verkeerde voorspelling hebben gekregen?

Door elke beslissing in elk van de fases op elk van deze vijf pijlers te wegen, kun je controleren of je (big) data-project wel zo eerlijk is als je zou willen. Hoewel de voorbeelden van oneerlijke systemen die het nieuws bereiken, zoals het recruitment systeem van Amazon, voornamelijk van de grote techbedrijven komen, is het aan ons allen ze te voorkomen. Iedereen die met data werkt, hoort hier over na te denken. Blijf kritisch, zowel naar anderen als naar jezelf. Uiteindelijk zou data onze wereld beter moeten maken, niet nog verder moeten verdelen.

Eerste hulp bij data

Bergen data, maar geen idee wat je er mee kunt? Laat de data scientists van EY VODW je helpen! Ze helpen je inzichten uit je data te halen waarmee je business structureel uitgebouwd kan worden.

Vertel mij meer

Onze blogs direct in je mailbox?

Interessant? Laat een reactie achter