In 2014 besloot Amazon automatisering in te zetten in het selecteren van nieuw talent. Data scientists ontwierpen een algoritme dat sollicitanten een score van 1 ster (niet geschikt) tot 5 sterren (enorm geschikt) gaf. Een systeem dat vergelijkbaar was met de manier waarop we producten beoordelen. Een jaar later bleek echter dat het algoritme niet iedereen dezelfde kans gaf: vrouwen werden systematisch lager gescoord op technische vacatures, ongeacht hun kennis, vaardigheden of ervaring.
Wat bleek? Doordat het systeem getraind was op aangeleverde cv’s uit eerdere jaren werd de bias in de tech wereld versterkt: de industrie werd gedomineerd door mannen, waardoor de meeste aangeleverde cv’s ook van mannen kwamen. Toen Amazon dit eenmaal in de gaten kreeg, werd het algoritme opnieuw getraind om deze bias te verwijderen. Het vertrouwen in het systeem was echter al verloren.
Dit verhaal is een bekend voorbeeld van hoe AI-systemen, ondanks de allerbeste intenties, oneerlijk kunnen uitpakken. Helaas is Amazon niet het enige bedrijf waarbij het in het verleden mis is gegaan. Steeds vaker worden er nieuwsartikelen gepubliceerd waarin de risico’s van big data worden getoond. Doordat het belang van (big) data alleen nog zal blijven groeien, en daarmee dus ook de risico’s, is er een belangrijke maatschappelijke discussie ontstaan: de ethiek binnen het gebied van Artificial Intelligence.
Centraal in dit gebied staan de keuzes die gemaakt worden tijdens het creëren van een big data-product. Deze kunnen ervoor zorgen dat het systeem, ondanks goede intenties, oneerlijk wordt. Hoe meer verkeerde keuzes, hoe oneerlijker het systeem en hoe groter de consequenties. Hoewel die consequenties enorm kunnen verschillen in de impact die ze hebben op de maatschappij, hebben ze doorgaans één ding gemeenschappelijk: een (grote) groep mensen wordt onterecht benadeeld. Met een alsmaar groeiende hoeveelheid algoritmes die wordt ingezet ons te helpen bij het maken van beslissingen, wordt de noodzaak hier iets aan te doen des te groter.
Welke beslissingen zorgen dan voor deze consequenties? Hoewel er veel verschillende manieren zijn waarop het mis kan gaan, zijn deze doorgaans terug te leiden naar drie fases tijdens (big) data projecten: data, design en decisions.
Een systeem is nooit beter dan de data die erin wordt gestopt. We zeggen dan ook vaak ‘garbage in, garbage out’. Hetzelfde geldt voor bias: ‘Bias in, bias out’. Wanneer onze data al bevooroordeeld is, zoals de data die Amazon gebruikte om succes op een functie te voorspellen, zal het systeem dit vooroordeel alleen maar bevestigen. Hierdoor verstevigt het systeem de status quo. Een wereld gedomineerd door mannen zal door mannen gedomineerd blijven.
Zelfs wanneer je alle juiste keuzes maakt bij het selecteren van je data kan een systeem verkeerd uitpakken doordat je niet begrijpt waarop het systeem beslissingen neemt. De bekende ‘black box’ algoritmes maken het lastig te snappen waarom de ene persoon A in hokje 1 geplaatst wordt en persoon B in hokje 2.
Dit is de allesbeslissende fase; wat ga je doen met de uitkomsten van je model? Gebruik je ze om te bepalen wie je een e-mail gaat sturen met een aanbieding of gebruik je ze om te bepalen wiens gevangenisstraf je zult verlengen? Het is duidelijk dat een verkeerde beslissing in het laatste voorbeeld een stuk erger is dan in het eerste voorbeeld. De omvang van de beslissing vergroot dus de impact van de oneerlijkheid.
Elk van deze fases brengt dus eigen keuzes met zich mee. Om deze keuzes weloverwogen te maken, kun je de volgende pijlers gebruiken:
Door elke beslissing in elk van de fases op elk van deze vijf pijlers te wegen, kun je controleren of je (big) data-project wel zo eerlijk is als je zou willen. Hoewel de voorbeelden van oneerlijke systemen die het nieuws bereiken, zoals het recruitment systeem van Amazon, voornamelijk van de grote techbedrijven komen, is het aan ons allen ze te voorkomen. Iedereen die met data werkt, hoort hier over na te denken. Blijf kritisch, zowel naar anderen als naar jezelf. Uiteindelijk zou data onze wereld beter moeten maken, niet nog verder moeten verdelen.
Deze posts over Data-Science
Interessant? Laat een reactie achter