In 5 stappen naar Interpretable Machine Learning
Machine Learning ontstijgt meer en meer de experimentele fase en wordt inmiddels toegepast om échte uitdagingen aan te pakken. De vraag is: vertrouwen wij de denkende machine? Om dat te durven doen, moeten we begrijpen hoe die machine denkt; we moeten zijn denkproces kunnen interpreteren. Dit noemen we Interpretable Machine Learning (IML).
De crux van Interpretable Machine Learning is te bewijzen hoe een autonoom, geautomatiseerd besluit tot stand is gekomen. Alleen dan kun je vooroordelen in het besluitproces opsporen en elimineren. Dit doe je door elke stap van het besluitproces transparant te maken. De vijf stappen van Machine Learning zijn:
- Data verzamelen
- Data prepareren
- Model tunen, trainen en testen
- Automatische besluitvorming
- Communiceren en uitleggen van besluit
Vooroordelen elimineren en transparantie toevoegen in de 5 stappen van Machine Learning
Interpretable Machine Learning in stap 1: data verzamelen
Een van de grootste oorzaken van bias (verstoring in uitkomsten door vooroordelen) ontstaat al in de verzamelfase. Stel, je wilt Machine Learning toepassen om het werving & selectieproces deels te automatiseren en effectiever te maken. Dan begin je met het verzamelen van cv’s en profielen van succesvolle medewerkers. Een veelvoorkomende valkuil hierbij is dat de huidige medewerkerpopulatie niet divers genoeg is, waardoor je een vertekend beeld krijgt van de succesfactoren. Als bijvoorbeeld een IT-bedrijf voornamelijk bestaat uit hoogopgeleide witte mannen, en je neemt alleen de historische sollicitatiecases van dat bedrijf mee in je trainingsdata, dan geef je een grote bias voor hoogopgeleide witte mannen mee aan het algoritme. Het algoritme zal in dat geval ‘succes’ niet koppelen aan ‘zwarte vrouw’. Amazon is weliswaar een van de meest vooruitstrevende datagedreven bedrijven op aarde, maar werd gedwongen te stoppen met zijn AI recruiting-tool toen bleek dat deze een bias tegen vrouwen bevatte. Naast het verzamelen van data uit de interne organisatie, heb je aanvullende data van buiten de organisatie nodig, liefst uit de gehele branche. Dit kan vrij beschikbare informatie zijn, maar het kan ook betekenen dat je deze data moet kopen of zelf fabriceren.
Interpretable Machine Learning in stap 2: data prepareren
Big Data kan allerlei vormen hebben en is niet meteen geschikt voor Machine Learning. De data moet eerst worden geprepareerd en dat doe je door kenmerken te bepalen die relevant zijn. Bij de keuze van die kenmerken kunnen menselijke voorkeuren (onbewust) een rol spelen. Immers, als we het werving- & selectievoorbeeld er weer bij pakken: wie bepaalt op basis van welke criteria of een sollicitatieprofiel als ‘succesvol’ wordt gelabeld voor het lerende algoritme? Als je dit alleen laat doen door een recruiter, dan kunnen zijn mogelijke vooroordelen het beslissingsproces beïnvloeden. Je zult dus standaard een screening op mogelijke vooroordelen aan het preparatieproces moeten toevoegen. Dit kan door middel van protocollen en de bewustwording dat mensen nog meer bias hebben dan machines. Daarnaast zijn er geautomatiseerde tools beschikbaar die mogelijke vooroordelen in de labelling kunnen opsporen.
Interpretable Machine Learning in stap 3: model tunen, trainen en testen
Er zijn vele soorten algoritmen en modellen die kunnen worden gebruikt om te leren. De keuze van het model is mensenwerk. Nadat het model is gekozen, kan het niet zomaar op eigen houtje gaan leren. Je dient het model eerst te voeden met de geprepareerde trainingsdata. Je moet aangeven hoe het deze trainingsdata moet lezen. En vervolgens moet je het model finetunen, vergelijkbaar met het zoeken naar een radiofrequentie op een oude analoge radio. Dit finetunen heet ook wel ‘feature engineering’. Een van de meest voorkomende problemen van het niet goed finetunen van een Machine Learning-algoritme, is ‘overfitting’. Hiermee wordt bedoeld dat het model zich tijdens het trainingsproces te veel modelleert op de specifieke eigenaardigheden van de trainingsdata. Hierdoor kan het geen voorspellingen doen over data waarmee het niet heeft geleerd. Er is geen simpele oplossing voor overfitting, maar wat een data-scientist wel kan doen is informatie toevoegen aan de trainingsdata die iets zegt over de onderliggende structuur.
Interpretable Machine Learning in stap 4: automatische besluitvorming
Als de vorige stappen zijn doorlopen en het systeem heeft voldoende geleerd, dan wordt het tijd om het systeem beslissingen te laten nemen op basis van nieuwe data. Het inzichtelijk maken van de cruciale karakteristieken waarop deze beslissing is gebaseerd, is lastiger dan je op het eerste moment wellicht zou denken. De uitdaging van goed presterende Machine Learning-algoritmen, met name Deep Learning-modellen, is dat deze niet transparant zijn. Dit soort modellen worden daarom ook wel ‘black box-modellen’ genoemd.
Een Deep Learning-beslismodel baseert zijn besluit niet op regels, maar neemt, net als mensen, op intuïtieve wijze besluiten. Dit betekent dat het bijna onmogelijk is om een rationele onderbouwing voor een besluit te geven. Als ik aan een recruiter zou vragen: “Waarom heb je die sollicitant aangenomen?” Dan zou hij kunnen antwoorden: “Het is een prettig persoon die goed bij onze cultuur past en hij kwam heel energiek en vol zelfvertrouwen over”. Ook bij automatische besluitvorming door Deep Learning is niet volledig te achterhalen welke argumenten hebben bijgedragen aan de uiteindelijke beslissing. Hiermee kan de sollicitant het vermoeden krijgen dat ethisch- en privacygevoelige kenmerken als leeftijd, ras en geslacht als positieve of negatieve voorspeller zijn gebruikt.
Sommige Machine Learning-modellen zijn regelgebaseerd en daardoor in principe met regels uit te leggen. Je zou er dus voor kunnen kiezen om hier meer gebruik van te maken. Regels toevoegen vergroot echter de complexiteit en gaat helaas ten koste van het zelflerend en voorspellend vermogen.
Als je geen concessies wilt of kunt doen aan het zelflerend vermogen, dan zit er niets anders op dan de cruciale karakteristieken waarop het besluit is genomen achteraf op te sporen. Er verschijnen steeds meer interpretatietools op de markt, waarmee je door Deep Learning genomen beslissingen transparant kunt maken. Voorbeelden van interpretatie-tools zijn LIME, DeepLIFT en LRP.
Deze tools werken als volgt: na het uitvoeren van een voorspellings- of besluitvormingsproces worden bepaalde input-features aangepast en wordt het proces opnieuw uitgevoerd. Verandert er weinig aan de uitkomst, dan wordt geconcludeerd dat deze input-feature weinig invloed op de beslissing heeft gehad. Is de uitkomst heel anders, dan heeft deze input-feature waarschijnlijk een beslissende rol gespeeld in de besluitvorming.
Interpretable Machine Learning in stap 5: communiceren en uitleggen van besluit
Bij Deep Learning gaat het vaak om enorme aantallen features. Het is dus van belang dat een ‘datavertaler’ zorgt voor het begrijpelijk presenteren van de vaak wiskundige uitkomsten aan de eindgebruiker. Daarbij moet de vertaler ook rekening houden met gevoeligheden.
Zo is het sinds de komst van de nieuwe privacywet (AVG) in 2018 verboden om gegevens over ras of etniciteit als voorspelindicatoren te gebruiken. De Autoriteit Persoonsgegevens (AP) is een onderzoek gestart naar het mogelijk onrechtmatig profileren door de Belastingdienst bij het opsporen van kinderopvangtoeslagfraude. De bewijslast om aan te tonen dat er niet wordt gediscrimineerd op onder andere ras, religie, geslacht, leeftijd en seksuele geaardheid, ligt nu bij de Belastingdienst.
De Belastingdienst zit daarmee nu in een ‘catch-22-situatie’: hoe leg je uit dat je niet hebt geprofileerd op kenmerken die volgens de wet niet mogen en bovendien politiek-maatschappelijk gevoelig liggen, terwijl Machine Learning per definitie profileert op kenmerken die een goede voorspelfactor zijn, zonder zich er iets van aan te trekken of dat volgens de wet of maatschappij wel mag?
Wat als, in het geval van de automatische sollicitatiecase, blijkt dat kenmerken als ras, religie, geslacht, leeftijd en seksuele geaardheid zijn gebruikt tijdens de beslissing en wel degelijk een negatieve voorspelfactor zijn? Neem je de beslissing van de machine dan klakkeloos over? En zo ja, hoe leg je dit dan uit aan de sollicitant die is afgewezen? Deze laatste afweging en communicatie kunnen we voorlopig nog maar beter aan een menselijke ‘decision coach’ overlaten. Laat je de communicatie van het besluit door een machine doen, die ongevoelig is voor de continu veranderende politiek- en maatschappelijke gevoeligheden, dan is de schade voor mens en organisatie niet te overzien.
Volgens E.O. Wilson is ‘The real problem of humanity the following: we have paleolithic emotions; medieval institutions; and god-like technology.’ Om het vertrouwen in AI te winnen hebben we technisch goed onderlegde specialisten nodig met genoeg emotionele bagage om de brug te slaan tussen onze oeroude emoties, onze bureaucratische instituties en de steeds onbegrijpelijker wordende techniek.
Gelukkig zijn er ook voorbeelden van succesvolle toepassingen van automatisch recruitment met behulp van Machine Learning. Zo krijgen de sollicitanten na het volautomatische recruitmentproces bij Unilever een paar pagina’s met feedback. Ze kunnen teruglezen hoe ze het deden in de game, hoe ze het deden in de video-interviews, welke eigenschappen waarom wel of niet passen en wat Unilever denkt dat ze moeten doen om succesvol te zijn bij een toekomstige sollicitatie. Dit is een mooi voorbeeld van kunstmatige intelligentie waarbij organisaties door toepassing van cognitieve machines zelfs menselijker kunnen zijn.