De zonnebrillengrens van fraude
“Ik heb dus mijn zonnebril als gestolen opgegeven bij mijn reisverzekering” zei een student tegenover mij in de trein vol trots tegen zijn vriendin. “Hij is niet echt gestolen natuurlijk, maar daar komen ze toch nooit achter. Ik heb jarenlang mijn premie betaald en nog nooit iets opgegeven, dus het kan wel een keer.”
Iedereen kent wel iemand die zijn verzekering voor een klein bedrag heeft opgelicht. Dat was voor mij de trigger om dit blog te schijven. Waarom komen verzekeraars hier bijna nooit achter? En hoe kunnen ze er met behulp van Machine Learning wél achter komen?
Door de (zonne)bril van de verzekeraar: fraudedetectie op basis van ‘expert rules’
Om duidelijk te maken hoe het komt dat veel mensen dit soort verhalen kennen, kunnen we het beste eens door de bril, of in dit geval zonnebril, van een verzekeraar kijken.
Bij een gemiddelde verzekeraar komen dagelijks duizenden claims binnen. Deze claims worden gecontroleerd op een aantal zaken. Er wordt bijvoorbeeld gekeken of de claim wel gedekt wordt door de polis, welk bedrag mag worden uitgekeerd en er wordt ook gecontroleerd op potentiële fraude.
Gezien de grote aantallen, kunnen deze claims natuurlijk nooit één voor één worden gecontroleerd en al zeker niet handmatig. Daarom maken bijna alle verzekeraars gebruik van een systeem dat hen daarin ondersteunt. In zo’n systeem zitten vaak verschillende modules die assisteren in de verschillende stappen die moeten worden doorlopen. Fraudedetectie is een van die stappen.
Fraude wordt vaak gedetecteerd aan de hand van zogenaamde ‘expert rules’. Dit zijn regels die door experts worden opgesteld op basis van ervaring. Hierbij moet je denken aan verdachte situaties zoals een claim die binnen 14 dagen na het afsluiten van de polis wordt ingediend of een persoon die meer dan 5 claims in één jaar heeft ingediend. Omdat er zoveel claims binnenkomen, is er ook vaak een regel dat claimbedragen onder de zonnebrilgrens van 250 euro niet eens worden beoordeeld op fraude. Niet omdat er voor die bedragen geen fraude wordt verwacht, maar vanwege twee doelstellingen die verzekeraars hebben:
- Klanttevredenheid
Klanten willen hun geld zo snel mogelijk uitbetaald krijgen en een eventueel onderzoek vertraagt dit hele proces. Ook het bellen van klanten voor meer informatie bij een onderzoek zorgt voor een negatief effect op de klanttevredenheid. - Rendement
Het onderzoeken van een claim op potentiële fraude kost veel meer dan het uiteindelijk oplevert. Er gaat flink wat tijd (en dus geld) zitten in een onderzoek. Iemand moet de claim beoordelen, iemand moet de klant bellen, eventueel nog een extern iemand moet onderzoek doen etc. Dit maakt het voor relatief kleine bedragen al snel niet meer rendabel, dus wordt er besloten meteen te betalen.
Door de lerende bril van de verzekeraar: fraudedetectie op basis van Machine Learning
Als er veelvuldig fraude wordt gepleegd onder het grensbedrag, dan keert een verzekeraar dus onterecht veel geld uit. De extra kosten worden uiteindelijk doorberekend aan de klanten die niet frauderen. Daarnaast hebben verzekeraars de maatschappelijke plicht om fraude aan te pakken, hoe groot of klein de fraude ook is. Bovendien heeft goede fraudedetectie op de lange termijn een afschrikkende werking op toekomstige fraudeurs. Redenen genoeg dus om als verzekeraar aan de slag te gaan met innovatieve fraudedetectiemogelijkheden.
In plaats van het gebruik van ‘expert rules’ is het inmiddels veel effectiever om een systeem te implementeren op basis van Machine Learning. Hiervoor is data nodig en het liefst heel veel data. De basis voor het maken van een goed fraudedetectiemodel is de beschikking over zo veel mogelijk gegevens van historische claims. Daarbij kun je denken aan de reden van de claim, de hoogte, de manier van indienen en de polishouder. Ook externe bronnen kunnen extra informatie toevoegen, zoals RDW-data voor autoverzekeringen of de CIS-databank met informatie over onder andere bevestigde frauduleuze claims. Bij deze historische trainingsdata is het cruciaal dat bekend is welke claims wel en niet frauduleus waren. Aan de hand van deze karakteristieken kan het model worden getraind in het herkennen van frauduleuze claims.
In de praktijk blijkt die historische data vaak een uitdaging te zijn bij verzekeraars. Dit komt omdat fraude niet altijd goed wordt vastgelegd en al zeker niet verder terug in de tijd. Daarnaast is überhaupt maar een klein percentage van alle claims als frauduleus bestempeld, terwijl het Verbond van Verzekeraars meldt dat 10% van alle claims frauduleus is.
Door het ontbreken van voldoende goede historische data is het lastig om een fraudedetectiemodel goed te trainen. Gelukkig zijn er tegenwoordig slimme technieken om hiermee om te gaan en kan een goed ontworpen model zelfs veel meer verbanden herkennen. Een mooi voorbeeld is een verzekeraar waar we een op Machine Learning gebaseerd fraudedetectiemodel hebben geïmplementeerd. Door het toepassen van een combinatie van verschillende modellen kwamen daar ook nieuwe cases naar boven die eerder niet herkend waren. Daarnaast bleek het totale model al snel met veel hogere zekerheid fraude te kunnen herkennen, ook voor de kleine bedragen, dan de meest ervaren en gekwalificeerde fraude-expert of ‘expert rules’.
Juist die slimme combinatie van technieken en modellen zorgt niet alleen in de praktijk al voor veel betere resultaten, maar is ook zeer veelbelovend voor de toekomst van fraudedetectie.