Drie generaties AI bij LIRIS

KU Leuven richtte onlangs een nieuw onderzoeksinstituut op rond Artificial Intelligence (Leuven.AI). Ook onderzoekers van de FEB nemen hieraan deel. Voor ons zitten drie (wetenschappelijke) generaties uit de deelnemende onderzoeksgroep LIRIS: Jan Vanthienen, Bart Baesens en Jochen De Weerdt. Een uitgebreid gesprek.

WAARVOOR STAAT LIRIS EN WAAR LIGT HIER DE ONDERZOEKSFOCUS? Jan: LIRIS staat voor de onderzoeksgroep beleidsinformatica. Die houdt zich bezig met informatie/data, informatiesystemen en informatieverwerking in alle mogelijke vormen: bouwen, verwerken, toepassen, organiseren en beheren van informatie.

Jochen: Er is een stuk rond data-analytics, waar we bedrijven ondersteunen om waarde te halen uit hun data. We helpen bij databeheer, data-organisatie en datakwaliteit. Naast het dataluik zijn er ook onderzoekers die bezig zijn met de ontwikkeling van systemen zoals het ontwikkelen van applicaties of het nadenken over hoe het volledige datalandschap kan worden uitgetekend, gemodelleerd en gekoppeld aan applicaties. Sommigen richten zich dus op applicatieontwikkeling en dataverwerking wat wij software engineering noemen en anderen zijn bezig met data-analytics wat te maken heeft met het extraheren van kennis.

Jan: In onze onderzoeksgroep proberen we ook de kennis beschikbaar te maken. De kennis kan komen uit data, of ze kan gemodelleerd worden. In beide gevallen is het belangrijk de kennis te organiseren en eventueel automatisch toe te passen.

Bart: Om een voorbeeldje te geven: we analyseren de data uit kredietgedrag teneinde goede betalers te kunnen differentiëren van wanbetalers. Een ander voorbeeld is kredietkaartfraude waarbij we bepaalde patronen afleiden uit de transactiedata waardoor we regeltjes kunnen vastleggen die dan op hun beurt door bedrijven gebruikt kunnen worden om te detecteren of een transactie bijvoorbeeld frauduleus is of niet. We leunen altijd heel dicht bij de bedrijfspraktijk aan. We ontwikkelen niet zomaar Computer Science-technieken omwille van de techniek en de mathematische modellen die erachter schuil gaan. De brug naar de toepassing daarvan binnen een bepaald bedrijf is belangrijk.

Vandaar onze leerstoelen waarbij we eigenlijk al onze zaken die we geleerd hebben rond data analytics, datamodellering, procesmodellering, en datakwaliteit gaan gebruiken. Recente voorbeelden zijn de leerstoelen opgericht met FEDNOT, de VDAB, Ageas, ING, Brussels Airport, Allianz, BNP Paribas Fortis, Belfius, Bpost bank, Colruyt, … Het is een zeer lange lijst. Tegelijkertijd doen we verder onderzoek en publiceren we in academische tijdschriften.

ZIT DAAR OOK EEN COMPONENT VAN ETHIEK IN? Bart: Ja. Privacy, de GDPR-wetgeving is voor ons ook heel belangrijk.

Jan: Er is vooreerst de privacy van de data. Bovendien moet, eens je kennis toepast, de toepassing ook correct gebeuren. Het is natuurlijk een machine die iets doet en dat moet uitlegbaar zijn, dat moet ethisch zijn, dat moeten we kunnen verantwoorden. Daar situeert zich de ethische AI-discussie.

Bart: Data-analytics biedt ook heel wat opportuniteiten. Zo kunnen we telefoongedrag gebruiken als predictor om te zeggen of jij een lening mag hebben ja dan nee. Dit lijkt een inbreuk op de privacy, maar voor mensen zonder krediethistoriek, bijvoorbeeld migranten zou je gebruik kunnen maken van hun telefoongedrag om hen toch verantwoord krediet toe te kennen en om zo wat wij noemen financial inclusion te realiseren. Dat betekent dat door telefoondata vrij te geven economische opportuniteiten worden gecreëerd. Het is een mes dat langs twee kanten snijdt. Uiteraard is het belangrijk dat de klant altijd duidelijk geïnformeerd wordt wat er met zijn data gebeurt en dat er steeds een opt-in/out-optie geboden wordt.

Jochen: Er is altijd (dat zien we ook in de introductiecursus rond informatiesystemen) een trade off tussen utility and privacy. Er schuilt altijd een gevaar in het vrijgeven van persoonlijke data. Daarom is wetgeving nodig die voor responsabilisering zorgt zodat de eindgebruikers, de burgers, bewust zijn van het feit dat iedereen het recht heeft om persoonlijke data zelf te beheren. Er gaan ook altijd mensen bereid zijn om hun gegevens af te staan omdat er voor hen een heel belangrijke utility bij komt kijken bv. toegang tot krediet.

Bart: Denk bv. aan Amazon of Netflix. Het is heel handig dat je aanbevelingen krijgt die op jou persoonlijk toegespitst zijn. Door een stukje van mijn kijkgedrag aan Netflix prijs te geven kunnen zij ook heel gericht aanbevelingen doen. Mensen zijn zich ook vaak niet bewust van de mogelijkheden van technologie en hebben er daarom ook schrik van.

WANNEER IS DIE ALOMTEGENWOORDIGHEID VAN DATA BEGONNEN? NU IS HET AL DATA WAT DE KLOK SLAAT, MAAR DAT IS TOCH IETS DAT REDELIJK RECENT GEKEND IS BIJ HET BREDERE PUBLIEK. Jochen: Met de introductie van GDPR is er een soort van bewustwording gekomen maar de wetgeving nu is niet zo verschillend als voordien. Alleen zijn zowel bedrijven als mensen zich meer bewust van het feit dat de persoonlijke data accurater en met meer aandacht voor beveiliging en transparantie moeten verwerkt worden.

Jan: De laatste jaren is de technologie ook zo snel gegaan dat er heel wat meer opgeslagen en gedeeld wordt. Je ziet het ook veel meer. Vroeger was het niet zo zichtbaar.

Jochen: Er is ook misbruik van data bekend geworden. Als een bedrijf de keuze geeft om locatie ja dan nee te delen en het wordt toch gedeeld ook al kiest men nee, dan wordt er iets getriggerd bij de mensen.

HET GEBRUIK VAN DATA IS NU WEL OVERAL AANWEZIG. BRENGT DAT EEN VERSCHIL IN ONDERZOEK MEE VOOR JULLIE? Jan: Er zijn nu veel meer data. Dat maakt een enorm verschil. In de jaren 80 was er al AI. Er waren toen kleine computers, maar eigenlijk geen data. Dus het was vooral theoretisch/hypothetisch onderzoek. Na 2000-2005 is er zo’n grote hoeveelheid data en rekenkracht bijgekomen dat het onderzoeken de industrie hierrond enorm geboomd hebben. Bart: AI bestaat echt al langer. Iedereen denkt aan robots en science fiction. AI zijn nochtans vaak heel eenvoudige modellen. Belangrijk is de interpreteerbaarheid van modellen. Hier doen we dan ook veel onderzoek rond zodanig dat het geen louter (complexe) wiskundige formule is die gaat beslissen over bv. kredietwaardigheid. We willen weten hoe die analytische modellen werken, hoe bepaalde beslissingen genomen worden en waarom. Zo komen ook mogelijke ethische gevaren zoals discriminatie op basis van geslacht of leeftijd aan het licht. Bijvoorbeeld één van de meest nuttige informatie-elementen in eender welke analytische oefening is het geslacht, maar hier mag je niet op discrimineren. Er zijn andere factoren die sterk gecorreleerd zijn met geslacht waardoor het via analytische modellen toch kan meespelen. Door naar interpreteerbaarheid te kijken proberen we dat bloot te leggen. Het is daarna een kwestie aan wie je de interpreteerbaarheid geeft, aan wie je het kenbaar maakt.

HEBBEN JULLIE DAN OOK AFSPRAKEN MET BEDRIJVEN MET WIE JULLIE SAMENWERKEN? Jan: Ons onderzoek is zeker business-gericht. Het bedrijfsleven verstaat wat wij doen. Het is ook geen louter theoretisch onderzoek. Dat maakt dat er ook zoveel leerstoelen zijn. Een bedrijf kiest hier specifiek voor een bedrijfseconomische faculteit en niet een andere faculteit. Ons onderzoek blijkt nuttig voor bedrijven.

WAT ZIJN DE PROFIELEN VAN DE ONDERZOEKERS HIER? Bart: Handelsingenieurs, handelsingenieurs in de beleidsinformatica, statistici, computerwetenschappers, … het gaat om sterk kwantitatieve profielen.

HOE IS JULLIE ONDERZOEK DAN GEËVOLUEERD? Jan: Ik heb daar altijd een boutade over. Men zegt altijd “onderwijs en bedrijfspraktijk sluiten niet aan,” maar dat is omdat onderzoek altijd 20 jaar voor moet zijn. Toen het onderzoek rond AI begon, was het bedrijfsleven daar nog lang niet mee bezig.Twintig jaar geleden waren we eigenlijk met dezelfde materie bezig als nu. Het heette soms anders: knowledge discovery, data mining, machine learning, ... Maar het wezen van AI (het nabootsen van menselijke intelligentie, of het leren uit data) is iets wat eigenlijk al bezig is sinds de beginjaren van de computer.

Jochen: Veel van de dingen die we op het hoogste niveau doen zijn inderdaad hetzelfde als 30 jaar geleden. Natuurlijk zijn de technieken die we ontwikkeld hebben geëvolueerd waardoor we met grotere datasets aan de slag kunnen. We kunnen niet alleen met grotere volumes maar ook met andere soorten data werken. Ik denk aan sociale netwerkdata die vroeger niet bestonden. Het verandert bovendien in termen van de algoritmes die we gebruiken. Er is daar ook een evolutie in de complexiteit en hoe we die zelf gaan tunen of aanpassen aan een specifieke context. Desalniettemin is het concept van het gebruik van dataminingmodellen om bepaalde bedrijfsbeslissingen te ondersteunen al 30 jaar hetzelfde. Vroeger werd dat zonder data gedaan. Dan was het de uitdaging voor het bedrijf om alles te coderen, in regels te gieten “als dit en dit en dit, dan ...” Het was meer regelgebaseerd en werd door de jaren heen meer en meer datagedreven. Bart: Jan is eigenlijk begonnen met onderzoek te doen rond regels. Deze regels werden neergeschreven door experten. Bv. als uw schuldenlast groter is dan 80 procent en je hebt een slechte krediethistoriek dan moet je geen krediet geven aan die klant. Jan deed onderzoek naar manieren om zulke regels te verifiëren en te valideren. Als je bv. 100 regels en algoritmen hebt, dekken die dan alles af? Conflicteren die regels?

Later kwamen de data beschikbaar en verschoof de focus naar het leren uit data. Complexe technieken werden ontwikkeld om uit die data heel complexe mathematische patronen bloot te gaan leggen om bv. te zien wanneer iemand kredietwaardig is. De regels werden overbodig en in de plaats kwamen de complexe mathematische modellen. Maar hiermee doken ook problemen op rond privacy en ethiek. Men wilde weten hoe die complexe mathematische technieken werken. We hebben immers technieken waarvan we weten wat ze doen, maar niet meer hoe ze dat precies doen. Omwille van privacy, ethiek en interpreteerbaarheid zijn er terug regels nodig voor deze complexe mathematische modellen en zo krijgen we een volledige closing of the loop. Want dan kom je terug bij: Regels die we uit die mathematische technieken leren, dekken die alles goed af? Conflicteren die regels? Kunnen we die goed verifiëren en valideren? En zo komen we terug bij het begin van het onderzoek van Jan.

“CLOSING THE LOOP” IS JULLIE VERHAAL. IN WELKE RICHTING GAAN JULLIE NU VERDER? NOG VERDER ANALYSEREN EN NIEUWE REGELS MAKEN? Bart: Je hebt twee bronnen van kennis. Je hebt domeinkennis of business kennis: dat is kennis die je hebt zonder dat die uit data moet leren. Bv. iemand die meer dan 80 procent schulden heeft en al drie keer een wanbetaler geweest is op andere leningen, ga je nooit een lening toekennen. Daar heb je geen complexe AI voor nodig. Jan: Dat moet je inderdaad niet met data leren. Dat komt uit wetten en procedures die opgelegd worden. Dat is de eerste bron van kennis, nl. regelgeving, procedures, wetgeving, kennis die je niet meer moet leren uit data, maar eerder overzichtelijk voorstellen. Bart: Maar er zijn ook heel wat patronen van consumentengedrag die we niet kennen. En die kunnen we uit data halen. En dat is natuurlijk de belangrijkste uitdaging. Hoe gaan we die domeinkennis combineren met kennis die we uit data halen. Hoe gaan we die twee bronnen van regels verzoenen met elkaar zodat we nog sterker klantengedrag kunnen in kaart brengen en klanten dan kunnen profileren in termen van fraudegedrag en zo meer. Jochen: Voor de toekomst wordt het gebruik van ongestructureerde data zoals tekst, foto’s, tweets heel belangrijk. Er zijn nu al heel wat modellen ontwikkeld die daar kennis uit kunnen halen. Dat gaat heel snel vooruit. Wij (LIRIS) waren tot nu toe heel sterk gericht op gestructureerde data, d.w.z. data die je bij wijze van spreken in een Excel-bestand kan plaatsen. Onder druk van big data technologies zijn er ook veel andere soorten van data zoals telefoon, email, … waar we waarde uit kunnen halen. Daar zal er nog een heel grote stap gemaakt worden.

In hightech bedrijven is die stap al gemaakt met bv. self-drivingcars e.d. Daar zit die technologie al in bepaalde producten ingebakken. Daarnaast zal ook AI sterk evolueren. AI vind ik niet helemaal een juiste term. Ik bedoel eerder technieken en modellen die ook meer en meer ten dienste gaan staan van de klant zelf. Deze technieken en modellen zullen meer gepersonaliseerd voor jou gebruikt worden dan wel door het bedrijf om marketing te doen. De shift gaat van het gebruiken van die analytische modellen voor het nut van het bedrijf naar meer gepersonaliseerde toepassingen zoals bijvoorbeeld chatbots of een management assistant voor de telefoon die weet wat ik op welk moment van de dag ga doen en me dat onmiddellijk zal tonen. Het zal gaan om gepersonaliseerde AI ten dienste van de gebruiker. Bart: Die ongestructureerde data zorgen ook weer voor heel wat ethische en privacy uitdagingen. Bijvoorbeeld je wilt een auto kopen bij Toyota en ze vragen je adres. Onmiddellijk kan in Google Street View gekeken worden in wat voor huis en buurt je woont en van daaruit kan men dan beslissen of je high profile bent of niet. Dat zal aanleiding geven tot nieuw onderzoek maar ook tot nieuwe reguleringen.

IS DAT OP DEN DUUR NIET ZO DOORGEDREVEN DAT ONS LEVEN GELEEFD WORDT? WAT MET HET ONVERWACHTE DAT MEN KAN TEGENKOMEN? Bart: Dat is wat wij serendipity noemen, wat moeilijk te vertalen is. Serendipity in analytics betekent dat alhoewel we altijd aanbevelingen doen op basis van wat er geleerd is uit data we ook een stuk een soort randomness inbouwen waar je niet expliciet op zoek naar bent maar wat wel leuk kan zijn. We creëren een soort verrassingselement waarbij 80 procent van een aanbeveling gestuurd is en 20 procent uit een random pool gegenereerd wordt. Zo blijven de onverwachte, leuke ontdekkingen bestaan.

IS ER DAN NOG EEN OVERZICHT? DOEN JULLIE OOK ONDERZOEK NAAR DE BESCHERMING VAN DIE DATA OF BETER, BESCHERMING VAN DE KLANT? Bart: Wij zijn zeker attent voor ethische en juridische vraagstukken, maar deze worden zeer complex. Wij hebben geen expertise in ethiek of rechtsleer. Wat wij kunnen doen en heel vaak doen is de ethische en juridische vraagstukken opwerpen. Jan: Het gebruik van modellen wordt ook gemonitord door monitoring of backtesting dat enerzijds nagaat of de modellen goed blijven presteren en anderzijds of de modellen compliant zijn en blijven. Ik heb vroeger heel wat werk verricht rond compliance, wat weerom heel belangrijk wordt. Daarnaast is natuurlijk de uitlegbaarheid (explainability) van beslissingen onmisbaar. Jochen: Daarom heeft elk bedrijf tegenwoordig een data protection officer die gans de data-architectuur moet verantwoorden of die toch zeker moeten kunnen claimen dat hij/zij die verstaat. Verder zijn er ook heel wat toepassingen die niet noodzakelijk end consumer focus zijn en die niet noodzakelijk een impact hebben op de privacy van mensen. We hebben heel wat B2B-applicaties en heel wat toepassingen voor interngebruik van bedrijven om inzicht te geven hoe ze operationeel efficiënter kunnen gaan werken gebaseerd op data die ze intern produceren. Jan: Automatisering is duidelijk de grote trend. In het verleden was er de automatisering van de gewone dagdagelijkse administratie. Nu zijn we bezig met de automatisering van de dienstverlening. Beslissen, adviseren dat is dienstverlening. Je belt naar iemand en vraagt “hoe moet ik iets doen?” Dat advies wordt nog steeds door mensen gegeven en dat is nu volop aan het automatiseren. Als je bepaalde kennis hebt, dan kun je die uitbaten en daar ook een chatbox voor opzetten. Dat creëert weer jobs maar het neemt ook jobs weg. Elke automatisering probeert routinezaken en routinevragen te automatiseren om dan tijd over te houden voor de echt serieuze of de echt moeilijke vragen. Wanneer vertrekt een trein? Daar moet je geen persoon meer voor hebben om die vraag te beantwoorden. Wat we eigenlijk nooit zien is wat er al gebeurd is. Ik herinner me als kind dat het toen nog een toekomstdroom was dat men zou kunnen telefoneren en dat je de persoon aan de andere kant van de lijn zou kunnen zien. Nu skypen of facetimen wij en we hebben die technologie ongemerkt in het leven geïncorporeerd. Zo zijn er honderden dingen die we dagelijks doen, maar waarvan we het innovatieve niet meer realiseren. Er is heel veel stilletjes veranderd en we denken dat het altijd zo geweest is. Smartphones bestaan geen 10 jaar. Het idee dat we nu altijd en overal kunnen telefoneren zonder een telefooncel in de buurt is relatief nieuw. Hetzelfde geldt voor de gps. Jochen: De trend bij studenten is nu een tracking app die toelaat om hen overal te volgen. Zo kunnen vrienden elkaar volgen of weten ouders steeds waar hun kinderen zijn. Bart: Location awareness kan ook aangewend worden in marketing om targeted ads te sturen als je in de buurt van een winkel bent.

TOT SLOT IN EEN NOTENDOP: WAT BRENGT DE TOEKOMST? Jochen: Het gepersonaliseerde. In plaats dat een winkelketen AI gebruikt om producten aan te bevelen met als doel het optimaliseren van de omzet, gaat AI gebruikt worden ten voordele van de klant. Bijvoorbeeld de koelkast zegt wat je nodig hebt, je drukt op een knop en gaat het ophalen of het wordt geleverd. Dit kan nog steeds leiden tot winstoptimalisatie van de winkelketen. Het is niet dat die bedrijven dat voor niets gaan doen. Via de producten of via een ander verdienmodel zal de klant daar uiteindelijk voor betalen. Bart: Voor de toekomst zie ik ook alsmaar zwaardere ethische uitdagingen. Het gevaar voor jongeren en kinderen is een belangrijk aandachtspunt. Kinderen posten allerlei zaken op sociale media. Eenmaal op het internet, gaat het er nooit meer af. Dat digitaal spoor kan gevaren inhouden. Alles op internet wordt permanent gearchiveerd. Zelfs wanneer je het origineel verwijdert, bestaan er reeds vele kopies. Bovendien is er heel wat schadelijke technologie, zoals bv. Deepfake. Het is noodzakelijk om daar een zekere awareness te creëren en ervoor te waken dat jongeren de technologie niet for granted nemen. Onderwijs over de technologie achter systemen die ze dagelijks gebruiken is noodzakelijk om een betere inschatting te kunnen maken van de risico’s. Jan: In de toekomst zullen er veel meer dingen intelligent zijn. Het kunnen aanbevelingen zijn, transacties of advies. De supermarkt kan suggereren om iets anders dan bananen te kopen omdat het weet dat je de week ervoor al bananen hebt gegeten. Nu communiceren we als klant nog met een bedrijf. Maar indien de klant een smartphone heeft en het bedrijf een intelligente toepassing dan wordt het mogelijk dat deze twee “machines” met elkaar communiceren zonder dat de klant of iemand van het bedrijf hoeft tussen te komen. Het gaat zo snel dat we de meest fantastische dingen reeds op korte termijn kunnen verzinnen. En dat gaat allemaal werkelijk gebeuren.

Meer info over LIRIS vind je hier

Het overzicht van de Research Chairs vind je hier

Hilde Roos en Veerle Van Rompaey