8. De wereld stabiel maken met gemiddelden, big data en zelflerende systemen?

Procrustes was een herbergier uit de Griekse mythologie. Hij zorgde ervoor dat zijn gasten perfect in hun bed pasten door in hun slaap hun ledematen op te rekken of af te hakken.

In stabiele omstandigheden kun je prima werken met modellen en analytisch onderzoek. Dat is aantrekkelijk, omdat je ermee kunt rekenen en dingen mee kunt plannen en automatiseren. Er zijn veel nuttige voorbeelden die gebruik maken van statistiek, big data en algoritmen. Veel toepassingen zijn inmiddels vanzelfsprekend en onmisbaar geworden. Denk aan wat statistiek ons heeft opgeleverd voor wetenschappelijk onderzoek. Of denk aan het nut van dagelijkse dingen als zoekmachines op de computer en automatisering in de industrie en huishoudelijke apparaten. Maar juist omdat het zo aantrekkelijk en gewoon is ontstaat mogelijk de verleiding om alles met big data, algoritmen en automatisering te willen beheersen. Ook, of misschien vooral, bij onderwerpen met veel variatie waarop moeilijk vat te krijgen is. Daar willen we graag iets over zeggen.

Om bij grillige onderwerpen toch analytisch onderzoek te kunnen doen en met modellen te kunnen werken kun je een kunstgreep toepassen. Je kunt onregelmatige elementen regelmatig maken door ze om te zetten in gemiddelden. Die zijn stabiel. Dan kun je er berekeningen mee doen, zoals optellen en aftrekken, en vermenigvuldigen en delen. En zo kun je alsnog statistische verbanden en patronen vinden. Natuurlijk is statistiek heel nuttig en belangrijk, maar je mag niet vergeten dat je een truc hebt toegepast. Je stelt het gemiddelde (de verzameling) centraal en niet de elementen zelf.

De gemiddelde Nederlandse man is 182.9 cm lang. En de gemiddelde Nederlandse vrouw 169,3 cm. Dat wil niet zeggen dat een Nederlander van 182.9 cm een man is.

Met big data onderzoek kun je patronen en wetmatigheden ontdekken in grote databestanden, die met eenvoudige middelen niet herkenbaar zijn. Orde ontdekken in wanorde. Deze patronen kan men vervolgens gebruiken voor het maken van modellen. Een nuttige toepassing in de gezondheidszorg is de ontwikkeling van instrumenten om een crisis (bijvoorbeeld een ernstige infectie) te voorspellen. Maar dan moet je je wel blijven afvragen hoe betrouwbaar die patronen en wetmatigheden zijn die je met brute rekenkracht in een oceaan van data hebt gevonden.

Een cynische uitspraak over statistiek (en toepasbaar op big data-verwerking):
“If you torture the data long enough, it will confess to anything”
[1]

Algoritmen en zelflerende systemen
Een ontwikkeling die voortkomt uit het werken met veel data, en die bedoeld is om wanorde overzichtelijk te maken, is het gebruik van kunstmatige intelligentie met zelflerende systemen. Met een algoritme – een reeks instructies om een bepaald doel te bereiken – kun je neurale netwerken (computerprogramma’s) trainen in het leggen van verbanden. Zo’n doel kan zijn gegevens te koppelen aan bepaalde uitkomsten. Bijvoorbeeld grote hoeveelheden handgeschreven letters en cijfers koppelen aan de letters en cijfers die ermee bedoeld worden, zodat het mogelijk wordt om handschriften te lezen. Kunstmatige intelligentie (Artificial Intelligence, AI) kennen we bijvoorbeeld als toepassingen in zoekmachines voor het internet, navigatiesystemen in het verkeer, zelfrijdende auto’s, en systemen voor het verbeteren van productieprocessen en logistieke processen. Het is een aanwinst voor het uitvoeren van lastige berekeningen en als vervanging van saai en routinematig werk. Sociale media en platforms zoals Uber en Airbnb danken hun bestaan aan kunstmatige intelligentie.
Zelflerende systemen (machine learning) zijn vooral goed in beeld- en videoherkenning, spraakherkenning en tekstanalyse. Er zijn programma’s die geleerd hebben ‘kanker’ te onderscheiden van ‘geen kanker’ op röntgenfoto’s, door ze te voeren met heel veel foto’s waarvan bekend is of het wel of geen kanker betrof. Deze toepassingen van kunstmatige intelligentie maken het mogelijk om kennis uit het verleden toe te passen op onbekende situaties, op een ander moment of in een andere context. Maar er zijn ook risico’s. Er kan onverwachte en onzichtbare bias (vertekening) ontstaan. Voorbeelden uit de beginperiode van deze toepassingen maken dat duidelijk. Men probeerde gezichten van criminelen te onderscheiden van die van niet-criminelen (Zoiets verzin je toch niet?). Met dit doel voerde men een computerprogramma met foto’s van criminelen. Als controlegroep gebruikte men grote aantallen pasfoto’s van niet-criminelen. Wat men vergat was dat mensen op pasfoto’s meestal glimlachen en op de foto’s van criminelen uit archieven was dit niet het geval. Het programma leerde onbedoeld dit kenmerk te gebruiken als onderscheid. Het programma was dus gemakkelijk te misleiden door wel of niet te glimlachen. Men probeert uiteraard zo veel mogelijk dit soort fouten te voorkomen, maar deskundigen geven toe dat niemand precies inzicht heeft in wat er gebeurt in de black box van de training van computerprogramma’s. De beschreven technieken kan men toepassen bij het werven van personeel, bij het voorspellen van fraude of criminaliteit, of bij het toekennen van leningen. Bedenk dat de makers altijd keuzes moeten maken over welke gegevens ze gebruiken voor het trainen van de programma’s. En denk even terug aan Cathy O’Neil: modellen zijn meningen, verpakt in wiskunde.

In het artikel “Leidt het algoritme van YouTube je naar extreme content?” van 11 februari 2019 beschrijven journalisten de resultaten van een groot onderzoek van De Correspondent en De Volkskrant. Het onderzoek laat zien dat gebruikers van YouTube die video’s bekijken over een bepaald onderwerp steeds extremere aanbevelingen krijgen naarmate ze verder zoeken. De suggesties worden radicaler bij onderwerpen waarover omstreden meningen bestaan zoals over politiek, ras, geloof, feminisme of complottheorieën. Technologiesocioloog Zeynep Tufekci noemt het ‘de grote radicaliseringsmachine’. Het is natuurlijk geen opzet van YouTube om radicalisering te bevorderen. Het is een onbedoeld bijeffect van een algoritme.

Omdat het idee van een black box niet aantrekkelijk is, zijn er ontwikkelingen om de werking van lerende programma’s doorzichtiger te maken. Het gebruik van deze technieken wordt Explainable Artificial Intelligence (XAI) [2] genoemd. Dit moet antwoord geven op de vraag waarom een algoritme met een bepaald voorstel komt. Iemand wil bijvoorbeeld weten of haar huidskleur, leeftijd, geslacht, opleidingsniveau of postcode een rol heeft gespeeld bij het niet toekennen van een lening. Welke elementen hebben invloed gehad op de uitkomst ‘Computer says no’? XAI biedt de mogelijkheid om factoren wel of niet in te voeren om te kijken welke gevolgen dat heeft voor de uitkomst. Deze transparantie van XAI moet ons geruststellen. Maar dat doet het niet. Het blijft een programma waarbij de makers een set van variabelen of een bepaalde invoer hebben gekozen om het mee te trainen. Het gaat nog steeds om een selectie van de werkelijkheid.
Er is overigens net zo goed sprake van een black box wanneer mensen in plaats van machines de genoemde taken uitvoeren. Het menselijk oordeel is niet onpartijdig, fluctueert en kan beïnvloed worden door vooroordelen of impliciete voorkeuren. Een algoritme fluctueert niet, maar is ook niet neutraal. Het is bevooroordeeld door impliciete keuzes van de maker. Een ander punt is de grootschaligheid bij het gebruik van algoritmen waardoor fouten hele grote fouten kunnen worden. En algoritmen voeren hun taken weliswaar vlekkeloos, maar ook klakkeloos uit. Er zal nooit een klokkenluider tussen zitten. En ook geen AI met een slim idee.

Stefan Buijsman schreef een toegankelijk boek over kunstmatige intelligentie: AI: Alsmaar Intelligenter. [3] Hij legt uit hoe het werkt en gaat in op de beloftes en de gevaren van deze techniek. Als zwakke kanten van zelflerende systemen noemt hij:

  • Neurale netwerken nemen op een ondoorzichtige manier beslissingen (‘black box’)
  • Neurale netwerken zijn nooit beter dan hun data (‘garbage in, garbage out’)
  • Neurale netwerken zijn niet goed in generaliseren (In onbekende situaties gaan ze de fout in)
  • Neurale netwerken vatten alles letterlijk op (De meest effectieve manier om het klimaatprobleem op te lossen? De mensheid uitroeien)
  • Neurale netwerken zijn specialistisch (Een programma voor beeldherkenning kan niets op het gebied van spraakherkenning)
    Stefan Huisman, AI: Alsmaar intelligenter (2020). De Bezige Bij pp 172-175

Zwarte zwanen
In zijn boek De Zwarte Zwaan schrijft Nassim Taleb, auteur en wetenschapper, [4] over de grote impact die onvoorspelbare gebeurtenissen kunnen hebben. Zwarte zwanen zijn dingen of gebeurtenissen die niemand kon bedenken……, totdat ze gebeuren. Aanvankelijk werd gedacht dat er alleen witte zwanen bestonden, totdat….. Hij betoogt dat juist door de toenemende neiging om controle uit te oefenen op onvoorspelbare dingen er meer zwarte zwanen zullen opduiken met grote gevolgen.

Natuurlijke kleine bosbranden die het kreupelhout uitdunnen en vanzelf uitgaan dragen bij aan een natuurlijk evenwicht in de bossen. Wanneer mensen zich ermee gaan bemoeien en deze kleine brandjes blussen, kan brandbaar materiaal zich ophopen en kunnen veel grotere, moeilijk te blussen branden ontstaan, die veel schade aanrichten. Het effectief bestrijden van branden in Amerikaanse nationale parken had ook nog een ander gevolg. Grote sequoia’s gingen zich minder goed voortplanten. Men ontdekte later dat kleine bosbranden gunstig zijn voor de ontkieming van de zaden en voor het verwijderen van de lage begroeiing. Sequoia’s kunnen kleine branden prima overleven. Grote branden kunnen deze bomen verwoesten.

Overheden, geheime diensten en luchtvaartmaatschappijen doen veel aan het voorkomen van terroristische aanslagen. Toch waren de aanslagen van 11 september 2001 mogelijk. Inmiddels zijn er nieuwe maatregelen getroffen, worden er enorme hoeveelheden data verzameld en zijn er nieuwe algoritmen ontwikkeld. Ze zijn gemaakt met kennis en argumenten uit het verleden. Gaan zij ons beschermen tegen zwarte zwanen?

Hoe ziet een volgende zwarte zwaan er uit? Het plat gaan van het internet? Een nieuwe infectieziekte waar geen behandeling voor bestaat? Je kunt een zwarte zwaan niet voorspellen. Onvoorspelbaarheid is namelijk een kenmerk van zwarte zwanen.

Er bestaan overigens ook positieve zwarte zwanen. De ontdekking van penicilline, bijvoorbeeld, kon niemand bedenken. Het had niettemin grote positieve gevolgen. En positieve zwarte zwanen zijn ook negatieve gebeurtenissen die niet optreden terwijl ze wel werden verwacht.

 

Controle en beheersen? Of aanpassen? Toeval biedt ook positieve uitzonderingen
Toeval is een interessant gegeven. Het kent vele gezichten. Vanuit het perspectief van controle en beheersen zijn onvoorspelbaarheid en toeval ongewenste zaken. Ze worden dan gezien als risico’s. Maar er is ook een andere invalshoek mogelijk. Die gaat over aanpassen aan veranderende omstandigheden. Dan krijgt toeval de betekenis van kans. Er zijn namelijk altijd positieve uitzonderingen die mogelijkheden bieden. Dat hoeven niet gelijk positieve zwarte zwanen te zijn. Het kunnen ook kleine meevallers zijn. Dat gaat over ‘het dak repareren als de zon schijnt’, ‘roeien met de riemen die je hebt’, ‘als het leven je citroenen geeft maak dan limonade’ en ‘wat kan er wel?’. De oplossingsgerichte benadering die we later in dit boek bespreken werkt met positieve uitzonderingen. En innovatie in wetenschap en technologie werkt natuurlijk ook zo. Het heeft met toeval te maken, en met aanpassen aan omstandigheden.

In het kort:

  • In stabiele omstandigheden kun je prima werken met modellen en analytisch onderzoek. Dat is aantrekkelijk, omdat je ermee kunt rekenen en dingen mee kunt plannen en automatiseren. Er zijn veel nuttige voorbeelden die gebruik maken van statistiek, big data en algoritmen.
  • Het regelmatig maken van onregelmatige onderwerpen met behulp van statistiek, big data en zelflerende programma’s om berekeningen en voorspellingen te kunnen doen is een kunstgreep
  • Volledige controle is niet mogelijk. Er zullen altijd (ook) onvoorspelbare uitkomsten zijn (zwarte zwanen, die zowel positief als negatief kunnen zijn).
  • Naast controle en beheersing is aanpassing mogelijk. Bedenk dat er risico’s én kansen zijn. Toeval biedt ook positieve kansen.