Machineleren (ML) is een vorm van kunstmatige intelligentie (AI) waarmee softwaretoepassingen nauwkeuriger kunnen worden in het voorspellen van uitkomsten zonder dat ze daar expliciet voor geprogrammeerd zijn. Machine learning-algoritmen gebruiken historische gegevens als input om nieuwe outputwaarden te voorspellen.
Aanbeveligingssystemen zijn een veelgebruikte toepassing van machine learning. Andere populaire toepassingen zijn fraudedetectie, spamfiltering, detectie van malware-bedreigingen, automatisering van bedrijfsprocessen (BPA) en voorspellend onderhoud.
- Typen machine learning
- Hoe machine learning onder supervisie werkt
- Hoe unsupervised machine learning werkt
- Hoe semi-supervised learning werkt
- Hoe reinforcement learning werkt
- Toepassingen van machine learning
- Voordelen en nadelen
- Het juiste machine learning-model kiezen
- Belang van menselijk te interpreteren machine learning
- De toekomst van machine learning
- Geschiedenis van machine learning
Typen machine learning
Klassiek machine learning wordt vaak gecategoriseerd op basis van hoe een algoritme leert om nauwkeuriger te worden in zijn voorspellingen. Er zijn vier basisbenaderingen: supervised learning, unsupervised learning, semi-supervised learning en reinforcement learning. Het type algoritme dat een data scientist kiest, hangt af van het type data dat hij wil voorspellen.
- Supervised learning. Bij dit type machine learning voorzien datawetenschappers algoritmes van gelabelde trainingsgegevens en definiëren ze de variabelen die ze willen dat het algoritme beoordeelt op correlaties. Zowel de input als de output van het algoritme wordt gespecificeerd.
- Unsupervised learning. Dit type machinaal leren omvat algoritmen die trainen op ongelabelde gegevens. Het algoritme scant door datasets op zoek naar een zinvol verband. Zowel de gegevens waarop de algoritmen trainen als de voorspellingen of aanbevelingen die ze doen, zijn vooraf bepaald.
- Semi-toezichtgestuurd leren. Deze benadering van machinaal leren omvat een mix van de twee vorige types. Data scientists kunnen een algoritme voeden met voornamelijk gelabelde trainingsgegevens, maar het model is vrij om de gegevens zelf te verkennen en zijn eigen begrip van de dataset te ontwikkelen.
- Reinforcement learning. Reinforcement learning wordt typisch gebruikt om een machine te leren een proces met meerdere stappen uit te voeren waarvoor duidelijk gedefinieerde regels bestaan. Datawetenschappers programmeren een algoritme om een taak te voltooien en geven het positieve of negatieve aanwijzingen terwijl het uitwerkt hoe het een taak moet voltooien. Maar voor het grootste deel beslist het algoritme zelf welke stappen het onderweg moet nemen.
Hoe machine learning onder supervisie werkt
Machine learning onder supervisie vereist dat de datawetenschapper het algoritme traint met zowel gelabelde inputs als gewenste outputs. Supervised learning-algoritmen zijn goed voor de volgende taken:
- Binaire classificatie. Het verdelen van gegevens in twee categorieën.
- Multi-class classificatie. Kiezen tussen meer dan twee soorten antwoorden.
- Regressiemodellering. Voorspellen van continue waarden.
- Ensembling. Het combineren van de voorspellingen van meerdere machine learning modellen om een accurate voorspelling te produceren.
Hoe unsupervised machine learning werkt
Unsupervised machine learning algoritmen vereisen niet dat gegevens gelabeld zijn. Ze doorzoeken ongelabelde gegevens op zoek naar patronen die kunnen worden gebruikt om gegevenspunten in subsets te groeperen. De meeste vormen van deep learning, waaronder neurale netwerken, zijn algoritmen zonder toezicht. Niet-gesuperviseerde leeralgoritmen zijn goed voor de volgende taken:
- Clusteren. Het opdelen van de dataset in groepen op basis van gelijkenis.
- Anomaliedetectie. Het identificeren van ongebruikelijke gegevenspunten in een gegevensverzameling.
- Association mining. Het identificeren van sets van punten in een gegevensverzameling die vaak samen voorkomen.
- Vermindering van de dimensionaliteit. Het verminderen van het aantal variabelen in een dataset.
Hoe semi-supervised learning werkt
Semi-supervised learning werkt door data scientists feeding a small amount of labeled training data to an algorithm. Hieruit leert het algoritme de dimensies van de dataset, die het vervolgens kan toepassen op nieuwe, ongelabelde data. De prestaties van algoritmen verbeteren doorgaans wanneer ze trainen op gelabelde datasets. Maar het labelen van gegevens kan tijdrovend en duur zijn. Semi-toezichtgestuurd leren houdt het midden tussen de prestaties van supervised learning en de efficiëntie van unsupervised learning. Enkele gebieden waar semi-supervised learning wordt gebruikt zijn:
- Machinevertaling. Het aanleren van algoritmen om taal te vertalen op basis van minder dan een volledig woordenboek.
- Fraudedetectie. Identificeren van fraudegevallen wanneer je maar een paar positieve voorbeelden hebt.
- Labelen van gegevens. Algoritmen die zijn getraind op kleine datasets kunnen leren om automatisch datalabels toe te passen op grotere sets.
Hoe reinforcement learning werkt
Reinforcement learning werkt door een algoritme te programmeren met een duidelijk doel en een voorgeschreven set regels om dat doel te bereiken. Data scientists programmeren het algoritme ook om positieve beloningen te zoeken – die het krijgt als het een actie uitvoert die het uiteindelijke doel bevordert – en straffen te vermijden – die het krijgt als het een actie uitvoert die het verder van het uiteindelijke doel brengt. Reinforcement learning wordt vaak gebruikt op gebieden als:
- Robotica. Robots kunnen met deze techniek leren om taken in de fysieke wereld uit te voeren.
- Video gameplay. Reinforcement learning is gebruikt om bots een aantal videogames te leren spelen.
- Resource management. Gegeven eindige middelen en een gedefinieerd doel, kan reinforcement learning ondernemingen helpen plannen hoe middelen toe te wijzen.
Toepassingen van machine learning
Heden ten dage wordt machine learning gebruikt in een breed scala van toepassingen. Een van de bekendste voorbeelden van machinaal leren is misschien wel de aanbevelingsengine die de nieuwsfeed van Facebook voedt.
Facebook gebruikt machinaal leren om te personaliseren hoe de feed van elk lid wordt weergegeven. Als een lid vaak stopt om de berichten van een bepaalde groep te lezen, zal de aanbevelingsengine meer activiteiten van die groep eerder in de feed laten zien.
In de coulissen probeert de engine bekende patronen in het online gedrag van het lid te versterken. Als het patroon verandert en het lid de komende weken geen berichten uit die groep leest, wordt de nieuwsfeed dienovereenkomstig aangepast.
Naast aanbevelingsengines zijn er nog andere toepassingen van machine learning, zoals:
Klantrelatiebeheer — CRM-software kan machine learning-modellen gebruiken om e-mail te analyseren en verkoopteamleden te vragen eerst op de belangrijkste berichten te reageren. Meer geavanceerde systemen kunnen zelfs potentieel effectieve antwoorden aanbevelen.
Business intelligence — BI- en analytics-leveranciers gebruiken machine learning in hun software om potentieel belangrijke datapunten, patronen van datapunten en anomalieën te identificeren.
Human resource information systems — HRIS-systemen kunnen machine learning-modellen gebruiken om door sollicitaties te filteren en de beste kandidaten voor een openstaande functie te identificeren.
Zelfrijdende auto’s — Machine learning-algoritmen kunnen het zelfs mogelijk maken voor een semi-autonome auto om een gedeeltelijk zichtbaar object te herkennen en de bestuurder te waarschuwen.
Virtuele assistenten — Slimme assistenten combineren meestal machine learning-modellen onder supervisie en zonder supervisie om natuurlijke spraak te interpreteren en context te leveren.
Voordelen en nadelen
Machine learning heeft krachtige use cases gezien, variërend van het voorspellen van klantgedrag tot het vormen van het besturingssysteem voor zelfrijdende auto’s. Maar dat sommige sectoren voordelen hebben gezien, betekent niet dat machine learning zonder nadelen is.
Als het om voordelen gaat, kan machine learning bedrijven helpen hun klanten op een dieper niveau te begrijpen. Door klantgegevens te verzamelen en deze te correleren met gedrag in de loop van de tijd, kunnen algoritmen voor machinaal leren associaties leren en teams helpen productontwikkeling en marketinginitiatieven af te stemmen op de vraag van de klant.
Sommige internetbedrijven gebruiken machinaal leren als een primaire drijfveer in hun bedrijfsmodellen. Uber, bijvoorbeeld, gebruikt algoritmen om chauffeurs aan rijders te koppelen. Google gebruikt machine learning om bij zoekopdrachten de juiste advertenties te tonen.
Maar machine learning heeft ook nadelen. Eerst en vooral kan het duur zijn. Machine learning-projecten worden meestal uitgevoerd door datawetenschappers, die hoge salarissen vragen. Deze projecten vereisen ook een software-infrastructuur die veel kan kosten.
Er is ook het probleem van vooringenomenheid bij machine learning. Algoritmen die zijn getraind op datasets die bepaalde populaties uitsluiten of fouten bevatten, kunnen leiden tot onnauwkeurige modellen van de wereld die, in het beste geval, falen en, in het slechtste geval, discriminerend zijn. Wanneer een onderneming kernbedrijfsprocessen baseert op bevooroordeelde modellen, kan zij te maken krijgen met schade op het gebied van regelgeving en reputatie.
Het juiste machine learning-model kiezen
Het proces van het kiezen van het juiste machine learning-model om een probleem op te lossen, kan tijdrovend zijn als het niet strategisch wordt benaderd.
Stap 1: Stem het probleem af op potentiële data-inputs die voor de oplossing in aanmerking moeten komen. Deze stap vereist hulp van datawetenschappers en experts die een diep inzicht hebben in het probleem.
Stap 2: Verzamel data, formatteer ze en label de data indien nodig. Deze stap wordt meestal geleid door data scientists, met hulp van data wranglers.
Step 3: Kies welk(e) algoritme(s) je wilt gebruiken en test om te zien hoe goed ze presteren. Deze stap wordt meestal uitgevoerd door data scientists.
Step 4: Ga door met het fine-tunen van de output totdat deze een acceptabel niveau van nauwkeurigheid heeft bereikt. Deze stap wordt meestal uitgevoerd door data scientists met feedback van experts die een diep inzicht hebben in het probleem.
Belang van menselijk te interpreteren machine learning
Uitleggen hoe een specifiek ML-model werkt, kan een uitdaging zijn als het model complex is. Er zijn enkele verticale industrieën waar data scientists eenvoudige machine learning modellen moeten gebruiken omdat het belangrijk is voor de business om uit te leggen hoe elke beslissing tot stand is gekomen. Dit geldt met name in sectoren met een zware nalevingsplicht, zoals het bank- en verzekeringswezen.
Complexe modellen kunnen nauwkeurige voorspellingen doen, maar aan een leek uitleggen hoe een output is bepaald, kan lastig zijn.
De toekomst van machine learning
Hoewel machine learning-algoritmen al tientallen jaren bestaan, hebben ze aan populariteit gewonnen naarmate kunstmatige intelligentie (AI) aan bekendheid heeft gewonnen. Met name deep learning-modellen zijn de motor achter de meest geavanceerde AI-toepassingen van dit moment.
Machine learning-platforms behoren tot de meest concurrerende sectoren van de bedrijfstechnologie, waarbij de meeste grote leveranciers, waaronder Amazon, Google, Microsoft, IBM en anderen, in de race zijn om klanten te werven voor platformdiensten die het spectrum van machine learning-activiteiten bestrijken, waaronder dataverzameling, datavoorbereiding, dataclassificatie, modelbouw, training en toepassing.
Naarmate machine learning steeds belangrijker wordt voor de bedrijfsvoering en AI steeds praktischer wordt in bedrijfsomgevingen, zal de machine learning-platformoorlog alleen maar heviger worden.
Doorgaand onderzoek naar deep learning en AI is steeds meer gericht op de ontwikkeling van meer algemene toepassingen. De huidige AI-modellen vereisen uitgebreide training om een algoritme te produceren dat sterk geoptimaliseerd is voor het uitvoeren van één taak. Maar sommige onderzoekers onderzoeken manieren om modellen flexibeler te maken en zoeken naar technieken die een machine in staat stellen om context, geleerd van één taak, toe te passen op toekomstige, andere taken.
Geschiedenis van machine learning
1642 – Blaise Pascal vindt een mechanische machine uit die kan optellen, aftrekken, vermenigvuldigen en delen.
1679 – Gottfried Wilhelm Leibniz bedenkt het systeem van de binaire code.
1834 – Charles Babbage bedenkt het idee voor een algemeen all-purpose apparaat dat met ponskaarten geprogrammeerd kan worden.
1842 – Ada Lovelace beschrijft een reeks bewerkingen voor het oplossen van wiskundige problemen met behulp van Charles Babbage’s theoretische ponskaartmachine en wordt de eerste programmeur.
1847 – George Boole creëert Booleaanse logica, een vorm van algebra waarin alle waarden kunnen worden teruggebracht tot de binaire waarden van waar of onwaar.
1936 – De Engelse logicus en cryptoanalist Alan Turing stelt een universele machine voor die een reeks instructies kan ontcijferen en uitvoeren. Zijn gepubliceerde bewijs wordt beschouwd als de basis van de computerwetenschap.
1952 – Arthur Samuel maakt een programma om een IBM-computer beter te laten dammen naarmate hij meer speelt.
1959 – MADALINE wordt het eerste kunstmatige neurale netwerk dat wordt toegepast op een reëel probleem: het verwijderen van echo’s uit telefoonlijnen.
1985 – Terry Sejnowski en Charles Rosenbergs kunstmatige neurale netwerk leert zichzelf in een week 20.000 woorden correct uit te spreken.
1997 – IBM’s Deep Blue verslaat schaakgrootmeester Garry Kasparov.
1999 – Een CAD-prototype van een intelligent werkstation beoordeelt 22.000 mammogrammen en spoort kanker 52% nauwkeuriger op dan radiologen deden.
2006 – Computerwetenschapper Geoffrey Hinton vindt de term deep learning uit om neuraal netonderzoek te beschrijven.
2012 – Een door Google gemaakt neuraal netwerk zonder supervisie leert katten in YouTube-video’s herkennen met 74,8% nauwkeurigheid.
2014 – Een chatbot slaagt voor de Turingtest door 33% van de menselijke juryleden ervan te overtuigen dat het een Oekraïense tiener is genaamd Eugene Goostman.
2014 – Google’s AlphaGo defeats the human champion in Go, the most difficult board game in the world.
2016 – LipNet, DeepMind’s artificial-intelligence system, identifies lip-read words in video with an accuracy of 93.4%.
2019 – Amazon controls 70% of the market share for virtual assistants in the U.S.