Qu'est-ce que l'apprentissage automatique (ML) ?

L’apprentissage automatique (ML) est un type d’intelligence artificielle (IA) qui permet aux applications logicielles de devenir plus précises pour prédire des résultats sans être explicitement programmées pour le faire. Les algorithmes d’apprentissage automatique utilisent des données historiques en entrée pour prédire de nouvelles valeurs de sortie.

Les moteurs de recommandation sont un cas d’utilisation courant de l’apprentissage automatique. D’autres utilisations populaires incluent la détection des fraudes, le filtrage des spams, la détection des menaces de logiciels malveillants, l’automatisation des processus métier (BPA) et la maintenance prédictive.

Types d’apprentissage automatique
Comment fonctionne l’apprentissage automatique supervisé
Comment fonctionne l’apprentissage automatique non supervisé
Comment fonctionne l’apprentissage semi-supervisé
Comment fonctionne l’apprentissage par renforcement
Utilisations de l’apprentissage automatique
Avantages et inconvénients
Choisir le bon modèle d’apprentissage automatique
Importance de l’apprentissage automatique interprétable par l’homme
L’avenir de l’apprentissage automatique
Histoire de l’apprentissage automatique

Types d’apprentissage automatique

L’apprentissage automatique classique est souvent catégorisé par la façon dont un algorithme apprend à devenir plus précis dans ses prédictions. Il existe quatre approches de base : l’apprentissage supervisé, l’apprentissage non supervisé, l’apprentissage semi-supervisé et l’apprentissage par renforcement. Le type d’algorithme qu’un data scientist choisit d’utiliser dépend du type de données qu’il veut prédire.

Apprentissage supervisé. Dans ce type d’apprentissage automatique, les scientifiques des données fournissent aux algorithmes des données d’entraînement étiquetées et définissent les variables qu’ils veulent que l’algorithme évalue pour les corrélations. Tant l’entrée que la sortie de l’algorithme sont spécifiées.
L’apprentissage non supervisé. Ce type d’apprentissage automatique implique des algorithmes qui s’entraînent sur des données non étiquetées. L’algorithme parcourt des ensembles de données à la recherche de toute connexion significative. Tant les données sur lesquelles les algorithmes s’entraînent que les prédictions ou les recommandations qu’ils produisent sont prédéterminées.
L’apprentissage semi-supervisé. Cette approche de l’apprentissage automatique implique un mélange des deux types précédents. Les scientifiques des données peuvent alimenter un algorithme principalement des données d’entraînement étiquetées, mais le modèle est libre d’explorer les données par lui-même et de développer sa propre compréhension de l’ensemble de données.
Apprentissage par renforcement. L’apprentissage par renforcement est généralement utilisé pour apprendre à une machine à réaliser un processus à plusieurs étapes pour lequel il existe des règles clairement définies. Les scientifiques des données programment un algorithme pour qu’il accomplisse une tâche et lui donnent des indices positifs ou négatifs au fur et à mesure qu’il travaille sur la façon d’accomplir une tâche. Mais pour la plupart, l’algorithme décide de lui-même des étapes à suivre en cours de route.

Comment fonctionne l’apprentissage automatique supervisé

L’apprentissage automatique supervisé nécessite que le data scientist entraîne l’algorithme avec des entrées étiquetées et des sorties souhaitées. Les algorithmes d’apprentissage supervisé sont bons pour les tâches suivantes :

Classification binaire. Diviser les données en deux catégories.
La classification multi-classes. Choisir entre plus de deux types de réponses.
Modélisation par régression. Prédire des valeurs continues.
Ensemblement. Combiner les prédictions de plusieurs modèles d’apprentissage automatique pour produire une prédiction précise.

Comment fonctionne l’apprentissage automatique non supervisé

Les algorithmes d’apprentissage automatique non supervisé ne nécessitent pas que les données soient étiquetées. Ils passent au crible les données non étiquetées pour rechercher des modèles qui peuvent être utilisés pour regrouper les points de données en sous-ensembles. La plupart des types d’apprentissage profond, y compris les réseaux neuronaux, sont des algorithmes non supervisés. Les algorithmes d’apprentissage non supervisé sont bons pour les tâches suivantes :

Clustering. Diviser l’ensemble de données en groupes basés sur la similarité.
Détection des anomalies. Identifier les points de données inhabituels dans un ensemble de données.
Mineur d’associations. Identification d’ensembles d’éléments dans un ensemble de données qui apparaissent fréquemment ensemble.
Réduction de la dimensionnalité. Réduire le nombre de variables dans un ensemble de données.

Comment fonctionne l’apprentissage semi-supervisé

L’apprentissage semi-supervisé fonctionne en alimentant un algorithme avec une petite quantité de données d’entraînement étiquetées par les data scientists. À partir de ces données, l’algorithme apprend les dimensions de l’ensemble de données, qu’il peut ensuite appliquer à de nouvelles données non étiquetées. Les performances des algorithmes s’améliorent généralement lorsqu’ils s’entraînent sur des ensembles de données étiquetées. Mais l’étiquetage des données peut prendre beaucoup de temps et coûter cher. L’apprentissage semi-supervisé se situe à mi-chemin entre les performances de l’apprentissage supervisé et l’efficacité de l’apprentissage non supervisé. Voici quelques domaines dans lesquels l’apprentissage semi-supervisé est utilisé :

Traduction automatique. Apprendre à des algorithmes à traduire une langue en se basant sur moins qu’un dictionnaire complet de mots.
Détection des fraudes. Identifier les cas de fraude lorsque vous n’avez que quelques exemples positifs.
L’étiquetage des données. Les algorithmes formés sur de petits ensembles de données peuvent apprendre à appliquer automatiquement des étiquettes de données à des ensembles plus importants.

Comment fonctionne l’apprentissage par renforcement

L’apprentissage par renforcement fonctionne en programmant un algorithme avec un objectif distinct et un ensemble prescrit de règles pour atteindre cet objectif. Les scientifiques des données programment également l’algorithme pour qu’il recherche des récompenses positives — qu’il reçoit lorsqu’il effectue une action bénéfique pour l’objectif final — et évite les punitions — qu’il reçoit lorsqu’il effectue une action qui l’éloigne de son objectif final. L’apprentissage par renforcement est souvent utilisé dans des domaines tels que :

La robotique. Les robots peuvent apprendre à effectuer des tâches dans le monde physique en utilisant cette technique.
Les jeux vidéo. L’apprentissage par renforcement a été utilisé pour apprendre à des robots à jouer à un certain nombre de jeux vidéo.
Gestion des ressources. Étant donné des ressources limitées et un objectif défini, l’apprentissage par renforcement peut aider les entreprises à planifier la manière d’allouer les ressources.

L’apprentissage automatique est comme des statistiques sur des stéroïdes.

Utilisations de l’apprentissage automatique

Aujourd’hui, l’apprentissage automatique est utilisé dans un large éventail d’applications. L’un des exemples les plus connus d’apprentissage automatique en action est sans doute le moteur de recommandation qui alimente le fil d’actualité de Facebook.

Facebook utilise l’apprentissage automatique pour personnaliser la façon dont le fil d’actualité de chaque membre est diffusé. Si un membre s’arrête fréquemment pour lire les publications d’un groupe particulier, le moteur de recommandation commencera à montrer plus d’activité de ce groupe plus tôt dans le fil d’actualité.

Dans les coulisses, le moteur tente de renforcer les modèles connus dans le comportement en ligne du membre. Si le membre change de modèle et ne lit pas les messages de ce groupe dans les semaines à venir, le fil d’actualité s’adaptera en conséquence.

En plus des moteurs de recommandation, voici d’autres utilisations de l’apprentissage automatique :

Gestion de la relation client — Les logiciels de CRM peuvent utiliser des modèles d’apprentissage automatique pour analyser les courriels et inciter les membres de l’équipe commerciale à répondre d’abord aux messages les plus importants. Les systèmes plus avancés peuvent même recommander des réponses potentiellement efficaces.

La veille économique — Les fournisseurs de BI et d’analytique utilisent l’apprentissage automatique dans leurs logiciels pour identifier les points de données potentiellement importants, les modèles de points de données et les anomalies.

Les systèmes d’information sur les ressources humaines — Les systèmes SIRH peuvent utiliser des modèles d’apprentissage automatique pour filtrer les candidatures et identifier les meilleurs candidats pour un poste ouvert.

Voitures autopilotées — Les algorithmes d’apprentissage automatique peuvent même permettre à une voiture semi-autonome de reconnaître un objet partiellement visible et d’alerter le conducteur.

Assistants virtuels — Les assistants intelligents combinent généralement des modèles d’apprentissage automatique supervisés et non supervisés pour interpréter la parole naturelle et fournir le contexte.

Avantages et inconvénients

L’apprentissage automatique a connu des cas d’utilisation puissants allant de la prédiction du comportement des clients constituant le système d’exploitation des voitures autopilotées. Mais ce n’est pas parce que certaines industries ont vu des avantages que l’apprentissage automatique est sans inconvénients.

En ce qui concerne les avantages, l’apprentissage automatique peut aider les entreprises à comprendre leurs clients à un niveau plus profond. En collectant des données sur les clients et en les corrélant avec les comportements au fil du temps, les algorithmes d’apprentissage automatique peuvent apprendre des associations et aider les équipes à adapter le développement de produits et les initiatives marketing à la demande des clients.

Certaines sociétés Internet utilisent l’apprentissage automatique comme moteur principal dans leurs modèles économiques. Uber, par exemple, utilise des algorithmes pour mettre en relation les conducteurs et les usagers. Google utilise l’apprentissage automatique pour faire apparaître les bonnes publicités dans les recherches.

Mais l’apprentissage automatique présente des inconvénients. Tout d’abord, il peut être coûteux. Les projets d’apprentissage automatique sont généralement pilotés par des scientifiques des données, qui commandent des salaires élevés. Ces projets nécessitent également une infrastructure logicielle dont le coût peut être élevé.

Il y a aussi le problème du biais de l’apprentissage automatique. Les algorithmes qui se sont entraînés sur des ensembles de données qui excluent certaines populations ou contiennent des erreurs peuvent conduire à des modèles inexacts du monde qui, au mieux, échouent et, au pire, sont discriminatoires. Lorsqu’une entreprise fonde des processus commerciaux essentiels sur des modèles biaisés, elle peut se heurter à des problèmes de réglementation et de réputation.

Choisir le bon modèle d’apprentissage automatique

Le processus de choix du bon modèle d’apprentissage automatique pour résoudre un problème peut prendre beaucoup de temps s’il n’est pas abordé de manière stratégique.

Étape 1 : Aligner le problème avec les entrées de données potentielles à prendre en compte pour la solution. Cette étape nécessite l’aide de data scientists et d’experts qui ont une compréhension approfondie du problème.

Etape 2 : Collecter les données, les formater et les étiqueter si nécessaire. Cette étape est généralement menée par des data scientists, avec l’aide de data wranglers.

Étape 3 : Choisir le ou les algorithmes à utiliser et les tester pour voir leur performance. Cette étape est généralement menée par les data scientists.

Étape 4 : Continuer à affiner les sorties jusqu’à ce qu’elles atteignent un niveau de précision acceptable. Cette étape est généralement réalisée par les data scientists avec les commentaires des experts qui ont une compréhension approfondie du problème.

Importance de l’apprentissage automatique interprétable par l’homme

Expliquer le fonctionnement d’un modèle ML spécifique peut s’avérer difficile lorsque le modèle est complexe. Il existe certaines industries verticales où les data scientists doivent utiliser des modèles d’apprentissage automatique simples car il est important pour l’entreprise d’expliquer comment chaque décision a été prise. Cela est particulièrement vrai dans les industries ayant de lourdes charges de conformité comme la banque et l’assurance.

Les modèles complexes peuvent faire des prédictions précises, mais expliquer à un profane comment une sortie a été déterminée peut être difficile.

L’avenir de l’apprentissage automatique

Bien que les algorithmes d’apprentissage automatique existent depuis des décennies, ils ont atteint une nouvelle popularité avec la montée en puissance de l’intelligence artificielle (IA). Les modèles d’apprentissage profond, en particulier, alimentent les applications d’IA les plus avancées d’aujourd’hui.

Les plateformes d’apprentissage automatique font partie des domaines les plus concurrentiels de la technologie d’entreprise, la plupart des grands fournisseurs, dont Amazon, Google, Microsoft, IBM et d’autres, se livrant à une course pour inscrire les clients à des services de plateforme qui couvrent le spectre des activités d’apprentissage automatique, notamment la collecte et la préparation des données, la classification des données, la construction de modèles, la formation et le déploiement d’applications.

Alors que l’apprentissage automatique continue de gagner en importance dans les opérations commerciales et que l’IA devient de plus en plus pratique dans les entreprises, la guerre des plateformes d’apprentissage automatique ne fera que s’intensifier.

L’apprentissage profond fonctionne de manière très différente de l’apprentissage automatique traditionnel.

La recherche continue sur l’apprentissage profond et l’IA est de plus en plus axée sur le développement d’applications plus générales. Les modèles d’IA actuels nécessitent un entraînement intensif afin de produire un algorithme hautement optimisé pour effectuer une tâche. Mais certains chercheurs explorent des moyens de rendre les modèles plus flexibles et recherchent des techniques qui permettent à une machine d’appliquer le contexte appris lors d’une tâche à des tâches futures et différentes.

Histoire de l’apprentissage automatique

1642 – Blaise Pascal invente une machine mécanique capable d’additionner, de soustraire, de multiplier et de diviser.

1679 – Gottfried Wilhelm Leibniz conçoit le système du code binaire.

1834 – Charles Babbage conçoit l’idée d’un appareil général tout usage qui pourrait être programmé avec des cartes perforées.

1842 – Ada Lovelace décrit une séquence d’opérations pour résoudre des problèmes mathématiques à l’aide de la machine théorique à cartes perforées de Charles Babbage et devient le premier programmeur.

1847 – George Boole crée la logique booléenne, une forme d’algèbre dans laquelle toutes les valeurs peuvent être réduites aux valeurs binaires de vrai ou faux.

1936 – Le logicien et cryptanalyste anglais Alan Turing propose une machine universelle capable de déchiffrer et d’exécuter un ensemble d’instructions. Sa preuve publiée est considérée comme la base de l’informatique.

1952 – Arthur Samuel crée un programme pour aider un ordinateur IBM à s’améliorer aux dames plus il joue.

1959 – MADALINE devient le premier réseau neuronal artificiel appliqué à un problème du monde réel : supprimer les échos des lignes téléphoniques.

1985 – Le réseau neuronal artificiel de Terry Sejnowski et Charles Rosenberg a appris tout seul à prononcer correctement 20 000 mots en une semaine.

1997 – Deep Blue d’IBM a battu le grand maître des échecs Garry Kasparov.

1999 – Une station de travail intelligente prototype de CAO a examiné 22 000 mammographies et a détecté le cancer avec 52% de précision de plus que les radiologues.

2006 – L’informaticien Geoffrey Hinton invente le terme d’apprentissage profond pour décrire la recherche sur les réseaux neuronaux.

2012 – Un réseau neuronal non supervisé créé par Google a appris à reconnaître les chats dans les vidéos YouTube avec une précision de 74,8 %.

2014 – Un chatbot passe le test de Turing en convainquant 33 % des juges humains qu’il était un adolescent ukrainien nommé Eugene Goostman.

2014 – Google’s AlphaGo defeats the human champion in Go, the most difficult board game in the world.

2016 – LipNet, DeepMind’s artificial-intelligence system, identifies lip-read words in video with an accuracy of 93.4%.

2019 – Amazon controls 70% of the market share for virtual assistants in the U.S.