Dernière mise à jour le 6 août 2019
- Comment améliorer les performances en combinant les prédictions de plusieurs modèles.
- Overview
- High Variance of Neural Network Models
- Vous voulez de meilleurs résultats avec le Deep Learning ?
- Réduisez la variance à l’aide d’un ensemble de modèles
- Comment assembler des modèles de réseaux neuronaux
- Variation des données d’entraînement
- Tutoriels sur les ensembles
- Variation des modèles
- Tutoriels sur les ensembles
- Variation des combinaisons
- Tutoriels sur les ensembles
- Résumé des techniques d’ensemble
- Further Reading
- Books
- Papers
- Articles
- Summary
- Développez de meilleurs modèles de Deep Learning dès aujourd’hui !
- Formation plus rapide, réduction des surcharges et des ensembles
- Apportez un meilleur apprentissage profond à vos projets !
Comment améliorer les performances en combinant les prédictions de plusieurs modèles.
Les réseaux neuronaux d’apprentissage profond sont des méthodes non linéaires.
Ils offrent une flexibilité accrue et peuvent évoluer proportionnellement à la quantité de données d’apprentissage disponibles. Un inconvénient de cette flexibilité est qu’ils apprennent via un algorithme de formation stochastique, ce qui signifie qu’ils sont sensibles aux spécificités des données de formation et peuvent trouver un ensemble différent de poids à chaque fois qu’ils sont formés, ce qui produit des prédictions différentes.
Généralement, on appelle cela des réseaux neuronaux ayant une variance élevée et cela peut être frustrant lorsqu’on essaie de développer un modèle final à utiliser pour faire des prédictions.
Une approche réussie pour réduire la variance des modèles de réseaux neuronaux consiste à former plusieurs modèles au lieu d’un seul et à combiner les prédictions de ces modèles. C’est ce que l’on appelle l’apprentissage d’ensemble et cela permet non seulement de réduire la variance des prédictions, mais aussi d’obtenir des prédictions meilleures que n’importe quel modèle unique.
Dans ce post, vous découvrirez des méthodes pour les réseaux neuronaux d’apprentissage profond afin de réduire la variance et d’améliorer les performances de prédiction.
Après avoir lu ce post, vous saurez :
- Les modèles de réseaux de neurones sont non linéaires et ont une variance élevée, ce qui peut être frustrant lors de la préparation d’un modèle final pour faire des prédictions.
- L’apprentissage par assemblage combine les prédictions de plusieurs modèles de réseaux de neurones pour réduire la variance des prédictions et réduire l’erreur de généralisation.
- Les techniques d’apprentissage d’ensemble peuvent être regroupées selon l’élément qui varie, comme les données d’entraînement, le modèle et la façon dont les prédictions sont combinées.
Démarrez votre projet avec mon nouveau livre Better Deep Learning, qui comprend des tutoriels étape par étape et les fichiers de code source Python pour tous les exemples.
Démarrons.
Ensemble Methods to Reduce Variance and Improve Performance of Deep Learning Neural Networks
Photo by University of San Francisco’s Performing Arts, some rights reserved.
Overview
This tutorial is divided into four parts; they are:
- High Variance of Neural Network Models
- Reduce Variance Using an Ensemble of Models
- How to Ensemble Neural Network Models
- Summary of Ensemble Techniques
High Variance of Neural Network Models
Training deep neural networks can be very computationally expensive.
Very deep networks trained on millions of examples may take days, weeks, and sometimes months to train.
Le modèle de référence de Google était un réseau neuronal convolutif profond qui avait été entraîné pendant environ six mois à l’aide de la descente de gradient stochastique asynchrone sur un grand nombre de cœurs.
– Distiller la connaissance dans un réseau neuronal, 2015.
Après l’investissement de tant de temps et de ressources, il n’y a aucune garantie que le modèle final aura une faible erreur de généralisation, performant sur des exemples non vus pendant l’entraînement.
… entraîner de nombreux réseaux candidats différents, puis de sélectionner le meilleur, et d’écarter le reste. Une telle approche présente deux inconvénients. Premièrement, tous les efforts déployés pour former les autres réseaux sont gaspillés. Deuxièmement, le réseau qui avait les meilleures performances sur l’ensemble de validation pourrait ne pas être celui qui a les meilleures performances sur les nouvelles données de test.
– Pages 364-365, Neural Networks for Pattern Recognition, 1995.
Les modèles de réseaux neuronaux sont une méthode non linéaire. Cela signifie qu’ils peuvent apprendre des relations non linéaires complexes dans les données. Un inconvénient de cette flexibilité est qu’ils sont sensibles aux conditions initiales, à la fois en termes de poids aléatoires initiaux et en termes de bruit statistique dans l’ensemble de données d’apprentissage.
Cette nature stochastique de l’algorithme d’apprentissage signifie que chaque fois qu’un modèle de réseau neuronal est formé, il peut apprendre une version légèrement (ou dramatiquement) différente de la fonction de mappage des entrées vers les sorties, qui à son tour aura des performances différentes sur les ensembles de données de formation et de maintien.
En tant que tel, nous pouvons considérer un réseau neuronal comme une méthode qui a un faible biais et une variance élevée. Même lorsqu’il est formé sur de grands ensembles de données pour satisfaire la variance élevée, le fait d’avoir une quelconque variance dans un modèle final destiné à être utilisé pour faire des prédictions peut être frustrant.
Vous voulez de meilleurs résultats avec le Deep Learning ?
Prenez dès maintenant mon cours intensif gratuit de 7 jours par e-mail (avec un exemple de code).
Cliquez pour vous inscrire et obtenir également une version PDF Ebook gratuite du cours.
Téléchargez votre mini-cours gratuit
Réduisez la variance à l’aide d’un ensemble de modèles
Une solution à la variance élevée des réseaux neuronaux consiste à former plusieurs modèles et à combiner leurs prédictions.
L’idée est de combiner les prédictions de plusieurs modèles bons mais différents.
Un bon modèle a des compétences, ce qui signifie que ses prédictions sont meilleures que le hasard. Ce qui est important, c’est que les modèles doivent être bons de différentes manières ; ils doivent faire des erreurs de prédiction différentes.
La raison pour laquelle la moyenne des modèles fonctionne est que les différents modèles ne feront généralement pas tous les mêmes erreurs sur le jeu de test.
– Page 256, Deep Learning, 2016.
Combiner les prédictions de plusieurs réseaux neuronaux ajoute un biais qui, à son tour, contrecarre la variance d’un seul modèle de réseau neuronal formé. Il en résulte des prédictions moins sensibles aux spécificités des données d’entraînement, au choix du schéma d’entraînement et à la sérendipité d’une seule exécution d’entraînement.
En plus de réduire la variance de la prédiction, l’ensemble peut également donner lieu à de meilleures prédictions que tout meilleur modèle unique.
… la performance d’un comité peut être meilleure que la performance du meilleur réseau unique utilisé de manière isolée.
– Page 365, Neural Networks for Pattern Recognition, 1995.
Cette approche appartient à une classe générale de méthodes appelée « apprentissage d’ensemble » qui décrit les méthodes qui tentent d’utiliser au mieux les prédictions de plusieurs modèles préparés pour le même problème.
Généralement, l’apprentissage d’ensemble implique la formation de plus d’un réseau sur le même ensemble de données, puis l’utilisation de chacun des modèles formés pour faire une prédiction avant de combiner les prédictions d’une manière ou d’une autre pour faire un résultat ou une prédiction finale.
En fait, l’assemblage de modèles est une approche standard dans l’apprentissage automatique appliqué pour s’assurer que la prédiction la plus stable et la meilleure possible est faite.
Par exemple, Alex Krizhevsky, et al. dans leur célèbre article de 2012 intitulé « Imagenet classification with deep convolutional neural networks » qui a introduit des réseaux neuronaux convolutifs très profonds pour la classification des photos (c’est-à-dire AlexNet) a utilisé la moyenne des modèles entre plusieurs modèles CNN performants pour obtenir des résultats de pointe à l’époque. Les performances d’un modèle ont été comparées aux prédictions d’ensemble moyennées sur deux, cinq et sept modèles différents.
La moyenne des prédictions de cinq CNN similaires donne un taux d’erreur de 16,4 %. La moyenne des prédictions de deux CNN qui ont été pré-entraînés avec les cinq CNN susmentionnés donne un taux d’erreur de 15,3 %.
L’assemblage est également l’approche utilisée par les gagnants des concours d’apprentissage automatique.
Une autre technique puissante pour obtenir les meilleurs résultats possibles sur une tâche est l’assemblage de modèles. Si vous regardez les compétitions d’apprentissage automatique, en particulier sur Kaggle, vous verrez que les gagnants utilisent de très grands ensembles de modèles qui battent inévitablement tout modèle unique, quelle que soit sa qualité.
– Page 264, Deep Learning With Python, 2017.
Comment assembler des modèles de réseaux neuronaux
Peut-être que l’approche d’assemblage la plus ancienne et encore la plus utilisée pour les réseaux neuronaux s’appelle un » comité de réseaux «
Une collection de réseaux avec la même configuration et différents poids aléatoires initiaux est entraînée sur le même jeu de données. Chaque modèle est ensuite utilisé pour faire une prédiction et la prédiction réelle est calculée comme la moyenne des prédictions.
Le nombre de modèles dans l’ensemble est souvent maintenu faible à la fois en raison de la dépense de calcul dans la formation des modèles et en raison des rendements décroissants dans la performance de l’ajout de plus de membres de l’ensemble. Les ensembles peuvent être aussi petits que trois, cinq ou 10 modèles formés.
Le domaine de l’apprentissage d’ensemble est bien étudié et il existe de nombreuses variations sur ce thème simple.
Il peut être utile de penser à varier chacun des trois éléments majeurs de la méthode d’ensemble ; par exemple :
- Données de formation : Varier le choix des données utilisées pour former chaque modèle de l’ensemble.
- Modèles d’ensemble : Varier le choix des modèles utilisés dans l’ensemble.
- Combinaisons : Varier le choix de la façon dont les résultats des membres de l’ensemble sont combinés.
Regardons de plus près chaque élément à tour de rôle.
Variation des données d’entraînement
Les données utilisées pour entraîner chaque membre de l’ensemble peuvent être variées.
L’approche la plus simple serait d’utiliser la validation croisée à k plis pour estimer l’erreur de généralisation de la configuration de modèle choisie. Dans cette procédure, k modèles différents sont entraînés sur k sous-ensembles différents des données d’entraînement. Ces k modèles peuvent ensuite être enregistrés et utilisés comme membres d’un ensemble.
Une autre approche populaire consiste à rééchantillonner l’ensemble de données d’entraînement avec remplacement, puis à entraîner un réseau à l’aide de l’ensemble de données rééchantillonné. La procédure de rééchantillonnage signifie que la composition de chaque ensemble de données d’entraînement est différente avec la possibilité d’exemples dupliqués permettant au modèle formé sur l’ensemble de données d’avoir une attente légèrement différente de la densité des échantillons, et à son tour une erreur de généralisation différente.
Cette approche est appelée agrégation bootstrap, ou bagging pour faire court, et a été conçue pour être utilisée avec des arbres de décision non élagués qui ont une variance élevée et un faible biais. Typiquement, un grand nombre d’arbres de décision sont utilisés, tels que des centaines ou des milliers, étant donné qu’ils sont rapides à préparer.
… une façon naturelle de réduire la variance et donc d’augmenter la précision de prédiction d’une méthode d’apprentissage statistique est de prendre de nombreux ensembles de formation de la population, de construire un modèle de prédiction distinct en utilisant chaque ensemble de formation, et de faire la moyenne des prédictions résultantes. Bien sûr, cette méthode n’est pas pratique car nous n’avons généralement pas accès à plusieurs ensembles d’apprentissage. Au lieu de cela, nous pouvons faire du bootstrap, en prenant des échantillons répétés à partir de l’ensemble de données d’entraînement (unique).
– Pages 216-317, An Introduction to Statistical Learning with Applications in R, 2013.
Une approche équivalente pourrait consister à utiliser un sous-ensemble plus petit de l’ensemble de données d’entraînement sans régularisation pour permettre un entraînement plus rapide et un certain surajustement.
Le désir d’avoir des modèles légèrement sous-optimisés s’applique plus généralement à la sélection des membres de l’ensemble.
… les membres du comité ne devraient pas être choisis individuellement pour avoir un compromis optimal entre le biais et la variance, mais devraient avoir un biais relativement plus petit, puisque la variance supplémentaire peut être supprimée par le calcul de la moyenne.
– Page 366, Neural Networks for Pattern Recognition, 1995.
D’autres approches peuvent consister à sélectionner un sous-espace aléatoire de l’espace d’entrée à allouer à chaque modèle, tel qu’un sous-ensemble de l’hyper-volume dans l’espace d’entrée ou un sous-ensemble de caractéristiques d’entrée.
Tutoriels sur les ensembles
Pour des exemples d’ensembles d’apprentissage profond qui varient les données d’entraînement, voir :
- Comment développer un ensemble de fractionnement aléatoire, de validation croisée et de mise en sac pour l’apprentissage profond
Variation des modèles
Entraîner le même modèle sous contrainte sur les mêmes données avec différentes conditions initiales donnera lieu à différents modèles étant donné la difficulté du problème, et la nature stochastique de l’algorithme d’apprentissage.
C’est parce que le problème d’optimisation que le réseau tente de résoudre est si difficile qu’il existe de nombreuses « bonnes » et « différentes » solutions pour faire correspondre les entrées aux sorties.
La plupart des algorithmes de réseaux neuronaux atteignent des performances sous-optimales spécifiquement en raison de l’existence d’un nombre écrasant de minima locaux sous-optimaux. Si nous prenons un ensemble de réseaux neuronaux qui ont convergé vers des minima locaux et que nous appliquons le calcul de la moyenne, nous pouvons construire une estimation améliorée. Une façon de comprendre ce fait est de considérer qu’en général, les réseaux qui sont tombés dans différents minima locaux seront peu performants dans différentes régions de l’espace des caractéristiques et donc leurs termes d’erreur ne seront pas fortement corrélés.
– Quand les réseaux ne sont pas d’accord : Ensemble methods for hybrid neural networks, 1995.
Ceci peut entraîner une réduction de la variance, mais pas nécessairement une amélioration spectaculaire de l’erreur de généralisation. Les erreurs commises par les modèles peuvent encore être trop fortement corrélées, car les modèles ont tous appris des fonctions de cartographie similaires.
Une approche alternative pourrait consister à faire varier la configuration de chaque modèle d’ensemble, par exemple en utilisant des réseaux de capacité différente (par exemple, le nombre de couches ou de nœuds) ou des modèles formés dans des conditions différentes (par exemple, le taux d’apprentissage ou la régularisation).
Le résultat peut être un ensemble de modèles qui ont appris une collection plus hétérogène de fonctions de cartographie et qui, à leur tour, présentent une corrélation plus faible dans leurs prédictions et leurs erreurs de prédiction.
Les différences dans l’initialisation aléatoire, la sélection aléatoire des minibatchs, les différences dans les hyperparamètres ou les différents résultats des implémentations non déterministes des réseaux neuronaux sont souvent suffisantes pour que les différents membres de l’ensemble fassent des erreurs partiellement indépendantes.
– Pages 257-258, Deep Learning, 2016.
Un tel ensemble de modèles configurés différemment peut être obtenu par le processus normal de développement du réseau et de réglage de ses hyperparamètres. Chaque modèle pourrait être sauvegardé au cours de ce processus et un sous-ensemble de meilleurs modèles choisi pour constituer l’ensemble.
Les réseaux légèrement inférieurs formés sont un sous-produit gratuit de la plupart des algorithmes de réglage ; il est souhaitable d’utiliser ces copies supplémentaires même lorsque leurs performances sont nettement inférieures aux meilleures performances trouvées. De meilleures performances encore peuvent être obtenues par une planification minutieuse d’une classification d’ensemble en utilisant les meilleurs paramètres disponibles et en formant différentes copies sur différents sous-ensembles de la base de données disponible.
– Ensembles de réseaux neuronaux, 1990.
Dans les cas où un seul modèle peut prendre des semaines ou des mois à former, une autre alternative peut être de sauvegarder périodiquement le meilleur modèle pendant le processus de formation, appelé modèles instantanés ou points de contrôle, puis de sélectionner les membres de l’ensemble parmi les modèles sauvegardés. Cela offre les avantages d’avoir plusieurs modèles formés sur les mêmes données, bien qu’elles soient collectées au cours d’une seule formation.
L’assemblage instantané produit un ensemble de modèles précis et diversifiés à partir d’un seul processus de formation. Au cœur de l’assemblage Snapshot se trouve un processus d’optimisation qui visite plusieurs minima locaux avant de converger vers une solution finale. Nous prenons des instantanés de modèles à ces différents minima, et faisons la moyenne de leurs prédictions au moment du test.
– Ensembles d’instantanés : Entraînez 1, obtenez M gratuitement, 2017.
Une variation de l’ensemble Snapshot consiste à sauvegarder les modèles d’une gamme d’époques, peut-être identifiée en examinant les courbes d’apprentissage des performances des modèles sur les ensembles de données d’entraînement et de validation pendant l’entraînement. Les ensembles provenant de telles séquences contiguës de modèles sont appelés ensembles horizontaux.
D’abord, les réseaux formés pour une gamme relativement stable d’époques sont sélectionnés. Les prédictions de la probabilité de chaque étiquette sont produites par des classificateurs standard l’époque sélectionnée, puis moyennées.
– Ensemble horizontal et vertical avec représentation profonde pour la classification, 2013.
Une autre amélioration de l’ensemble instantané consiste à faire varier systématiquement la procédure d’optimisation pendant l’entraînement pour forcer différentes solutions (c’est-à-dire des ensembles de poids), dont les meilleures peuvent être enregistrées dans des points de contrôle. Cela peut impliquer l’injection d’une quantité oscillante de bruit pendant les époques d’apprentissage ou l’oscillation du taux d’apprentissage pendant les époques d’apprentissage. Une variation de cette approche appelée Stochastic Gradient Descent with Warm Restarts (SGDR) a démontré un apprentissage plus rapide et des résultats à l’état de l’art pour des tâches standard de classification de photos.
Notre SGDR simule des redémarrages à chaud en programmant le taux d’apprentissage pour obtenir des résultats compétitifs environ deux à quatre fois plus rapidement. Nous avons également obtenu de nouveaux résultats à l’état de l’art avec SGDR, principalement en utilisant des ensembles encore plus larges et des ensembles d’instantanés de la trajectoire de SGDR.
– SGDR : Stochastic Gradient Descent with Warm Restarts, 2016.
Un avantage des réseaux neuronaux très profonds est que les couches cachées intermédiaires fournissent une représentation apprise des données d’entrée à faible résolution. Les couches cachées peuvent sortir leurs représentations internes directement, et la sortie d’une ou plusieurs couches cachées d’un réseau très profond peut être utilisée comme entrée d’un nouveau modèle de classification. Cette méthode est peut-être plus efficace lorsque le modèle profond est formé à l’aide d’un modèle autoencodeur. Ce type d’ensemble est appelé ensemble vertical.
Cette méthode regroupe une série de classificateurs dont les entrées sont la représentation des couches intermédiaires. Un taux d’erreur plus faible est attendu car ces caractéristiques semblent diverses.
– Ensemble horizontal et vertical avec représentation profonde pour la classification, 2013.
Tutoriels sur les ensembles
Pour des exemples d’ensembles d’apprentissage profond qui varient les modèles, voir :
- Comment développer un ensemble d’instantanés pour l’apprentissage profond
- Comment développer un ensemble de vote horizontal pour l’apprentissage profond
Variation des combinaisons
La façon la plus simple de combiner les prédictions est de calculer la moyenne des prédictions des membres de l’ensemble.
Cela peut être légèrement amélioré en pondérant les prédictions de chaque modèle, où les pondérations sont optimisées en utilisant un ensemble de données de validation hold-out. Cela fournit un ensemble moyen pondéré qui est parfois appelé model blending.
… nous pourrions nous attendre à ce que certains membres du comité fassent généralement de meilleures prédictions que d’autres membres. Nous pourrions donc nous attendre à pouvoir réduire encore plus l’erreur si nous donnons plus de poids à certains membres du comité qu’à d’autres. Ainsi, nous considérons une prédiction de comité généralisée donnée par une combinaison pondérée des prédictions des membres…
– Page 367, Neural Networks for Pattern Recognition, 1995.
Un pas supplémentaire dans la complexité implique l’utilisation d’un nouveau modèle pour apprendre comment combiner au mieux les prédictions de chaque membre de l’ensemble.
Le modèle pourrait être un simple modèle linéaire (par exemple, un peu comme la moyenne pondérée), mais pourrait être une méthode non linéaire sophistiquée qui considère également l’échantillon d’entrée spécifique en plus des prédictions fournies par chaque membre. Cette approche générale d’apprentissage d’un nouveau modèle est appelée empilement de modèles, ou généralisation empilée.
La généralisation empilée fonctionne en déduisant les biais du ou des généralisateurs par rapport à un ensemble d’apprentissage fourni. Cette déduction se fait en généralisant dans un second espace dont les entrées sont (par exemple) les suppositions des généralisateurs originaux lorsqu’ils ont appris une partie de l’ensemble d’apprentissage et ont essayé de deviner le reste, et dont la sortie est (par exemple) la supposition correcte. Lorsqu’elle est utilisée avec un seul généralisateur, la généralisation empilée est un schéma permettant d’estimer (puis de corriger) l’erreur d’un généralisateur qui a été formé sur un ensemble d’apprentissage particulier et à qui on a ensuite posé une question particulière.
– Généralisation empilée, 1992.
Il existe des méthodes plus sophistiquées pour empiler les modèles, comme le boosting où les membres de l’ensemble sont ajoutés un par un afin de corriger les erreurs des modèles précédents. La complexité supplémentaire signifie que cette approche est moins souvent utilisée avec de grands modèles de réseaux neuronaux.
Une autre combinaison un peu différente consiste à combiner les poids de plusieurs réseaux neuronaux ayant la même structure. On peut faire la moyenne des poids de plusieurs réseaux, pour espérer obtenir un nouveau modèle unique dont les performances globales sont meilleures que celles de n’importe quel modèle original. Cette approche est appelée moyenne des poids des modèles.
… suggère qu’il est prometteur de faire la moyenne de ces points dans l’espace des poids, et d’utiliser un réseau avec ces poids moyens, au lieu de former un ensemble en faisant la moyenne des sorties des réseaux dans l’espace des modèles
– La moyenne des poids conduit à des optima plus larges et à une meilleure généralisation, 2018.
Tutoriels sur les ensembles
Pour des exemples d’ensembles d’apprentissage profond qui varient les combinaisons, voir :
- Comment développer un ensemble de moyenne de modèle pour l’apprentissage profond
- Comment développer un ensemble de moyenne pondérée pour l’apprentissage profond
- Comment développer un ensemble d’empilement pour l’apprentissage profond
- Comment créer un ensemble Polyak-Ruppert pour l’apprentissage profond
Résumé des techniques d’ensemble
En résumé, we can list some of the more common and interesting ensemble methods for neural networks organized by each element of the method that can be varied, as follows:
- Varying Training Data
- k-fold Cross-Validation Ensemble
- Bootstrap Aggregation (bagging) Ensemble
- Random Training Subset Ensemble
- Varying Models
- Multiple Training Run Ensemble
- Hyperparameter Tuning Ensemble
- Snapshot Ensemble
- Horizontal Epochs Ensemble
- Vertical Representational Ensemble
- Varying Combinations
- Model Averaging Ensemble
- Weighted Average Ensemble
- Stacked Generalization (stacking) Ensemble
- Boosting Ensemble
- Model Weight Averaging Ensemble
There is no single best ensemble method; perhaps experiment with a few approaches or let the constraints of your project guide you.
Further Reading
This section provides more resources on the topic if you are looking to go deeper.
Books
- Section 9.6 Committees of networks, Neural Networks for Pattern Recognition, 1995.
- Section 7.11 Bagging and Other Ensemble Methods, Deep Learning, 2016.
- Section 7.3.3 Model ensembling, Deep Learning With Python, 2017.
- Section 8.2 Bagging, Random Forests, Boosting, An Introduction to Statistical Learning with Applications in R, 2013.
Papers
- Neural Network Ensembles, 1990.
- Neural Network Ensembles, Cross Validation, and Active Learning, 1994.
- When networks disagree: Ensemble methods for hybrid neural networks, 1995.
- Snapshot Ensembles: Train 1, get M for free, 2017.
- SGDR: Stochastic Gradient Descent with Warm Restarts, 2016.
- Horizontal and vertical ensemble with deep representation for classification, 2013.
- Stacked generalization, 1992.
- Averaging Weights Leads to Wider Optima and Better Generalization, 2018.
Articles
- Ensemble learning, Wikipedia.
- Bootstrap aggregating, Wikipedia.
- Boosting (machine learning), Wikipedia.
Summary
In this post, you discovered ensemble methods for deep learning neural networks to reduce variance and improve prediction performance.
Specifically, you learned:
- Neural network models are nonlinear and have a high variance, which can be frustrating when preparing a final model for making predictions.
- L’apprentissage d’ensemble combine les prédictions de plusieurs modèles de réseaux neuronaux pour réduire la variance des prédictions et réduire l’erreur de généralisation.
- Les techniques d’apprentissage d’ensemble peuvent être regroupées selon l’élément qui varie, comme les données d’entraînement, le modèle et la façon dont les prédictions sont combinées.
Avez-vous des questions ?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.
Développez de meilleurs modèles de Deep Learning dès aujourd’hui !
Formation plus rapide, réduction des surcharges et des ensembles
….avec seulement quelques lignes de code python
Découvrez comment dans mon nouvel Ebook :
Better Deep Learning
Il fournit des tutoriels d’auto-apprentissage sur des sujets tels que :
la décroissance du poids, la normalisation des lots, le décrochage, l’empilement des modèles et bien plus encore…
Apportez un meilleur apprentissage profond à vos projets !
Skip the Academics. Just Results.
See What’s Inside