Site mis à jour le : 18 avril 2026

Introduction au Machine Learning

Le machine-learning est un domaine vaste, et j'ai tout de suite envie de détruire une idée reçue : celle qu'il faut absolument séparer les IA de manière binaire aujourd'hui.

On essaie souvent de les classifier ou de les regrouper par famille, ou de mettre dans la tête des personnes deux catégories strictes. Si le but est de visualiser plus vite, alors oui, c'est une approche utile pour débuter.

Lier les problématiques à des algorithmes

On pourrait travailler de la manière suivante : pour une problématique donnée, on la lie à une catégorie d'algorithme. Séparer "supervisé" et "non supervisé" n'est peut-être pas le meilleur moyen de procéder à mon avis, même si c'est ce que la plupart des écoles inculquent.

Il me semble plus efficace de donner plusieurs manières d'analyser la problématique pour la lier rapidement au bon algorithme.

Partir de la donnée

Tout d'abord, on part de la base : la donnée. Nous allons raisonner avec la définition de celle-ci :

Si la donnée est qualitative, il y a de grandes chances de partir sur de la classification.
Si les variables sont quantitatives, alors on peut faire de la régression.

Une autre vision des choses consiste à diviser les algorithmes en catégories selon leur méthode d'apprentissage.

Côté non-supervisé

Les algorithmes de regroupement (Clustering)
Les algorithmes d'association

Côté supervisé

Il s'agit généralement de traiter les problèmes comme le partitionnement de données, l'estimation de densités de distribution, ou la réduction de dimensionnalité.

Les familles de modèles

Voici un tour d'horizon des principales familles utilisées en Machine Learning :

Les Arbres de décision : Utilisés principalement pour la classification, bien qu'ils puissent faire de la régression. Ils reposent sur des notions essentielles comme l'entropie et le gain d'information.
Les Modèles Bayésiens : Ils se basent sur le principe mathématique de Bayes (probabilités) pour effectuer des prédictions.
Les Modèles Ensemblistes : Cela inclut les méthodes de Boosting et de Bootstrap. C'est souvent très performant.
La Réduction de dimension : Une famille utile pour simplifier des jeux de données complexes.
Le Clustering (Non-supervisé) : On y trouve les classifications hiérarchiques (ex: arbre du vivant) et le célèbre K-Means.
Les K-Nearest Neighbors (K-NN) : Le modèle des "plus proches voisins", basé sur la distance entre les données.
Les SVM (Support Vector Machines) : (Anciennement très utilisés). C'est la famille des "Séparateurs à Vaste Marge".
Les Séries Temporelles (Time Series) : Comme les modèles auto-régressifs (ARIMA, etc.), utilisés pour tout ce qui est lié au temps.

En conclusion, le Machine Learning contient des modèles paramétriques et non-paramétriques que l'on utilise en supervisé ou non supervisé. Ces catégories servent surtout à mieux retenir les concepts.