ACP

Introduction
Principes
Applications
Notre projet
Liens
Contactez-nous

 

Analyse en Composantes Principales

 

 

 

 

 

Introduction

Les méthodes multifactorielles permettent d'obtenir des représentations graphiques qui constituent le meilleur résumé possible de l'information contenue dans un grand tableau de données. Pour cela, il faut consentir à une perte d'information afin de gagner en lisibilité. En fonction des phénomènes que l'on veut étudier et de la nature du tableau de données dont on dispose, on appliquera telle ou telle méthode multifactorielle. En effet, il n'existe pas une méthode factorielle d'analyse des données, mais un ensemble de méthodes, reposant toutes sur les mêmes théories mathématiques. Ainsi, on trouvera les principales méthodes suivantes :

-ACP : Analyse en Composantes Principales, pour les tableaux de variables quantitatives.
-AFTD : Analyse Factorielle d'un Tableau de Distances, pour les tableaux de distances.
-AFC : Analyse Factorielle des Correspondances, pour les tableaux de contingence.
-ACM : Analyse des Correspondances Multiples, pour les tableaux de variables qualitatives.
-STATIS : Structuration des Tableaux A Trois Indices de la Statistique, AFM : Analyse Factorielle Multiple, DACP : Double Analyse en Composante Principale, sont quelques méthodes basées sur les précédentes et adaptées à l'étude de phénomènes temporels ou de répétition.
-la liste n'est pas exhaustive.

Ces méthodes reposent toutes sur les mêmes notions théoriques, mais chacune produit un genre de résumé spécifique et s'applique sur un types de donnée précis. C'est pourquoi on devra choisir la méthode la plus adaptée au type d'information que l'on possède et aux phénomènes qu'on veut étudier.

L'ACP fait en réalité partie d'un ensemble de méthodes d'analyse de données, appelées méthodes multifactorielles. De façon générale, celles-ci ont pour but de résumer de la façon la plus fidèle possible un grand ensemble de données, c'est-à-dire d'observations différentes (les variables) pour chaque membre d'une importante population d'étude (les individus). Ce résumé engendre toujours une perte d'information, mais c'est au profit des informations les plus pertinentes et de la lisibilité, donc de la meilleure interprétation.

Objectifs de l'ACP

Il existe plusieurs approches différentes de l'ACP, mais toutes s'accordent sur les conditions de son application et son objectif général.
Cette méthode s'applique aux ensembles de données quantitatives d'au moins deux variables.
Puisqu'il s'agit d'une méthode d'analyse de données multifactorielle, son but est de résumer cet ensemble de données. Ceci se fait selon les modalités suivantes :

  • fournir des outils simples et lisibles de représentation des informations traitées, permettant de faire ressortir des données brutes les éventuels liens existant entre les variables (en terme de corrélation),
  • donner des indications sur la nature, la force et la pertinence de ces liens, afin de faciliter leur interprétation et découvrir quelles sont les tendances dominantes de l'ensemble de données,
  • réduire efficacement le nombre de dimensions étudiées (et ainsi simplifier l'analyse), en cherchant à exprimer le plus fidèlement possible l'ensemble original de données grâce aux relations détectées entre les variables.

Avantages et inconvénients de l'ACP

Avantages

Simplicité mathématique: L'ACP est une méthode factorielle car la réduction du nombre des caractères ne se fait pas par une simple sélection de certains d'entre eux, mais par la construction de nouveaux caractères synthétiques obtenus en combinant les caractères initiaux au moyen des "facteurs". Cependant, il s'agit seulement de combinaisons linéaires. Les seuls véritables outils mathématiques utilisés dans l'ACP sont le calcul des valeurs/vecteurs propres d'une matrice, et les changements de base.Sur le plan mathématique, l'ACP est donc une méthode simple à mettre en oeuvre.

Simplicité des résultats : Grâce aux graphiques qu'elle fournit, l'Analyse en Composantes Principales permet d'appréhender une grande partie de ses résultats d'un simple coup d'oeil.

Puissance : L'ACP a beau être simple, elle n'en est pas moins puissante. Elle offre, en quelques opérations seulement, un résumé et une vue complète des relations existant entre les variables quantitatives d'une population d'étude, résultats qui n'auraient pas pu être obtenus autrement, ou bien uniquement au prix de manipulations fastidieuses.

Flexibilité : L'ACP est une méthode très souple, puisqu'elle s'applique sur un ensemble de données de contenu et de taille quelconques, pour peu qu'il s'agisse de données quantitatives organisées sous forme individus/variables. Cette souplesse d'utilisation se traduit surtout par la diversité des applications de l'ACP, qui touche tous les domaines, comme exposé dans la partie précédente.

Inconvénients


En tant que méthode d'analyse de données, l'ACP n'a pas réellement d'inconvénients en soi. Elle s'applique simplement sur des cas précis et pour générer un type de résultat particulier. Ca n'aurait donc aucun sens de dire que c'est un inconvénient de l'ACP qu'elle ne s'applique pas en dehors de ce contexte. De même, étant donné qu'il s'agit avant tout d'une technique de résumé de données, la perte d'information forcément engendrée n'est pas un inconvénient, mais plutôt une condition d'obtention du résultat, même si elle occulte parfois des caractéristiques pourtant représentatives dans certains cas particuliers.