Ne devenez pas obsolète & obtenez un Pink Slip
Suivez DataFlair sur Google News
Gardez une longueur d’avance
Objectif
Aujourd’hui, nous allons examiner l’une des procédures statistiques les plus fréquemment utilisées dans la programmation SAS, à savoir la distribution de fréquences SAS. Nous verrons comment créer un tableau de distribution de fréquence en SAS et une variété d’options qui peuvent être appliquées pendant la création d’un tableau pour obtenir de meilleurs résultats.
Donc, commençons la distribution de fréquence SAS en utilisant SAS PROC FREQ.
Distribution de fréquence SAS à l’aide de SAS PROC FREQ
Distribution de fréquence SAS
Pour les variables continues, les statistiques descriptives comme la moyenne et l’écart type peuvent être utilisées pour résumer les données. Mais pour les variables catégorielles, ces mesures ne sont pas appropriées. Les variables catégorielles peuvent être résumées à l’aide d’un tableau de fréquence, qui montre le nombre et le pourcentage de cas observés pour chaque catégorie d’une variable.
Lisons le tableau croisé de SAS en détail
Une variable catégorielle (parfois appelée variable nominale) est une variable qui comporte deux catégories ou plus, mais il n’y a pas d’ordre pour les catégories. Par exemple, le sexe est une variable catégorielle ayant deux catégories (homme et femme) et il n’y a pas d’ordre aux catégories. La couleur des cheveux est également une variable catégorielle comportant un certain nombre de catégories (blonde, brune, brune, rousse, etc.) et, là encore, il n’existe aucun moyen convenu de les classer de la plus élevée à la plus faible. Une variable purement catégorielle est une variable qui vous permet simplement d’attribuer des catégories mais vous ne pouvez pas clairement ordonner les variables.
Le tableau de distribution de fréquence SAS ressemble à celui présenté ci-dessous-
Exemple de distribution de fréquence SAS
Procédure SAS PROC FREQ
La procédure SAS PROC FREQ imprime toutes les valeurs d’une variable catégorielle donnée dans la fenêtre de sortie, ainsi que le nombre et le pourcentage de fois où chaque valeur apparaît. La procédure FREQ peut fonctionner avec des variables catégorielles de type chaîne (caractère) ou numérique.
La syntaxe de l’instruction SAS PROC FREQ est :
PROC FREQ DATA = Dataset ;TABLES Variable1 ;BY Variable2 ;
L’instruction PROC FREQ est la seule instruction requise pour la procédure FREQ.
Un tableau de fréquence de base créé avec PROC FREQ aura les propriétés suivantes :
- Il comprendra la fréquence, le pourcentage, la fréquence cumulée et le pourcentage cumulé pour chaque catégorie.
- S’il existe des cas avec des valeurs manquantes pour la variable, le nombre de valeurs manquantes est indiqué sous le tableau.
- Pour les variables de type chaîne, les catégories seront classées par ordre alphabétique. Pour les variables numériques, les catégories seront ordonnées de l’indicateur le plus petit à l’indicateur le plus grand.
Utilisation basique de SAS PROC FREQ
Il s’agit de la forme la plus basique d’un PROC FREQ dans SAS Frequency Distribution. Nous devons seulement spécifier le nom de l’ensemble de données et non les variables.
Exemple-
Proc freq data=SASHelp.cars;Run;
Le code ci-dessus crée un tableau de fréquence pour chacune des variables de l’ensemble de données.
Par exemple, voici un tableau de fréquence pour la variable MAKE.
Utilisation de base de SAS PROC FREQ
a. SAS PROC FREQ avec option tables ( variable unique)
Utiliser SAS Proc Freq sans aucune option n’est généralement pas recommandé, en particulier si vous avez un grand ensemble de données qui contient des variables qui ont de nombreuses valeurs uniques (niveaux). L’instruction Tables est utilisée dans de tels cas.
Lisez en détail l’instruction SAS Proc Sort Data Sets
Exemple-
Proc freq data=SASHelp.cars ;Tables Origin;Run;
SAS PROC FREQ – Variable unique
b. Distributions de fréquences à variables multiples
On peut générer un grand nombre de tableaux pour autant de variables présentes dans l’ensemble de données.
Exemple-
PROC FREQ DATA=sample;TABLE State Rank;RUN;
SAS PROC FREQ – Variable multiple
Valeurs manquantes dans le tableau de fréquence
Il n’est pas nécessaire que nos données doivent toujours avoir des valeurs, parfois il y a des valeurs manquantes dans une donnée. Lorsque SAS crée un tableau de distribution de fréquences, il imprime également le nombre de valeurs manquantes dans la variable. Pour connaître la fréquence, le pourcentage de valeurs manquantes à l’intérieur de la variable catégorielle, nous devons le spécifier dans l’instruction tables.
Explorons les types de logiciels en SAS
Exemple…
PROC FREQ DATA=sample; TABLE State Rank / MISSING;RUN;
Valeurs manquantes dans le tableau de fréquence
Ordre les valeurs dans le tableau
Vous pouvez utiliser SAS proc freq pour déterminer les valeurs les plus ou les moins fréquentes dans une variable.
Exemple-
Proc freq data=SASHelp.cars order=freq; Tables type origin;Run;
Les tableaux résultants montrent la fréquence de chaque variable triée avec la variable la plus fréquente en haut et la moins fréquente en bas :
Ordre les valeurs dans le tableau
Tout ceci était dans le tutoriel SAS sur la distribution de fréquences. Nous espérons que vous avez aimé nos explications.
Conclusion
Enfin, nous espérons que vous avez tous compris comment nous pouvons utiliser la procédure PROC FREQ pour trouver la distribution de fréquence SAS des variables catégorielles dans notre ensemble de données. En conclusion, nous avons également vu comment créer une distribution de fréquence SAS à variable unique et à variables multiples, une fréquence de valeurs manquantes et des valeurs d’ordre. En outre, si vous avez des questions, n’hésitez pas à les poser dans une section de commentaires.
Thème connexe – Un guide complet de PROC SQL SAS