Les bases de la data science avec pandas

00:00:00 :Dans cette partie, on va voir comment récupérer des informations de base sur notre DataFrame.Donc je vais créer un nouveau notebook Jupyter.Ici dans mon launcher, je vais cliquer sur Python 3 et on va renommer ce notebook.
00:00:13 :On va l'appeler 02 Analyse Données et je clique sur Rename pour renommer ce notebook.On va commencer par importer notre librairie Pandas et lire les données à l'intérieur du fichier CSV.
00:00:25 :Donc on fait Import Pandas as pd et on peut bien entendu mettre plusieurs lignes de code dans la même cellule.Donc si je fais tout simplement Entrée, je vais pouvoir taper plusieurs lignes à la suite.
00:00:34 :Donc là on va refaire notre variable df pd.readcsv et on va lire le fichier data.csv.Donc si je valide cette fois-ci avec Shift Entrée, j'ai bien maintenant dans la variable df mon fichier CSV qui est disponible.
00:00:48 :Donc ce qu'on va pouvoir faire déjà c'est récupérer seulement certaines parties de notre fichier.Là quand on fait df, vous voyez qu'il nous affiche les premières lignes.
00:00:57 :Donc on a les cinq premières lignes et les cinq dernières lignes et quelques informations comme par exemple le nombre de rangées et le nombre de colonnes.
00:01:04 :Donc les rangées c'est tout ce qu'on a ici et à chaque fois on a une rangée.C'est vraiment comme un tableau Excel et on a les colonnes ici avec id, dat, firstname, lastname, etc.
00:01:13 :La première méthode qu'on va voir c'est la méthode head qui va en fait nous retourner à peu près la même chose sauf que ça va afficher uniquement les cinq premières entrées.
00:01:21 :De la même façon on peut récupérer les cinq dernières entrées avec cette fois-ci tail.Donc df.tail et là vous allez voir qu'on a les cinq dernières entrées uniquement.
00:01:30 :Donc ça c'est ce qu'on fait généralement pour ne pas avoir trop d'éléments d'affichés.Quand on veut juste avoir un aperçu de notre DataFrame, on peut utiliser head et tail.
00:01:39 :Ça peut être assez intéressant de regarder le début et la fin pour voir si ça se ressemble que ce soit au début du tableau ou à la fin de notre tableau.
00:01:46 :Donc là on voit que les données sont similaires que ce soit au début ou à la fin et head et tail nous permettent de ne pas afficher trop d'informations.
00:01:54 :Si jamais on souhaite afficher un peu plus d'informations que juste les cinq premiers ou les cinq derniers éléments,on peut spécifier dans head ou dans tail le nombre d'éléments qu'on souhaite afficher.
00:02:03 :Donc si je mets 10 ici, vous allez voir que j'ai 10 éléments qui sont affichés au lieu des 5 par défaut.Si on veut savoir le nombre de rangées et de colonnes qui sont à l'intérieur de notre DataFrame,on peut utiliser l'attribut shape, donc df.shape.
00:02:18 :Dans ce cas-ci ce n'est pas une méthode, c'est vraiment un attribut dont il ne faut pas mettre de parenthèse.Je valide avec shift entrée et là en fait ça va nous retourner dans un tuple le nombre de rangées et le nombre de colonnes.
00:02:29 :Donc on retrouve en fait ce qu'on avait au tout début quand on avait juste affiché df.Si je reviens ici que je fais df, vous pouvez bien entendu dans un notebook Jupyter revenir à un endroit de votre notebook pour modifier le code.
00:02:40 :Et si je refais shift entrée, vous voyez que là le numéro correspond à la cellule que je suis en train d'exécuter.Donc là en fait on était à 1 et maintenant on est à 7 puisque ici avec le shape j'étais à 6.
00:02:50 :Donc ça c'est juste un petit détail et vous voyez que j'ai donc réexécuté cette cellule et on voit que quand on affiche df tout simplement on a cette information,donc le nombre de rangées et de colonnes qui est affiché en bas.
00:03:02 :Donc là je vais juste enlever le df, je vais juste refaire le read csv sans afficher df.Si jamais vous voulez donc revenir à un état un peu plus clean avec les numéros,comme on l'avait vu vous pouvez faire run all cell comme ça et ça va tout relancer en repartant donc 9, 10, 11, etc.
00:03:17 :Si vous voulez vraiment tout relancer et ne pas repartir à 9, 10, 11, etc.Vous pouvez relancer ce qu'on appelle le kernel en allant dans kernel.
00:03:24 :Donc vous faites restart kernel.Donc le mieux c'est de faire restart kernel and clear all output et vous pouvez également relancer le kernel et relancer toutes les cellules en un coup.
00:03:33 :Donc en cliquant sur cette option ici on clique sur restart et là vous voyez que ça va tout relancer donc tout le notebook au complet en repartant de 1.
00:03:41 :Donc petite précision pour revenir à quelque chose d'un peu plus clean si ça vous perturbe d'avoir des numéros différents ici.Donc là avec shape ça nous permet d'afficher très rapidement juste le nombre de rangées et le nombre de colonnes.
00:03:53 :On peut également afficher les informations sur les colonnes et les rangées en utilisant l'attribut columns.Donc là ça va nous afficher en fait l'index de nos colonnes.
00:04:03 :Donc on a un objet de type index avec le nom des colonnes.On peut récupérer à chaque fois ces éléments quand vous avez un objet comme ça qui est un petit peu différent.
00:04:11 :En fait c'est un objet panda.On peut le récupérer sous forme d'objets pitons donc des objets qu'on connaît un peu plus en utilisant la méthode to list.
00:04:18 :Donc je fais shift entrée et là en fait ça va me retourner cette fois-ci les colonnes sous forme de liste.Donc c'est là encore une petite précision c'est juste au niveau de l'affichage.
00:04:26 :Voilà si on met juste colonne on a cet objet qui peut être un petit peu perturbant.Mais en fait nous ce qui nous intéresse c'est juste le nom des colonnes.
00:04:33 :Et on peut faire la même chose avec les index.Donc on va faire df.index et dans ce cas-ci index ça va nous retourner ce qu'on a ici en fait.
00:04:42 :Donc dans notre cas l'index c'est tout simplement un numéro.Donc 0, 1, 2, 3, etc. jusqu'à 1000 dans notre cas enfin 999 puisqu'on a 1000 rangées et on commence à 0.
00:04:52 :Donc ça c'est l'index et on peut bien entendu modifier cet index.Pour l'instant on a un index qui correspond à des nombres et c'est ce que nous retourne ici cette information.
00:05:00 :On a un range index, on commence à 0, on s'arrête à 1000 et on a un step de 1.Si on souhaite modifier l'index on peut le faire.
00:05:07 :Par exemple on pourrait souhaiter changer l'index pour mettre l'adresse email à la place d'un numéro arbitraire comme on a actuellement.Et pour ce faire on peut utiliser cet index.
00:05:16 :Et on va spécifier le nom de la colonne qu'on souhaite utiliser.Donc dans notre cas on va utiliser la colonne email.Si je fais ça, je valide avec shift entrée, vous voyez qu'on a modifié notre index.
00:05:26 :Donc c'est la valeur qui est utilisée pour chaque rangée ici et on a bien l'email qui est utilisé maintenant pour notre index.On remarque également qu'on a toujours 1000 rangées mais on a cette fois-ci 9 colonnes.
00:05:37 :Donc la colonne de l'email a été enlevée et elle a été utilisée pour l'index.Donc on a plus de 10 colonnes comme auparavant mais uniquement 9 dans ce cas-ci.
00:05:45 :Vous remarquerez également que si je refais un print de df, on a encore en index le numéro de 0 à 999.Pourquoi ? Tout simplement parce que quand on fait une méthode comme ceci, cet index, on ne va pas modifier directement notre variable df.
00:06:01 :Dans beaucoup de fonctions comme celle-ci vous allez retrouver souvent un paramètre qui s'appelle inplace qui va nous permettre de modifier directement l'objet.Alors on pourrait ne pas utiliser ce paramètre inplace et tout simplement écraser la variable que l'on avait.
00:06:13 :Donc on recrée une variable df qui est égale à elle-même sur laquelle on a modifié l'index.Ça c'est une façon de faire et pour faire plus simple on peut spécifier ce paramètre inplace égale à true.
00:06:24 :Et si je fais ça, là ça va vraiment en fait modifier cette variable et si je raffiche df par la suite, là vous voyez que cette fois-ci df a bien été modifié et qu'on a bien maintenant l'email qui est utilisé pour l'index.
00:06:35 :Si maintenant j'affiche de nouveau l'index en faisant df.index, vous voyez que cette fois-ci on a une liste qui contient des objets de type email.On voit ici le nom email, on a toujours mille éléments donc mille rangées sauf que cette fois-ci plutôt que d'avoir des nombres,on a des adresses email donc des chaînes de caractère tout simplement.
00:06:53 :Donc voilà comment analyser les données que l'on a à l'intérieur de notre data frame pour afficher tout notre data frame ou certaines parties avec head ou tail.
00:07:03 :Ça ressemble beaucoup donc à ce qu'on a à l'intérieur de notre fichier Excel ou notre fichier CSV dans ce cas-ci et ça nous permet d'analyser les données que l'on a,donc d'avoir un aperçu de ce à quoi ressemblent nos données et également le nombre d'éléments que l'on a avec le nombre de rangées et le nombre de colonnes.

Rechercher sur le site

Formulaire de contact

Inscris-toi

Rechercher sur le site

Formulaire de contact