- Formations
- conversion_path Parcours & Formations
- science Projets
- data_object Exercices de code
- psychology Exercices IA
- quiz Quiz
- Articles
- rss_feed Blog
- sort_by_alpha Glossaire
- menu_book Guides
- help_center FAQ
- media_link Ressources
- Communauté
- groups La communauté
- forum Questions
- live_tv Mentorats
- science Projets mensuels
- Formations
- conversion_path Parcours & Formations
- science Projets
- data_object Exercices de code
- psychology Exercices IA
- quiz Quiz
- Articles
- rss_feed Blog
- sort_by_alpha Glossaire
- menu_book Guides
- help_center FAQ
- media_link Ressources
- Communauté
- groups La communauté
- forum Questions
- live_tv Mentorats
- science Projets mensuels
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte person00:00:00 :Dans cette partie, on rentre vraiment dans les choses intéressantes dans le cœur du sujet,puisqu'on va voir comment analyser les données que l'on a dans notre DataFrame.
00:00:09 :Jusqu'à présent, on a vu comment manipuler les données,comment ajouter des colonnes, supprimer des colonnes,mais ce qui est très intéressant avec Panda et dans la Data Science,c'est de faire parler ces données,donc d'afficher les moyennes, la somme,de voir le nombre d'éléments qu'on a en fonction des valeurs.
00:00:24 :Par exemple, dans notre cas pour les pays,on veut savoir dans quel pays on va avoir le plus de clients,ce genre d'informations qu'on va pouvoir récupérer très facilement avec Panda.
00:00:33 :Alors n'ayez pas peur,vraiment vous allez voir qu'on va utiliser des choses très simples,on ne va pas faire des statistiques très avancées,ça va se résumer aux valeurs minimales, maximales,à des moyennes ou à la somme des valeurs,donc vraiment des choses assez logiquesqui ne nécessitent pas des compétences avancées en mathématiques.
00:00:51 :Donc j'ai loadé mon DataFrame ici avec Pandaet la première méthode qu'on peut utiliser,qui est une méthode un peu coûteuse suisse, c'est la méthode Describe.
00:00:59 :Donc sur mon DataFrame, je peux utiliser Describeet ça va m'afficher un tableau comme ça avec différents éléments.On va avoir le compte,donc par exemple sur la colonne ID ici,vous voyez qu'on a 1000 et sur les taxes, on a 654.
00:01:11 :Donc le compte en fait, ça ne va pas tenir compte des valeurs qui sont nulles.Donc dans la colonne Taxes,en fait on voit qu'on a uniquement 654 rangéesdans lesquelles on a des données.
00:01:21 :Donc là sur les colonnes qui nous sont affichées,à savoir le ID et les taxes, ça n'a pas vraiment d'intérêt,mais bien sûr on peut aller cibler une colonne plus précisément.
00:01:28 :Donc moi je vais par exemple aller cibler le PricePaidet là on a des informations un peu plus intéressantes.On voit qu'on a un count de 1000,donc ça veut dire que toutes les rangées contiennent des valeurs,sinon on aurait un compte qui serait un peu différent.
00:01:41 :Par exemple si je reviens sur les taxes,là on voit qu'on a un compte de 654,puisque là encore Describe ne va nous afficher le compteque de ce qui contient des valeurs.
00:01:50 :Donc si je reviens sur le PricePaid,là comme on a 1000,comme on sait qu'on a 1000 rangées dans notre DataFrame,ça veut dire que chaque rangée contient une valeur.
00:01:58 :Et sur ces 1000 valeurs, donc ces 1000 rangées que l'on a,on a 528 valeurs qui sont uniques.Donc vous voyez que Describe,c'est un peu comme je vous dis un couteau suisse,ça va dépendre en fait de si vous l'utilisez sur une colonneou sur votre DataFrame à chaque fois,
00:02:11 :et ça va vous donner un aperçu de certaines statistiquessur votre DataFrame ou sur vos colonnes.Donc c'est intéressant pour avoir un aperçu.Nous ce qu'on va vouloir avoir comme information,par exemple dans le cas du prix qui a été payé,c'est d'avoir une moyenne ou d'avoir la somme totale
00:02:25 :du prix qui a été payé.Si on veut savoir combien d'argent on a fait ce mois-ci,il va falloir additionner toutes les sommesque chaque client nous a payées.
00:02:33 :Donc pour ça on peut utiliser les fonctionsMin pour la moyenne et Somme pour faire la somme.Donc je vais reprendre ma colonne PricePaidet on va faire le Min, donc Min c'est la moyenne.
00:02:44 :Et là, alors vous voyez que j'ai une erreur,oui parce que je n'ai pas modifié.Alors je vais refaire en fait la petite modificationque j'avais faite dans les parties précédentes.
00:02:52 :Donc celle-ci ici pour convertir cette colonneen nombre décimal,puisque actuellement en fait dans mon DataFramej'ai une chaîne de caractère avec le dollar.Donc une fois que cette manipulation est faite,on va pouvoir revenir sur notre PricePaidet cette fois-ci faire la moyenne.
00:03:08 :Donc je valide et là vous voyezqu'on a une moyenne de 6,46.Donc c'est vraiment le prix moyen qui a été payé.Donc la moyenne dans ce cas-ci c'est vraimentla somme de tout ce qui a été payédivisé par le nombre de transactions.
00:03:20 :Si on veut afficher la somme,on va faire df de PricePaidavec cette fois-ci une autre méthodedonc qui va être la méthode Sommetout simplement. Et si je l'affiche là
00:03:30 :on a 6461.Et c'est assez logique, vous voyez, puisqu'on a6,46 dans la moyenne, on a1000 valeurs et donc en fait comme je vous disaisla moyenne c'est tout simplement la somme totaledivisée par le nombre de valeurs.
00:03:42 :Donc 6461 divisé par 1000ça donne bien 6,46193.Ok ? Donc c'est tout à fait logiqueet ça c'est deux méthodes qu'on utilise très souventqui sont très pratiques dans ce cas-ci. Pour le prix
00:03:53 :c'est assez logique, vous voyez, on a juste enviede savoir quelle est la totalitéde l'argent qu'on a gagné ce mois-ci.On peut également utiliser les méthodesMin et Max pour affichertout simplement la valeur maximaleet minimale d'une colonne. Donc si je veux
00:04:07 :afficher le prix maximal qui a été payépour un article, je peux faire .minet ça va m'afficher le prix minimalet je peux faire la même chose avec .max
00:04:15 :pour afficher le prix maximal.Donc on a un prix minimum de 3€ et un prix maximalde 10€. Une autre méthode qui estassez pratique, c'est la méthode unique.
00:04:23 :Donc unique comme ceci, qui nous permetd'afficher toutes les valeurs uniquesà l'intérieur d'une colonne. Donc par exemplepour les pays, si je souhaiteafficher toutes les valeurs qui sontdisponibles dans ma colonne, je peux faire .unique
00:04:35 :je fais Shift-Entréepour exécuter et là on voit toutes les valeursuniques qui sont dans notre colonne.Donc on a Canada, United States,Morocco, France et la valeur NAN.
00:04:45 :Donc la valeur nulle. Donc ça c'est pratiquepuisque ça nous permet d'avoir unaperçu de toutes les valeurs qui sont possiblesdans notre DataFrame. Si on
00:04:53 :affiche ça par exemple sur PricePaid, là vous allez voirqu'on a beaucoup plus de valeurspuisqu'on a un panelde prix payés, vous voyez, qui est beaucoup plusimportant. Donc ça c'est toutes les valeurs
00:05:03 :qui sont actuellement dans mon DataFramepour le prix payé. Sivous voulez convertir tout ça en liste, puisqueactuellement on a un Array, on peututiliser là encore le ToListqu'on a vu dans les parties précédentes pour récupérerun objet Python. Donc ça ne sert pas à grand chose
00:05:17 :mais c'est juste pour vous montrer si vous êtes un peu perturbéspar cet affichage avec le Arrayon peut très bien récupérer une listePython avec cette méthode. Donc
00:05:25 :unique c'est très pratique aussi, là encore pour avoirun aperçu de toutes les valeurs disponiblespour une colonne à l'intérieur de notreDataFrame. On a une autre méthode
00:05:33 :qui est également très utilisée qui estValueCount qui va nous permettre d'afficherle nombre d'éléments pourchaque valeur dans notre colonne. Donc parexemple pour le pays, si je veux savoircombien de clients j'ai danschaque pays, je peux utiliser surcette colonne ValueCount, doncattention il y a un S à Count
00:05:51 :et vous allez voir qu'on se retrouve avecune série ici avec d'un côtéles pays, donc France, United States,Canada, Marocco et le nombre devaleurs associées pour chaque pays. Donc
00:06:01 :on sait qu'on a 408 clients qui viennent de laFrance, 333 des Etats-Unis, 161du Canada et 54 du Maroc.Donc ça aussi c'est très pratique,là encore sans avoir besoin comme je vous dis de fairedes maths très compliquées, c'est vraiment justedes informations que l'on souhaite récupérer
00:06:15 :sur notre DataFrame qui nous permettentdans le cas par exemple d'une campagne marketingde savoir qu'on a plutôt intérêtà cibler la France puisque c'est là qu'on ale plus de clients. On pourrait
00:06:25 :également utiliser cette méthodesur le genre, donc si on veut savoir combiende clients on a qui sont des hommes ou desfemmes, on peut faire ValueCount surcette colonne et là on voit qu'on a493 femmes et 438 hommes.
00:06:37 :Si on veut avoir cettedonnée de façon normaliséepuisque là c'est pas forcémenttrès explicite au niveau d'un pourcentagelà on a 493, 438on voit que c'est proche de 50, 50.
00:06:49 :Si on veut avoir quelque chose qui ressemble plus àun pourcentage, on peut utiliser le paramètreNormalize et le passer àTrue et là vous allez voir qu'on va récupérerune valeur qui va être comprise entre 0et 1. Donc là on voit qu'on a 52%
00:07:01 :de femmes et 47% d'hommes.Donc dans certains cas ça peut être pratique d'avoirle Normalize qui est à True. Pourles pays vous voyez je pense pas que ce soit forcémentmieux, je préfère avoirune valeur absolue si vous voulez, puisque làon a un pourcentage, ça peut être intéressant
00:07:15 :mais moi je préfère avoir la valeur absolue, je trouveça plus parlant pour les pays. Par contrepour les genres, vu qu'on a uniquement deux valeursici, eh bien on veut juste savoir quelpourcentage on a de chacundes genres dans notre DataFrame. Et pour
00:07:27 :finir, on a une méthode qui esttrès pratique, qui fait un petit peu peur au débutmais une fois que vous allez la prendre en main vous allez voir à quelpoint elle est vraiment excellente, c'estla méthode GroupBy. Donc si j'utilise
00:07:37 :GroupBy, par exemplesur la colonne Country,vous allez voir assez rapidement ce que je veux dire.Si vous faites juste ça en fait vous allez récupérerun objet qui s'appelle DataFrameGroupBydonc dans ce cas-ci ça ne sert pas à grand choseen l'état. Ce qui va être intéressant
00:07:51 :après c'est sur ceDataFrameGroupBy d'utiliser lesfonctions qu'on a vu au-dessus. Donc par exemple la méthodeSum ici, qui va nous permettred'afficher la somme pour différentescolonnes par pays. Donc
00:08:03 :pour le Canada on voit que le prixpayé c'est 1017, pour la France2619. Et là on retrouve un peuprès ce qu'on avait, c'est en fait assez logiquepar rapport au ValueCount ce qu'on avait iciet on voit que c'est en France qu'on a fait le plusgros chiffre d'affaires. Donc ça en fait c'est
00:08:17 :la somme de tous les chiffres d'affairesgroupés par pays. Donc pour la Francele Canada, le Maroc et lesEtats-Unis. Si on voulait faire la moyenne on
00:08:25 :pourrait faire Min ici pour afficher la moyenneet on voit que le pays où on paye le plusen moyenne c'est le Marocet le dernier c'est le Canada. Donc c'est
00:08:33 :le pays où le prix moyen en faitest le moins important.Vous voyez par la même occasion qu'on n'a pas toutes lescolonnes qui sont affichées ici. Donc
00:08:41 :bien entendu on peut aller cibler une colonneparticulière. Je vais vous montrer un autreexemple. On va faire un GroupByen groupant les données sur le genreet on veut savoir en fonction du genrequi a payé le plus.
00:08:53 :Donc je peux faire Min ici directementet ça va nous afficher ici PricePaidet Tax et ID. Donc là comme je vousdis on n'a pas toutes les colonnes. Si on veut aller cibler
00:09:01 :directement une colonne, donc par exemple uniquementla colonne PricePaid, je peux mettre lescrochets tout de suite après ici. Donc tout de suite aprèsmon GroupBy, on met les crochetset on fait la moyenne sur cette colonne. Et si je
00:09:11 :l'affiche, on voit que donc on apresque la même chose en fait 6.42et 6.46 pour les femmeset les hommes. Si je voulais faire la somme
00:09:19 :je peux mettre Somme ici et là ça va fonctionnerexactement de la même façon. Vous voyez que toutesces méthodes qu'on utilise, on peut les utiliserà chaque fois sur les différentséléments que l'on récupère. Donc si je fais
00:09:29 :la somme, on voit que les femmes ont payéen totalité plus que les hommes dans cecas-ci. On peut avec GroupByégalement donner une liste. Donc là
00:09:37 :c'est encore plus puissant. Vous allez voir c'est assezincroyable tout ce qu'on peut faire. Si vous pensezvraiment au tableau Excel, à quel point çaserait compliqué de faire toutes ces opérationsà l'intérieur d'un tableau Excel et à quel pointune fois que vous maîtrisez ces façonsde faire, ça devient très facile avec Panda.
00:09:51 :Donc avec GroupBy on peut passer plusieurséléments aussi. Donc par exemple, savoirau Canada, les femmescombien elles ont payé en moyenne et les hommescombien ils ont payé. Donc vraiment cibler avec
00:10:01 :deux colonnes. Donc on peut faire unGroupBy et à l'intérieur des parenthèseson va cette fois-ci passer une listeet on va passer les colonnes, donc les deux colonnesqu'on souhaite cibler. Donc le genre
00:10:11 :et le pays. Et si je faisla moyenne par exemple, donc là encore on utiliseles méthodes que l'on a vu plus haut. Je fais
00:10:17 :la moyenne et vous voyez que là j'ai un tableauà double entrée avec déjà les femmeset les hommes, donc déjà le genre et ensuitele pays. Et donc on voit par exemple que
00:10:25 :les femmes au Canada ont payéen moyenne plus. Alors je regardaispas la bonne colonne, je regardais l'idée. Alorsoui en fait c'est quand même ça. Donc les femmes
00:10:33 :en moyenne au Canada payent plus queles hommes au Canada. Et onvoit par la même occasion que les gensqui payent le plus c'est les femmes au Marocqui ont une moyenne ici de 7qui est pas mal plus élevée etla moins élevée c'est ici leshommes au Canada. Donc vous voyez à quel point on peut
00:10:49 :vraiment avoir des données très rapidementtrès intéressantes sur lesquelles on peuttirer des conclusions. Donc si vous savez qu'il fautcibler les femmes au Maroc si vous voulez vendreà un prix un peu plus élevé.
00:10:59 :Mais vous voyez donc qu'avec groupbuy c'esttrès puissant. On pourrait mettre une troisièmecolonne ici. Là ça deviendrait peut-être un peu durà analyser et à tirer des conclusionsde tout ça. Mais vous voyez à quel point on peut
00:11:09 :manipuler et extraire des informations trèsrapidement avec toutes ces méthodes.Donc il y en a plein d'autres qui existent. Là encore c'est un sujettrès vaste mais ça c'est vraiment desméthodes qui comme je vous le dis ne sont pas trèscomplexes à comprendre et qui vouspermettent déjà de récupérer beaucoup d'informations
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.