- Formations
- conversion_path Parcours & Formations
- science Projets
- data_object Exercices de code
- psychology Exercices IA
- quiz Quiz
- Articles
- rss_feed Blog
- sort_by_alpha Glossaire
- menu_book Guides
- help_center FAQ
- media_link Ressources
- Communauté
- groups La communauté
- forum Questions
- live_tv Mentorats
- science Projets mensuels
- Formations
- conversion_path Parcours & Formations
- science Projets
- data_object Exercices de code
- psychology Exercices IA
- quiz Quiz
- Articles
- rss_feed Blog
- sort_by_alpha Glossaire
- menu_book Guides
- help_center FAQ
- media_link Ressources
- Communauté
- groups La communauté
- forum Questions
- live_tv Mentorats
- science Projets mensuels
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte person00:00:00 :Vous l'avez probablement vu dans certaines colonnes de notre tableau,on a parfois des rangées qui contiennent des valeurs qui sont manquantes.Donc ça arrive, c'est très très courant dans des donnéesqu'il y ait parfois des informations qui manquentet ces informations il va donc falloir les traiter.
00:00:16 :Alors pour voir déjà un petit aperçu de là où on a des informations qui manquent,on peut utiliser plusieurs méthodes.La première méthode c'est isNullet ça on peut l'appliquer sur le DataFrame au completet ça va nous afficher dans chacune des rangées et des colonnesles endroits où on a parfois des données qui sont nulles.
00:00:33 :Donc par exemple sur la colonne Tax ici,vous voyez que pour la première rangée,donc à la rangée 0 ici, on a True dans le Tax.
00:00:40 :Et si j'affiche le DataFrame donc sans afficher le isNull,vous voyez effectivement que pour cette première rangée,on a une valeur nan ici qui est une valeur nulle,donc qui signifie Not a Number en fait.
00:00:52 :Et donc ça veut dire qu'on n'a pas de données pour la Tax de cette première rangée.Et vous voyez par exemple pour le Country,donc le pays ici sur la rangée 996,on a également cette valeur nan.
00:01:03 :Donc si je raffiche le isNull comme ceci,si j'arrive à bien l'écrire,vous allez voir que de la même façon pour cette rangée,donc 996 pour le pays, on a un True ici qui est affiché.
00:01:15 :Vous avez également l'inverse, c'est-à-dire NotNull.Donc ça, ça va tout simplement être l'inverse de isNull,ça va nous afficher False quand on a une valeur qui n'est nulleet True quand on a une valeur qui n'est pas nulle.
00:01:26 :Donc NotNull, ça veut dire pas nulle,donc c'est assez explicite.Et si vous vous souvenez de la partie sur les filtres,ça devrait faire tilt, puisque du coup on va pouvoir utiliserpar exemple cette information comme un filtrepour filtrer sur une certaine colonneles informations qui ne contiennent pas de valeur.
00:01:42 :Donc si je reprends mon DataFrameet qu'entre crochets je mets cette fois-ci df par exemple sur la colonne Taxet que sur cette colonne Tax on utilise NotNull,et bien en fait on va utiliser ce filtre sur notre DataFrame au complet.
00:01:55 :Donc je vais déjà vous montrer le filtre tout seul.Vous voyez que là du coup pour notre colonne Tax,on va avoir False, False, True, False, etc.
00:02:02 :Donc des boules et un qui vont dire si on a oui ou non une valeur nulle.Donc nous ce qu'on va vouloir faire c'est filtrerpour n'afficher que les valeurs qui ne sont pas nulles.
00:02:10 :Donc je remets tout ça à l'intérieur de mes crochets dans df,on l'utilise en tant que filtre,et là vous voyez que du coup ça nous permet de filtrer notre tableauet si on regarde dans la colonne Tax ici,on a à chaque fois des données,donc on n'a plus les valeurs NAN,
00:02:23 :donc les valeurs nulles qui étaient précédemment dans notre DataFrame.Donc ça c'est une façon de filtrer notre DataFrame avec ce filtre,donc avec NotNull ou avec IsNull.
00:02:32 :On pourrait inverser le NotNull et mettre IsNull à la placeet là on récupérerait en fait toutes les rangéesqui contiennent une valeur qui n'est pas renseignée ici pour la Tax.
00:02:42 :Donc ça c'est une des façons de faire.Ensuite on peut remplacer ces valeurspuisque là on fait juste récupérer avec un filtre les rangéesqui contiennent ou non des valeurs nulleset ce qu'on va vouloir faire généralement c'estremplacer ou enlever carrément ces valeurs de notre tableau.
00:02:59 :Donc ce qu'on peut faire pour ça c'est utiliser la méthode FillNA,ça va nous permettre de remplir certaines informations avec des valeurs.Alors on pourrait reprendre notre colonne Tax iciet dire qu'on veut utiliser la méthode FillNAet ensuite à cette méthode on peut lui passer différentes choses.
00:03:15 :On peut lui passer déjà la valeur qu'on souhaite utiliser.Donc si on souhaite remplacer tous les endroits ici dans la colonne Taxoù on a une valeur qui n'est pas renseignée par 0,il suffit de mettre 0 ici et si j'affiche la colonnevous voyez que par exemple pour les deux premières rangées
00:03:28 :on a remplacé la valeur NAN par 0 tout simplement.On pourrait également utiliser d'autres méthodes.On a le paramètre méthode qui nous permet de spécifierdifférentes façons de remplir ces données.
00:03:39 :Par exemple on peut utiliser BFillqui va utiliser les valeurs autour pour remplir notre colonne.Donc là en fait ce qu'il va faire c'est qu'il va regarder autour des rangées.
00:03:47 :Il va voir que par exemple on a 20 à la rangée 2et il va utiliser cette valeur pour remplir la rangée 0 et la rangée 1.
00:03:54 :Alors ça c'est une façon de faire qui n'est pas forcément la meilleurepuisqu'en fait on va modifier les données.Dans notre cas ici il s'agit de la taxeet on n'a pas envie en fait de rajouter une taxe supplémentaire.
00:04:04 :Si on a une valeur qui est nulle ici dans la taxeça veut dire probablement qu'il n'y avait pas de taxes appliquées pour ce pays.
00:04:11 :Donc par exemple pour le Canada ou les United States.Donc si on utilise cette méthode ça veut dire qu'on va rajouterune taxe de 20% qui n'était pas là.
00:04:19 :Donc dans ce cas-ci ce ne serait pas forcément la meilleure façon de faire.Ce qu'on va préférer faire plutôt c'est enlever ces données.Donc enlever les données de notre tableauou alors faire comme on avait fait précédemmentc'est à dire mettre une valeur nulle.
00:04:31 :Donc là c'est vraiment à vous de voir ce que vous préférez faire.On peut considérer donc qu'on ne veut pas ces rangées.On peut considérer qu'on va mettre une taxe de 0ou alors la méthode que je viens de vous montrerd'utiliser les valeurs environnantes.
00:04:42 :Donc moi ce que je vais faire ici c'est tout simplementchoisir d'enlever ces rangées de notre tableau.Donc on a vu comment faire avec le filtre.
00:04:49 :On peut aussi utiliser une autre méthodequi est spécifique pour ce genre de choses.Puisque le filtre en fait ça permet de faire plein de chosesmais on a une méthode qui s'appelle DropNAqui elle va nous permettre d'enlever automatiquement ces valeurs nulleset on va lui spécifier dans le paramètre subset
00:05:04 :les colonnes que l'on souhaite cibler.Donc si en fait on fait juste DropNAça va enlever toutes les rangées qui contiennent une valeur qui est nullepeu importe la colonne.
00:05:12 :Donc là en fait dans notre tableau on sera assuré quepeu importe la colonne on n'aura aucune valeur nulle dans le tableauet vous voyez qu'on a enlevé énormément de rangéeson en avait 1000 au départ et maintenant on n'en a plus que 588.
00:05:23 :Donc ça c'est vraiment assez agressif.Si on veut on peut cibler donc une colonne préciseou plusieurs en mettant subsetet à l'intérieur d'une liste on va mettre les colonnes que l'on souhaite cibler.
00:05:32 :Donc si je cible juste la colonne des taxeson a un peu plus de rangées donc 654 iciet vous voyez qu'on n'a plus de valeur nulle dans la colonne taxe.
00:05:40 :Donc ça, ça agit vraiment juste sur cette colonne.Dans la colonne taxe, si on regarde par contre dans les autres colonnesdonc par exemple le genre ou le payslà on voit qu'on a encore des valeurs nullesqui sont disponibles dans ces autres colonnes.
00:05:52 :Également cette méthode DropNAelle a le fameux paramètre in placepuisque actuellement si je ne le mets pas et que je raffiche mon datasetvous allez voir qu'on a encore ces valeurs nullesqui sont dans la colonne taxe.
00:06:03 :Donc si vous voulez vraiment appliquer ceci sur votre DataFrameil faut là encore utiliser in place, le mettre à trueet ça va directement remplacer ces donnéesen fait les enlever dans ce cas-ci.
00:06:13 :Et si je raffiche mon DataFramelà on a bien enlevé toutes ces rangéeset on n'a plus que 654 rangées à l'intérieur du DataFrame.Donc voilà comment traiter ces valeurs manquantescomment les afficher, comment les repéreret comment les enlever si on le souhaiteégalement comment les remplacer avec différentes méthodes.
00:06:29 :Donc là c'est vraiment à vous de voirc'est un choix que vous devez fairec'est là que vous voyez que les gens qui travaillent dans les Data Scienceont des choix à faireet que ces choix peuvent avoir des grandes conséquences.
00:06:39 :C'est pour ça que des fois on parle en fait des problèmes du traitement de donnéespuisque dans ce cas-ci bon c'est juste une taxemais imaginez qu'on travaille sur des données un peu plus sensiblespar exemple des données de crimes ou de choses du genre dans certains quartierset qu'on souhaite investiguer les endroits
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.