- Formations
- conversion_path Parcours & Formations
- science Projets
- data_object Exercices de code
- psychology Exercices IA
- quiz Quiz
- Articles
- rss_feed Blog
- sort_by_alpha Glossaire
- menu_book Guides
- help_center FAQ
- media_link Ressources
- Communauté
- groups La communauté
- forum Questions
- live_tv Mentorats
- science Projets mensuels
- Formations
- conversion_path Parcours & Formations
- science Projets
- data_object Exercices de code
- psychology Exercices IA
- quiz Quiz
- Articles
- rss_feed Blog
- sort_by_alpha Glossaire
- menu_book Guides
- help_center FAQ
- media_link Ressources
- Communauté
- groups La communauté
- forum Questions
- live_tv Mentorats
- science Projets mensuels
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte person00:00:00 :Avant d'aller plus loin dans la formation, on va parler un peu de ce qu'est tout simplementla science des données, donc qu'on appelle science des données en français mais quevous retrouverez bien plus souvent sous le terme anglais de data science, donc c'estla même chose.
00:00:12 :Alors qu'est-ce que le data science, qu'est-ce que la science des données ? On pourraitdire que c'est en fait la rencontre entre deux éléments, entre d'abord ce qu'onappelle le big data et ensuite l'analyse de ces données.
00:00:23 :Donc le big data, qu'est-ce que c'est ? C'est tout simplement un terme qui signifieque depuis une dizaine, une vingtaine d'années, depuis en fait la démocratisation du numérique,qu'on a en fait énormément de données à notre disposition que l'on n'avait pasavant.
00:00:36 :Pensez à tout ce que vous faites en ligne actuellement, que ce soit pour lire des articlesde journaux, pour lire des livres, faire des achats, toutes ces choses-là avant on lesfaisait et on n'avait pas en fait de moyens de savoir ce que vous faisiez.
00:00:48 :Maintenant avec tout ce qu'on fait en ligne, pour le meilleur ou pour le pire, on récolteénormément de données que l'on peut ensuite donc traiter et analyser pour en tirer desconclusions.
00:00:58 :Donc c'est vraiment en fait ça la data science, c'est analyser des données pour en tirerdes conclusions et c'est pour ça que c'est très intéressant, c'est un très grand pouvoirmais c'est aussi très dangereux puisque forcément les données elles-mêmes, elles ne veulentrien dire.
00:01:11 :Les données, ça va être par exemple des dates, des nombres, des chaînes de caractèredonc des données toutes seules, ça ne veut rien dire et en fait c'est juste vous quiallez récupérer ces données et qui allez les faire parler et forcément il peut y avoirdes biais en fonction de la personne qui analyse les données et également en fonction des
00:01:26 :données que vous avez de base.Si vous utilisez des données de base qui ne sont pas complètes et bien vous pouvezen tirer des conclusions qui ne sont pas forcément vraies alors là encore le domaine de la véritédans la data science est assez abstrait puisqu'il n'y a pas de vérité, il n'y a juste une
00:01:41 :vérité en fonction de la personne qui va analyser ces données donc vous voyez vraimentla responsabilité que peut avoir quelqu'un qui travaille dans ce domaine.
00:01:49 :Alors bien sûr il y a beaucoup de choses qui permettent d'enlever ces biais mais ilfaut être conscient que c'est pas les données qui parlent, c'est vous qui allez faire parlerces données pour en tirer des conclusions.
00:01:59 :Il faut savoir aussi que ça peut devenir rapidement très complexe, on peut avoir desnotions de mathématiques et de statistiques avancées mais il ne faut pas non plus enavoir peur, il y a beaucoup de gens qui se limitent en se disant qu'ils sont mauvaisen maths et que du coup ils ne vont pas pouvoir faire de data science, il ne faut pas avoir
00:02:13 :peur, on peut déjà en fait faire énormément de choses avec des outils très basiques commedes moyennes ou des pourcentages, si vous voulez faire la moyenne ou la somme d'untableau et bien c'est des notions très simples à comprendre et qui peuvent déjà vous donnerénormément d'informations.
00:02:27 :Donc on n'est pas obligé de faire des statistiques très avancées, des courbes régressives etcpour tirer des conclusions.Avec des méthodes de base on peut déjà beaucoup faire parler les nombres.
00:02:36 :L'objectif également de la data science ça va être d'automatiser après ces processus,c'est d'avoir en fait un script qui va pouvoir aller récupérer les données, les donnéeselles vont être mises à jour et le but c'est donc pas d'avoir quelqu'un qui à chaque foisva faire les statistiques à la main mais c'est d'avoir plutôt des algorithmes qui
00:02:51 :à terme vont permettre à partir des données récoltées par exemple sur votre site web,sur une plateforme quelconque, de tirer des conclusions qui vont évoluer dans le temps.
00:02:59 :Donc pour que ce soit un peu plus parlant je vais vous donner quelques exemples surdeux sites bien connus, déjà sur docstring, donc mon site sur lequel vous pouvez apprendrePython et on verra également quelques exemples pour Netflix.
00:03:10 :Donc sur docstring j'ai plein de données qui sont disponibles à partir de ma basede données et qui me permettraient de répondre à certaines questions, par exemple d'où viennentles nouveaux utilisateurs ? Est-ce qu'ils viennent de YouTube ? Est-ce qu'ils viennent
00:03:22 :de Facebook ? Est-ce qu'ils viennent de certaines publicités ciblées ou de choses du genre ?Donc ça c'est des informations que je peux récupérer à partir de ma base de donnéeset là comme vous le voyez il ne s'agit pas de statistiques avancées, il s'agit juste enfait de savoir par exemple que j'ai 150 personnes qui viennent de YouTube, que j'en ai 50 qui
00:03:37 :viennent de Facebook et que donc YouTube est une meilleure source de nouveaux utilisateurs etaprès je peux en tirer les conclusions que je souhaite pour par exemple si je faisais de lapublicité en mettre plus sur YouTube ou sur Facebook. Ensuite quelles sont les vidéos les
00:03:49 :plus regardées ? Donc je peux avoir des statistiques pour savoir quelles vidéos sur le site sont lesplus regardées et ainsi là encore potentiellement renforcer ces vidéos ou m'assurer qu'elles necontiennent pas d'erreurs. Quelle est la journée avec le plus de connexions dans la semaine ? Là
00:04:01 :aussi pour prévoir au niveau du serveur les pics de connexions et pouvoir y répondre pour que lesite web soit toujours le plus rapide possible. Et également combien d'utilisateurs se sont
00:04:10 :connectés dans les 30 derniers jours ? Puisque actuellement je sais combien d'utilisateurs j'aisur docstring mais ça ne veut pas dire grand chose en soi si j'ai 5000 utilisateurs mais qu'il n'yen a que 5 qui se sont connectés sur les 30 derniers jours vous êtes d'accord que ce n'est
00:04:21 :pas la même chose que d'avoir 5000 utilisateurs qui sont connectés tous les jours. Donc voilàle genre de questions que je pourrais me poser et auxquelles les données pourraient m'apporterdes réponses. Si on regarde maintenant sur Netflix avec un autre jeu de données du coup
00:04:34 :on pourrait avoir envie de savoir quel est le pays avec la plus forte croissance en nombred'utilisateurs. Donc là on pourrait tracer un graphique avec le nombre d'utilisateurs par pays
00:04:42 :et avec les courbes voir quel est le pays qui a la plus grande croissance. Donc là encore rien debien compliqué c'est juste une moyenne et ensuite une courbe que l'on peut analyser si ça monte ouça descend et on en tire des conclusions. En moyenne combien de temps les utilisateurs restent-ils
00:04:56 :abonnés ? Pour savoir à peu près combien de temps un utilisateur reste sur notre plateforme. Quelssont les genres de films les plus populaires ? Donc là encore on pourrait à partir des données de
00:05:05 :connexion des utilisateurs savoir quel genre de film ils regardent et voir les gens qui sont lesplus populaires dans toute la plateforme ou alors même par pays. On pourrait également avoir envie
00:05:14 :de savoir dans quel pays les utilisateurs dépensent le plus. Donc là encore des exemples où comme jevous dis il n'y a pas vraiment besoin de faire des statistiques très avancées, c'est vraimentjuste récupérer les données de connexion, les données par pays, par genre de film regardé,le nombre d'euros ou de dollars qui sont dépensés par personne et ensuite faire des moyennes,
00:05:32 :additionner tout ça et éventuellement les afficher sur une durée donc entre par exemple 2015 et 2020pour voir l'évolution de ces tendances. Donc voilà quelques exemples j'espère que ça vous permet de
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.