Session du jeudi 11 juillet à 20:00

Session du 11 juillet 2024 à 20h00

Data Science & IA

Classification d'image

Session dans laquelle Morpheus va nous présenter de la classification binaire d'image.

Dans un premier temps, nous utiliserons du Machine Learning, et nous verrons ensuite du Deep Learning.

Rechercher dans la transcription

00:00:00 :Bonjour à toutes et à tous, merci d'être venu une nouvelle fois pour la suite de ces vidéos sur l'apprentissage automatique. Pour ceux qui ne me connaissent pas, je m'appelle

00:00:15 :Marius, alias Morpheus, je suis étudiant à Aix-Marseille-Université, je passe en master 2 d'intelligence artificielle et je fais pas mal de conférences, de petites vidéos de présentation sur différentes notions de l'apprentissage automatique. Ce soir, le but

00:00:35 :c'est de découvrir un petit peu comment fonctionnent les classifications au niveau des images. Pour ceux qui ne savent pas trop de quoi on parle, j'ai ma chaîne Youtube où on a enregistré les présentes présentations. Vous pouvez retrouver ces vidéos-là sur Youtube directement

00:00:54 :et les revisionner si besoin. Tout d'abord, on va faire une introduction sur la classification des images. On va parler un petit peu de computer vision, comment une machine arrive à voir

00:01:09 :en fait qu'est-ce que c'est cette notion-là. On va ensuite parler des points clés d'une image, donc qu'est-ce qui définit une image. Ensuite, nous verrons la classification avec

00:01:20 :du call-to-learning. Pour ceux qui ne savent pas, c'est du machine learning mais sans la partie deep learning, donc sans réseau de neurones. On va regarder un petit peu les

00:01:29 :limites de ces méthodes-là, qui ont été vraiment dépassées à partir des années 2000 lorsqu'il y a eu du big data, etc. et avec l'émergence du deep learning. Ensuite,

00:01:40 :on va parler un petit peu de ce qu'on fait aujourd'hui en 2024, de tout ça. Alors déjà,qu'est-ce que c'est que la computer vision ? C'est une branche de l'IA dont le principal

00:01:53 :but est de permettre à une machine d'analyser ou de traiter une ou plusieurs images ou vidéos prises par un système d'acquisition. Un jour, des chercheurs se sont posé la question,

00:02:04 :dans la fin des années 80, tiens, un humain, comment il fait pour, là, si je prends une photo de Honolulu à Hawaï, qu'est-ce qui me permet de reconnaître cette image-là ? Qu'est-ce

00:02:18 :que je vois concrètement ? Si en tant qu'humain, de manière native, on peut se dire, là j'ai la mer qui est assez claire, j'ai des bâtiments sur la partie de gauche, j'ai du coup au fond une montagne assez loin, j'ai les plages et tout, mais rien ne va nous permettre de vraiment

00:02:40 :dire que tiens, là, ce serait vraiment Honolulu. C'est-à-dire que soit cette photo, vous êtes un fan d'Hawaï 5.0 et vous l'avez déjà vue 550.000 fois, donc vous vous en souvenez,

00:02:51 :donc ça t'appelle à la mémoire qui se fait, soit, du coup, vous ne l'avez jamais vue et là vous vous dites, là c'est forcément une île un peu paradisiaque parce que de votre mémoire, vous vous rappelez que ce genre d'océan, ça ne se trouve pas au bord de l'Atlantique,

00:03:12 :on n'est pas sûr de choses ici. En fait, une machine dont on s'intéresse, on s'est posé la question de se dire, est-ce qu'elle voit la même chose ? C'est-à-dire qu'elle voit,

00:03:24 :je m'entends bien, c'est un tableau de pixels, d'accord, donc des pixels entre 0 et 255 sur 3 channels RGB. À partir de ça, elle va juste se dire, tiens, nous on voit par exemple la surface

00:03:38 :bleue, les bâtiments, est-ce que la machine, si on lui dit, ça c'est des bâtiments, ça c'est de l'eau, c'est la mer, etc., c'est le ciel au-dessus, est-ce qu'elle va pouvoir reconnaître elle-même

00:03:51 :au non-lulu ? Bon, ça c'est quelque chose qu'on s'est pas mal posé, donc en 1960, c'était là qu'on commençait les premières tentatives d'imitation d'un système visuel humain, donc on s'est pas mal demandé comment fonctionnent les différents nerfs qu'on a dans les yeux,comment est têtée l'image par notre cerveau, comment est perçue les couleurs, toutes ces choses-là.

00:04:15 :Dans les années 70, on a une première pensée sur l'extraction des caractéristiques. Là,on se dit, bon, une image contient des points clés, donc si je prends la mer, ça veut dire que c'est au bord de l'eau, si je prends des montagnes, c'est que c'est pas au bord de l'eau. Bon, voilà,

00:04:31 :on aimerait ça, ces caractéristiques-là. Par exemple, si je vous demande de faire une reconnaissance, savoir que si je passe une image qui se situe en mer ou pas, vous cherchez des vagues, vous cherchez des bateaux, vous cherchez la couleur de l'eau, voilà, plein de choses qui pourront vous faire rappeler l'appartenance à la mer. Dans les années 90, on a eu, comment ça

00:04:53 :s'appelle, une première aventure sur la reconstruction des objets en 3D. Là, on s'est posé la question de la dimensionnalité, quelque chose qu'on ne savait pas trop faire dans les années 70. On a eu l'apparition

00:05:06 :de l'infographie qui sont des mires techniques. Alors l'infographie, c'est la création d'une image en numérique assistée par un ordinateur, tout simplement. Donc là, on a commencé à se dire,

00:05:16 :ben voilà, on a les filtres RGB, BGR, etc. On a commencé à se creuser la tête un peu plus en détail. Dans les années 90, on a un des chercheurs assez connus qui est Yann Lequin, qui est un

00:05:29 :précurseur des réseaux convolutionnels. Et là, il y a eu un Bing Bang, c'est-à-dire qu'on a commencé à se dire, bon ben voilà, avec un réseau de neurones, on a pu faire de la classification,on a pu reconnaître, détecter des choses, on appelle ça des anomalies ou des features,directement sur une image. Mais c'est quelque chose qui ne fonctionnait pas trop parce que,

00:05:53 :comme vous vous rappelez dans la vidéo sur l'intro deep learning, le deep marche seulement si on a beaucoup de données. Mais quand je dis beaucoup, c'est des millions. Quand on a 200 images,

00:06:04 :bon ben le problème c'est qu'on n'en a pas assez, on n'a pas assez sur les images de petites résolutions, on n'a pas assez de features, etc. Donc ça peut vite poser problème. Nous, ce qu'on

00:06:16 :fait, c'est qu'en shallow learning, il y a eu un algorithme, le Scale Invariant Feature Transform d'Algorithm Shift que la librairie OpenCV a mis en ligne, qui apparaît et ça nous a permis de pouvoir commencer à se dire, tiens, est-ce qu'au niveau des points clés, je peux faire quelque chose au niveau de ma classification ? Donc pour vous montrer un petit peu dans la computer vision

00:06:40 :ce qu'on a un petit peu, ce qu'on sait faire aujourd'hui, une petite vidéo de systèmes de reconnaissance visuelle que les Tesla ont intégré dans leur véhicule, d'accord ? Donc là, par exemple,

00:06:53 :vous avez la vidéo en temps réel lorsqu'une voiture arrive vers la route, etc. Ce que la machine voit, en fait, avec les gros guillemets. Donc on a bien la route qui apparaît, des petits

00:07:09 :carrés bleus qui montrent un peu des obstacles, on voit les voitures qui sont plantées sous forme,dans des cubes. Et donc la machine, ensuite, elle a des règles de circulation en disant,

00:07:22 :là, s'il y a un obstacle, est-ce que je continue, etc. Bon, ça, c'est une recherche qui est assez récente. Les systèmes de Tesla, en fait, ont commencé à mettre leur première IA en 2015 avec

00:07:40 :la Tesla Model Roadster. Et en fait, c'est ces premières choses-là qui sont rentrées dedans. Mais nous, on ne va pas parler de ça parce que c'est vrai que c'est quelque chose qui fait partie du deep learning. Nous, on rappelle, nous, on n'est en plus pas le learning, donc c'est le machine

00:07:57 :learning sans deep learning. Donc on va voir un petit peu qu'est-ce qu'on faisait avant, qu'est-ce qu'on peut faire toujours. On va détecter ça, en fait, en parlant d'une première notion qui s'appelle

00:08:08 :des key points. Alors, qu'est-ce que c'est des key points ? En français, on traduit par des points clés, les points clés d'une image. Si je vous donne une image, par exemple, d'un avion Air France,

00:08:18 :d'accord, comment, déjà, je sais que c'est un avion ? Alors là, si je vous pose la question de manière limite, il faut la poser à un enfant, quoi, parce que c'est tellement évident. Bon, déjà, on voit le

00:08:29 :mot Air France, donc ça nous rappelle la compagnie française d'aviation. On reconnaît que c'est un avion. On voit qu'il y a les nuages et qu'on est au-dessus de l'air. Bon, un humain, il ne peut pas

00:08:37 :voler, sauf Superman. La machine, en fait, ce qu'elle voit, c'est ceci. Là, j'ai des points clés qui ont été extraits à partir de l'image au centre avec un algorithme. Et ces points clés, en fait,

00:08:53 :quand je les récupère, c'est ça qui va me définir que là, j'ai bien un avion au-dessus des nuages.Vous voyez, là, on a vraiment les points clés qui définissent bien l'avion. On n'en a pas dans le ciel

00:09:04 :et on a bien les points clés qui sont dans les nuages. On a un autre algo qui peut être un peu plus précis. Là, on va avoir beaucoup plus de points clés, notamment. Là, on ne prenait pas trop en

00:09:15 :compte les différents hublots, etc. Là, on va prendre tous les hublots. On va prendre beaucoup plus de features, beaucoup plus de caractéristiques. Mais par contre, au niveau de l'objet au premier

00:09:25 :plan, par contre, en arrière-plan, on va moins s'y intéresser. Et enfin, on a un autre algo. Pareil,on a d'autres algos qui peuvent nous prendre directement, lui donner en paramètre une image,ça va récupérer les points clés que d'un seul objet. Bon, mais là, en fait, vous avez un petit

00:09:41 :peu les trois algos qui sont assez connus, donc SIFT, BRISC et ORB, qui, en fait, vont pouvoir répondre à nos besoins pour pouvoir faire notre connaissance ou notre classification. Parce que,

00:09:55 :nous, rappelons-nous, ce qu'on aimerait faire, c'est une classification. Alors là, je vais vous dire, ok, mais Marius, c'est quoi une classification ? Eh bien, on va regarder ça avec cette figure.

00:10:04 :La classification, en fait, tout simplement, vous avez des données en entrée, vous voulez apprendre un modèle, un mathématique, afin de définir des prédictions. C'est-à-dire, si je vous passe une

00:10:17 :image, et moi, je veux prédire si l'image contient ou pas un avion, je vais faire apprendre à la machine des données où il y a des avions, donc des images avec, et des images sans. Parce que la

00:10:30 :machine, il faut qu'elle puisse dire, bon, là, il y en a un, là, il n'y en a pas. De manière générale,alors, pour un apprentissage assez bien, assez stable, il faut qu'il y ait autant de données avec l'objet en question, avec la classe, on appelle ça, et sans, en fait. Donc, si je prends

00:10:49 :500 images avec, un modèle, en fait, va contenir les différentes écrans sur mathématiques qui vont permettre de dire à la machine, bon, là, il y a ou pas tel ou tel objet. Je vous conseille d'aller voir

00:11:04 :la vidéo intro Machine Learning, d'ailleurs, qui est en ligne, qui est disponible pour pouvoir avoir un peu plus de détails sur qu'est-ce que c'est. Donc, nous, ce qu'on fait avec les images, alors, les

00:11:19 :classes, ça peut être n'importe quoi, ça peut être des données, je sais pas, médicales, ça peut être du son,ça peut être des films, ça peut être n'importe quoi, des données statistiques, etc. Nous, ce qui nous

00:11:31 :intéresse dans ce soir, en fait, c'est la classification des images. Si je vous donne deux images en entrée, donc là, une image en haut avec une image d'Assassin's Creed, donc une image qui ne contient pas la mère, et en dessous, une image qui la contient, je veux, en fait, créer un classifieur qui répond à la

00:11:52 :question, est-ce que l'image contient-elle la mère ou pas ? D'accord ? Et la réponse, donc la prédiction sera oui égale à 1, non égale à 0. D'accord ? Donc, j'espère que c'est clair pour tous, j'essaie de

00:12:04 :faire quelque chose d'assez simple. Pour ce faire, en fait, la première idée qu'on aimerait se dire,c'est, ok, en entrée, je donne les matrices, alors une matrice, c'est un tableau de pixels, d'accord, de mes images,je dis, bon, ben là, imaginons que j'ai une image de 28 pixels par 28 pixels, donc je peux la rentrer dans un

00:12:25 :tableau NumPy de 28 par 28, je dis que ça, c'est égal à 0, par exemple, ça, ce n'est pas une image, je lance ça à mon classifieur, il se débrouille pour apprendre, et c'est tout bon. Bon, mais le problème, c'est que la

00:12:37 :machine, il faut l'aider un petit peu, parce que juste de faire ça, de lui balancer tous les pixels, la machine ne va pas réussir à faire son apprentissage. Par contre, on peut se servir de ce qu'on a vu précédemment, notamment au

00:12:49 :niveau des points-clés, c'est-à-dire que là, sur l'image d'Assassin's Creed, si je prends les points-clés, par exemple,c'est une pyramide, de l'objet que porte le personnage, ou en dessous, je prends le coucher de soleil avec les différents petits moutons qu'on peut voir, la couleur de l'eau, etc., ça, ça va pouvoir permettre à la machine de faire

00:13:10 :cette classification. Et en fait, pour ce faire, c'est une méthode qui existe, qui vient tout droit de notre domaine en IA, qui est le traitement automatique des langues, qui s'appelle le Bag of Words. Alors cette méthode, en fait,

00:13:26 :qu'on va voir ce soir, elle a été dérivée, on appelle ça un Bag of Visual Words. Donc, qu'est-ce qu'elle consiste ?Dans un premier temps, vous avez un dataset, un jeu de données, qui contient des images, d'accord, de tailles plus ou moins homogènes, d'accord ? Vous allez prendre une partie de ce dataset-là, vous allez le découper en deux.

00:13:48 :La première partie contiendra des images qui vont permettre d'entraîner la machine, donc d'entraîner notre IA,et l'autre partie va être de pouvoir tester ce qu'on va apprendre, d'accord ? Là, si vous voyez le dauphin,

00:14:01 :je ne vais pas faire apprendre la machine sur le dauphin, ça, ce sont juste des images de test pour pouvoir évaluer les performances de notre algorithme. Donc la première étape va être d'extraire les différents points-clés

00:14:15 :avec les algorithmes, comme on l'a vu, donc SIFT ou RBO-BRISK, par exemple, de toutes nos images d'entraînement,d'accord ? Donc là, vous avez un exemple de points-clés qui ont été extraits à partir de, là, d'une image d'un,

00:14:30 :je pourrais dire d'une église, peut-être, d'un clocher. Ensuite, ces points-clés-là, en fait, on va les mettre sur un tableau. Alors là, c'est en deux dimensions, mais il faut savoir que là, du coup, on est en N dimensions, d'accord ?

00:14:43 :Et en fait, ce qu'on va faire, c'est qu'on va regarder s'il y a une similarité en termes de données, c'est-à-dire que là,les points rouges, ce seront plus des images qui vont avoir un objet en commun, d'accord ? Donc si ce sont des images,

00:14:57 :je ne sais pas, de ville, ils ont forcément un clocher, d'accord ? En noir, autre chose, etc. Et en fait, mon but,ça va être d'utiliser un algorithme de clustering. Donc, qu'est-ce que c'est qu'un algorithme de clustering ?

00:15:09 :C'est un algorithme qui, en fait, pense qu'il va avoir trois ensembles de couleurs comme ça, qui va définir, en fait,les ensembles en question, et on va pouvoir récupérer, en fait, le centre de ces ensembles-là. Et en fait, c'est ça

00:15:23 :qui vont être, on va dire, des visual words, d'accord ? C'est ça qu'on va balancer dans notre paquet. Donc, en fait,un bag of features, au lieu d'avoir un paquet de mots, c'est un paquet, un dictionnaire, d'accord, qui va contenir des points clés qui vont nous permettre de faire la classification, d'accord ? Donc là, si je reprends

00:15:43 :sur le bag of features, on voit que là, c'est une image d'œil, etc. Bon, nous, ce ne sont pas tout à fait des images à proprement parler, d'accord ? Ce sont vraiment des vecteurs, d'accord ? Des tableaux. Et quand j'ai terminé de faire cela,

00:15:57 :je vais regarder un petit peu les fréquences de tout ça. S'imaginons, là, pour connaître, si je veux savoir si tel objet se situe dans une ville, d'accord ? Bon, je vais regarder et je vais comparer un petit peu les fréquences. C'est-à-dire que

00:16:09 :la fréquence, là, si je prends un exemple, on voit le petit œil qui est ici. Si je prends une image qui a beaucoup de ressemblances, qui a des pixels qui se ressemblent beaucoup avec cette image-là, bon, c'est que du coup, on a un certain...

00:16:24 :Si cet œil-là est lié avec une classe 1 ou une classe 0, d'accord ? Bon, on a de fortes chances que l'objet sur lequel on veut

00:16:31 :comparer avec cet œil-là ait la même classe, d'accord ? Et c'est ça qui va faire notre classification. Et lorsqu'on va entraîner,du coup, notre modèle, d'accord ? Donc là, j'ai pris SVM, ça peut être les cas plus proches voisins, comme on a pu voir

00:16:45 :dans la vidéo précédente. Et là, je vais faire ma classification sur des fréquences, d'accord ? Donc vous voyez qu'en fait,je ne mets pas des images en entrée, d'accord ? Je ne mets même plus que ça. Je vais extraire d'abord des caractéristiques.

00:16:58 :Je vais faire un dictionnaire de caractéristiques, un codebook, d'accord ? Et je vais ensuite récupérer les fréquences de ces keypoints, d'accord ? De ces descripteurs. Et je vais ensuite les mettre dans un classifiant. Bon, cette méthode-là, du coup,

00:17:14 :elle a eu pas mal de succès. Elle fonctionne. On verra par la suite qu'après l'appréhension, j'ai fait une petite implémentation de cette méthode-là et on va voir un peu qu'est-ce qu'il en est. C'est facile à coder. Ce n'est pas très difficile.

00:17:29 :Il faut juste se creuser la tête sur les différentes dimensions, etc. Mais par contre, comme toute bonne méthode,elle a des limites. Donc la limite, c'est qu'on a besoin de chercher des méthodes d'extraction de caractéristiques.

00:17:41 :Nous, on parle de l'algorithme SIFT, d'accord ? On a besoin de quelque chose d'une base, en fait, puisqu'on ne peut pas balancer l'image comme ça et dire, voilà, classifiez-moi ces images-là. On a besoin d'être beaucoup plus classé.

00:17:55 :On est limité au niveau du nombre, parfois. Donc comme je l'ai dit, parfois on va faire une classification sur des images qui contiennent ou pas la mer. Si on n'a que 400 images, parfois le deep learning, ça ne va pas suffire, d'accord ?

00:18:09 :Donc on va devoir passer en shallow learning. Et du coup, on va devoir être limité parfois. La machine, si elle doit créer une tâche assez complexe, elle va avoir besoin de beaucoup plus d'images. Parfois, on n'en a pas. Donc en entreprise, par exemple,

00:18:23 :c'est souvent ce qui se passe lorsqu'on veut faire de ces modèles-là. Bon, comment on fait, justement, pour faire marcher notre IA, en ayant la contrainte des données ? On va voir que, du coup, les caractéristiques qui sont extraites,

00:18:42 :comment on sait que les caractéristiques importantes que nous voyons sont aussi les mêmes que la machine ?C'est-à-dire que là, ce que je prends, c'est que, vous comprenez bien que je ne vais pas prendre toutes les caractéristiques qui sont ici, mais je vais prendre vraiment le centre de mes types de caractéristiques, d'accord ? Donc, est-ce qu'il y en a assez ?

00:19:02 :Est-ce que j'en ai trop ? Comment pouvoir avoir une certaine idée de ce que je fais, au final, parce que là, on rentre un peu

00:19:10 :dans l'abstraction ? Parfois, on n'a pas assez de descripteurs. Là, dans l'image que j'ai mis, la première image sur l'avion,parfois, on n'a pas assez de points-clés. Des fois, on en a trop. Donc, trop, ce n'est pas bien, comme pas assez.

00:19:27 :On va regarder le choix du classifiant. Là, par exemple, j'ai pris SDVM, c'est le Support Vector Machine.Il y a des algos de boosting et d'algos qui font plein de choses, en fait, pour faire de la classification, mais qui fonctionnent de manière différente.

00:19:39 :Et chacun de ces algos, si je peux les comparer à une voiture, du coup, ils ont des hyperparamètres.Si je prends, par exemple, une voiture électrique, une voiture à distance, l'une va partir au galop plus rapidement que l'autre, etc.

00:19:56 :Il faut paramétrer tout ça. On ne peut pas faire les choses à l'aveugle, sinon, ça ne marchera pas.Et en fait, on va se rendre compte que tout ça, vous voyez, là, ça fait pas mal de contraintes qu'il faut vraiment prendre en compte.

00:20:09 :Et bien, en fait, il y a une magie qui est arrivée avec Yann Lequin, c'est ces fameux réseaux convolutionnels.Ça, c'est quelque chose que j'ai parlé dans la précédente vidéo sur l'intro de Deep Learning.

00:20:20 :On ne va pas avoir cette étape d'extraction de features.C'est-à-dire que nous, ce qu'on va avoir, c'est une image dans l'entrée, un réseau de neurones qui va effectuer un ajout de filtres sur une image.

00:20:36 :Et ensuite, lorsqu'on va lui mettre dans un réseau fully connected layers, elle va nous faire la classification.Donc là, si je prends le cas d'un zèbre, on va avoir un pourcentage entre 0 et 100, dans une ressemblance à une certaine classe.

00:20:55 :Donc, vous voyez qu'en fait, l'homme n'a plus besoin de tirer à la machine de l'âge pour extraire telle et telle caractéristique.Parce qu'au final, c'est pas forcément la bonne.

00:21:04 :Nous, on se dit, si je reprends la photo de Nolulu, si il y a telle et telle chose, c'est forcément Nolulu.Mais la machine, elle ne raisonne pas comme nous.

00:21:12 :Peut-être qu'elle, ce sera une certaine couleur RGB sur l'océan qui lui fait à tout prix repenser à l'océan Pacifique.Et donc, l'océan Pacifique, proche d'un bâtiment de telle hauteur, c'est forcément Nolulu.

00:21:26 :Donc ça, en fait, on laisse la machine faire.Et c'est là, un petit peu, la beauté de la chose.C'est que nous, ici, donc, dans la couche là, on va mettre des filtres qui vont pouvoir faire ressortir des caractéristiques.

00:21:39 :Alors, changer des filtres, c'est faire changer les couleurs, d'accord ?Ajouter de l'obscurité, ajouter, je ne sais pas, des couleurs un peu plus chaudes, faire varier l'intensité lumineuse, etc.

00:21:51 :Et ensuite, on va pouvoir faire une sorte de moyenne d'une image.C'est-à-dire qu'en entrée, lorsque je vais avoir une image de 256x256, si je prends pour exemple 4 pixels qui sont à côté,si les 4 pixels, ils ont, je ne sais pas, ils ont presque la même valeur,je vais faire en sorte que sur ces 4 pixels là, je vais prendre la valeur la plus grande.

00:22:13 :Du coup, ce qui va se passer, c'est que mon image, je vais la diminuer, je vais la réduire.Et en fait, je vais garder que les pixels qui sont importants.

00:22:21 :C'est ça qui va faire une couche de convolution, d'accord ?Une couche de pooling, pardon, une couche de convolution aussi.Et ensuite, du coup, je vais vectoriser mon image, c'est-à-dire qu'au lieu d'avoir une image de 28x28,je vais avoir un vecteur de 1x256, je crois.

00:22:38 :Et ensuite, ça, je vais le balancer dans mon résultat qui va permettre de faire la classification, d'accord ?Voilà, donc maintenant, ce que je vous propose de faire, c'est faire une petite pause,peut-être pour parler un petit peu de ce qu'on vient de dire aujourd'hui, d'accord ?

00:22:54 :Et après, là, on fait une petite pause au niveau des questions,et ensuite, on va voir un petit peu un exemple de code que j'ai réalisé sur le bag of features.

00:23:02 :Est-ce que vous avez des questions ?Je viens d'arriver, donc non. Bonjour.Bonjour.Par contre, je ne peux pas voir le...Je vais essayer de voir le salon...

00:23:18 :Alors, on doit dire qu'il dit que pour l'instant, c'était clair.D'accord, ok.Super. Alors, si j'ai été clair, c'est cool.Il y a Johner qui écrit.

00:23:30 :Ok.Ah, ça y est, je viens de voir le... Je vois le channel, ça y est.Clair et génial.Ok, c'est cool.Ça fait plaisir. Je suis content d'avoir pu un petit peu rentrer...

00:23:42 :J'avoue, je viens d'arriver, donc je ne sais pas trop ce qui a été dit.Bah, je te propose... La vidéo a été enregistrée,et je vais la mettre ensuite sur ma page YouTube,donc je te propose que tu t'intéresses de voir et regarder.

00:23:56 :Ça marche, super.Bon, s'il n'y a pas de questions,je vous propose qu'on aille voir un petit peu au niveau du code,du coup, qu'est-ce que ça donne.

00:24:04 :Parce que je vois que tout le monde était un petit peu...Ok, c'est beau, mais est-ce que ça marche au niveau Python ?Il y a David qui est en train d'écrire, je crois.

00:24:10 :Ouais, je vois aussi.Peut-être attendre...Je vais attendre peut-être 5 minutes, toi.Tu ne comptes pas sur Vess ?Non, sur Pacharm.Est-ce que c'est mieux de ton point de vue ?

00:24:23 :Ce n'est pas que c'est l'un est mieux que l'autre,c'est juste que moi j'ai appris beaucoup plus sur Pacharm,et sur la suite JetBrains,donc j'étais beaucoup plus avenant vers ce logiciel-là en fait, que VessCode.

00:24:37 :D'accord.Bon, si personne n'a des questions,alors je vous propose qu'on puisse continuer de regarder ça.Alors ce code-là, je vais le mettre en ligne sur mon GitHub,je vous passerai le lien plus tard quand j'aurai terminé d'ajouter toutes ces choses-là.

00:25:00 :Donc en fait, là, j'ai une démonstration sur les algorithmes SIFT, ORB et Brisk.Donc là, ce sont les images que j'ai montrées tout à l'heure.

00:25:08 :Donc là, vous avez les petites démos,vous pouvez les lancer,vous avez les algorithmes,vous mettez une image en entrée à un pas,vous avez les keypoints, les points clés qui apparaissent.

00:25:18 :Au niveau de la méthode,au niveau de l'implémentation,donc démo bag of folds,est-ce que c'est fait comme ceci.Donc dans un premier temps,vous mettez en place votre dataset,alors voilà pour les ressources,donc moi ce que je vais faire, c'est une classification comme je disais pour reconnaître s'il y a la mer ou pas

00:25:41 :sur une image.Donc j'ai des images où il y a l'océan,et j'ai des images où il n'y a pas l'océan.Pour vous montrer un petit peu,je vais zoomer un petit peu sur le texte.

00:25:55 :Donc là, ce sont des images avec l'océan, d'accord.Je précise, elles sont de tailles différentes.Et ensuite, j'ai des images qui contiennent des objets qui ne sont pas des océans.

00:26:17 :Alors il y a des images pièges,évidemment, il faut un peu piéger.Là, c'est un fleuve, donc c'est pas un océan.C'est assez zoomé, Joner ?

00:26:27 :Ou tu veux que je zoome un petit peu plus ?Ok, super.Donc là, on va essayer de piéger la machine en disant ça c'est pas un océan.

00:26:39 :On va faire attention.Donc là, c'est vraiment des images diverses et variées que j'ai dans mon dataset, d'accord.En fait, on va faire apprendre la machine sur tout ça.

00:26:49 :Donc là, on va vraiment extraire chacune des caractéristiques.Donc, ce que je vais faire déjà,ce que je crois faire, c'est d'analyser un petit peu en termes de dimensions qu'est-ce qu'on a.

00:27:01 :Parce que là, moi si je fais comme je dis, il faut que toutes les données en l'entrée, elles aient la même taille d'image, d'accord.Mais la question, c'est de dire qu'est-ce que je prends comme height et comme width, d'accord.

00:27:13 :Là, j'ai affiché un petit graphique en matplotlib où vous avez où vous avez en fait chacune des images en fonction de sa dimension, d'accord. Vous avez la moyenne

00:27:25 :qui est ici, d'accord.Donc la moyenne qui est de 399 par 638. Vous avez le Q1, Q3 en fait qui sont les écarts inter-quartiles où vous allez avoir, ça va être la moyenne moins 25% et la moyenne plus 25%donc 75%du jeu de données, quelle est sa dimension.

00:27:45 :Vous avez les moyennes minimales, les moyennes maximales, d'accord.Nous, en fait,on va faire deux choses.Dans un premier temps,donc ma méthode,je vais prendre des images qui ont la taille moyenne de mon dataset.

00:28:05 :D'accord, jusque là,on est ok. Et ce que je vais faire, c'est que je vais normaliser donc en fait je vais tronquer toutes mes images par ces dimensions là. Donc l'image plus petite

00:28:17 :aura la dimension width-height, donc 639, etc.Et les images très grandes seront aussi tronquées.D'accord.Pour l'instant, ça je vous en parlerai.Je vous en parlerai tout à l'heure.

00:28:31 :C'est un objet Python que j'ai créé,d'accord, qui va s'occuper tout simplement de faire la classification,l'extraction d'un ensemble,d'un tableau de vecteurs de fréquence.

00:28:53 :D'accord, comme on en a parlé tout à l'heure.Donc je vous laisserai voir un peu l'implémentation,comment ça se fait au fur et à mesure, donc les différentes étapes.

00:29:01 :La création du codebook, qui est un dictionnaire.Les visual routes,qui sont en fait le centre des fameux clusters que nous avons vus.Et la création des vecteurs de fréquence.

00:29:11 :D'accord. Ensuite je vais lancer un entraînement.Alors, par rapport à ça, je vous ai dit il faut bien faire attention au niveau du découpage de nos données, c'est-à-dire que je vais prendre 70%du dataset que je vais entraîner ma machine dessus et 30%où en fait ces images-là je vais mettre de côté

00:29:31 :pour pouvoir tester ma machine, pour pouvoir en fait évaluer tout ça.Et ensuite ce que je vais faire, c'est que je vais appeler plusieurs classifiers.

00:29:43 :Je ne détaillerai pas ce que c'est le but de cette vidéo,mais vous verrez dans le code,où je vais en fait lancer plusieurs classifiers en même temps.

00:29:51 :En même temps, un par un.Et je vais ensuite récupérer et dire je te veux apprendre sur ça, est-ce que tu arrives à apprendre, quelles sont tes performances, etc.

00:29:59 :Donc si on fait un petit run,on va avoir une petite démonstration sur l'apprentissage des algorithmes de machine learning,de learning.Donc moi j'ai un dataset de 414 images. Alors quand je vous ai dit de respecter

00:30:17 :le 50-50 sur avec et sans classe, bon parfois on n'a pas trop le choix. Moi j'ai un petit écart de quelques images.Bon après ça c'est vraiment en pratique,comme je dis, il faut essayer de se rapprocher de la théorie, mais parfois on n'y arrive pas.

00:30:31 :Ensuite ce que je vais faire, c'est que là je vais faire apprendre sur 289 images.Donc c'est mon x-train où je vais faire apprendre la machine en fait à 30,simplement. Et après

00:30:47 :vous faites l'abstraction de 30%pour pouvoir faire mes tests. D'accord ?Et ensuite ce qu'il va se passer c'est qu'en fait ma machine... Super !

00:30:57 :Ma machine, ce qu'elle va faire...Attendez, j'ai un petit problème de dimension.Non !On va juste faire ça.Ça c'est le coup de pouvoir lancer le truc en live. C'est toujours un petit problème.

00:31:11 :Bon là on va tronquer à 500-500.Bon ça c'est censé marcher.J'ai fait le test là.C'est ça.Et donc en fait on va faire apprendre nos différents algorithmes. Alors vous pourrez tester

00:31:23 :du coup en live chez vous quand j'aurai réparé mes petits bugs.Et on va avoir en fait les différents scores. Notamment le score qui va être la différence entre ce que je vais prédire.

00:31:33 :D'accord ? Donc on appelle ça les Y-Predict. Et en fait je vais faire ce test là sur les X-Test. D'accord ?Et les X-Test en fait, j'ai aussi leurs Y-Test. Mais la machine

00:31:45 :ne sait pas que j'ai des Y-Test.D'accord ? Parce que je vais tester avec les X-Test.Donc elle va me donner des prédictions et je vais comparer les prédictions avec ce que je connais. Voilà.

00:31:55 :Donc là on fait une classification avec la Régulation Logistique qui est un classifieur.Avec les Decision Tree.Donc au fur et à mesure en fait je vais parler de ces différents classifiers au niveau des vidéos.

00:32:07 :Les Random Forest.Donc en fait là ce qu'il va faire dans cette étape là, il va lancer des classifiers. D'accord ?Et il va essayer de trouver l'Accuracy Score. On appelle ça

00:32:20 :sa performance.Donc entre 0 et 1.De comment il va pouvoir en fait faire cette classification là. Là on peut voir que... Alors il va chercher les

00:32:32 :meilleurs hyperparamètres. Là vous avez les paramètres de chaque algorithme. Donc c'est pas nous qui le faisons. C'est lui qui le fait. Mais il va lancer

00:32:38 :plusieurs fois en fait l'entraînement. Il va pas en faire qu'un seul. Et ensuite là si je prends pour la régulation logistique on va avoir des paramètres comme C, Penalty,Solver, etc.

00:32:48 :Pour les EVM on va juste avoir le Kernel. Et quand il a trouvé les meilleurs paramètres on va ensuite refaire l'entraînement.Et en fait on va regarder ceci.

00:32:58 :Ceci qu'est-ce que c'est ? C'est un tableau.Dans l'entrée j'ai deux classes. D'accord ?0, je n'ai pas la mer.1, j'ai la mer.Et en fait je vais correcter le score qui est ici. Donc c'est l'info score.

00:33:12 :Elle est de 66%. Donc qu'est-ce que ça veut dire ?Ça veut dire que la machine sait reconnaître à 66%la classe 0. Donc les images où il n'y a pas la mer.

00:33:24 :Et elle sait reconnaître à 67%les images où il y a la mer.Et là vous avez une accuracie moyenne.D'accord ? Donc ce qu'elle sait faire entre les deux.

00:33:34 :Qui est de 0,66.Alors comment on interprète ça ?66%c'est pas fou. Parce que le seuil de hasard c'est 50%.On a une chance sur 2 de se tromper. D'accord ?

00:33:46 :Là elle monte un peu à 100%.Mais on est quand même assez loin.Donc ce qu'on va faire c'est qu'on va regarder un autre classifiant. Les

00:33:54 :decision trees. Bon bah là c'est pareil.Ça reste à 0,68. Alors le but c'est vraiment de monter à 100%. Ça veut dire que la machine

00:34:00 :ne se trompe plus et qu'elle fasse une classification qui est parfaite. D'accord ?On va regarder un petit peu le read.0,68 c'est quand même pas mal.

00:34:08 :Les mêmes 0,70.Donc ça fait 70%.Elle a 70% de performance qu'elle ne peut pas se tromper.Elle sait faire la bonne classification.Et en fait ce qui va se passer c'est que là vous voyez on ne dépasse pas 70%.

00:34:22 :On est là, on se dit bah merde.Qu'est-ce que je vais pouvoir utiliser comme méthode afin de pouvoir...Alors si je reprends le le Japloama ici.

00:34:32 :Qu'est-ce que je vais pouvoir faire en fait pour améliorer cette méthode de Bag of Visual Boards ?Et en fait c'est une technique qui a été assez simple.

00:34:42 :On appelle ça faire de la Data Augmentation.Là par exemple d'expérience on sait qu'on a 414 images.C'est pas bon. D'accord ?Là on a juste 200 images où il y a la mer, 200 images où il n'y a pas la mer. Alors il faudrait

00:34:56 :monter un petit peu tout ça parce que là ça suffit vraiment pas. Donc ce qu'on va faire c'est qu'on va augmenter les données sans les augmenter.

00:35:02 :Je m'explique.Vous vous dites ok bah Marius on va faire de la Data Augmentation mais comment on peut augmenter si une entreprise ne peut pas fournir plus d'images que ça ? Si je prends l'image

00:35:12 :de la mouette, du dauphin qui est ici.Par exemple des oiseaux, d'accord ?Et que je fais une rotation.Bah en fait finalement c'est la même image.

00:35:20 :Sauf que je l'ai juste tournée.Mais on est d'accord que c'est toujours un dauphin.Ok ?Donc si je la tourne de 45 degrés,de 90 degrés et de 180 degrés on est d'accord que c'est toujours la même image.

00:35:32 :Mais la machine voit si je prends le dauphin à 0° et à 180°la machine voit deux images différentes.Là en fait j'ai juste remplacé j'ai retourné toute ma matrice de pixels.

00:35:46 :C'est ce qu'on va faire.Et on va augmenter les données comme ça.Ce qui va se passer c'est qu'on va faire de la Data Augmentation donc je reprends le code qui est ici.

00:35:56 :Voilà.Donc par exemple pour faire la Data Augmentation attention il faut qu'on ait les mêmes dimensions.C'est pour ça que j'ai mis un Wither Height qui était fixé.

00:36:06 :D'accord ?Et on va augmenter nos données. D'accord ?Donc là dans Data Augmentation ce que je fais c'est qu'en fait je prends mon image et je vais lui rajouter une rotation à 90 degrés dans la rotation horaire.

00:36:22 :Dans la rotation dans l'autre sens à 180 degrés.Et ce que je vais faire c'est que je vais relancer mon entraînement.Donc là vous voyez j'ai une méthode qui fait ma classification mais je vais parfois devoir ajouter d'autres petites méthodes pour pouvoir encore améliorer ça.

00:36:40 :Et là je passe de 414 images à 1242 images.Vous voyez je vais tripler mon entrée.Alors on va voir un petit peu ce que ça va donner.

00:36:50 :Alors il faut savoir que l'IA c'est pas une science exacte.C'est le monde des stats.Donc il faut tester, tester, tester.Moi j'ai passé des journées à déjà me dire ok le backoffload il est à 60%, comment le passer à 70% ?

00:37:04 :Qu'est-ce que je peux faire ?Qu'est-ce que je peux rajouter ? Est-ce que je mets que des images ?Est-ce qu'il y a plein de techniques au niveau de la vision par ordinateur ?

00:37:12 :Là je vous en ai montré une.C'est la rotation au niveau des images.D'accord ? Je peux ajouter aussi le fait que par exemple sur une image je vais récupérer je sais pas 75% de l'image je vais garder leurs pixels et tout le contour je le mets en noir. Je mets tout

00:37:28 :en pixels de couleur noir.D'accord ? Bah ça me fait quand même une nouvelle image.Pourtant c'est la même image de mon dataset.Mais je peux augmenter mes données comme ça.

00:37:36 :On va prendre attention.Il faut faire gaffe à un truc.C'est que si on augmente trop nos images la machine va faire ce qu'on appelle du overfitting.

00:37:44 :Ça veut dire qu'en fait elle va surapprendre. Et ça on ne veut pas.Ça veut dire que s'il fait du surapprentissage sur les données sur lesquelles elle va s'entraîner en fait elle va faire de l'apprentissage qui est par cœur. Et comme vous le savez

00:37:58 :ça marche à l'école et ça marche aussi pour une IA l'apprentissage par cœur en fait c'est pas apprendre. D'accord ? Parce qu'on va trop apprendre. Et la machine va tellement se

00:38:08 :focaliser sur les données qu'elle a que lorsque je vais la mettre sur des données réelles. D'accord ? Donc je vais la mettre en déploiement. Bah elle va se cracher.

00:38:16 :Et les gens disent mais merde pourquoi elle fait 100% sur 98% sur les entraînements. Et ça marche pas.Parce que on fait du surapprentissage. Et là

00:38:28 :il faut faire vraiment attention à faire ça. Donc il faut trouver un juste milieu. Vous voyez ?Entre surapprendre et ne pas sous-apprendre.Vraiment apprendre ce qu'il faut.

00:38:38 :D'accord ? Donc là on a aussi comme tout à l'heure on a l'entraînement sur nos on a la recherche des meilleurs hyperparamètres de nos différents algorithmes de classification.

00:38:50 :Donc là vous avez AdaBoost, SVM.Bon. Ça je prends une petite présentation dans les salons d'apprentissage automatique qui est sur le docstring. D'accord ?J'ai un peu commencé mais j'avais pas trop le temps.

00:39:00 :Donc je vais essayer de faire ça. Ou peut-être des vidéos. Enfin je vais voir un petit peu pour vous expliquer chacun des algos. Parce que

00:39:06 :quand vous faites quand vous êtes en entreprise et que vous faites de l'IA. D'accord ?On te passe tes données. Moi je veux que ma machine

00:39:18 :sache faire ça. Tu te débrouilles.Voilà. Ça c'est le ça c'est le coup c'est ce qui se passe dans 90% des cas.Alors comment tu détermines la limite du surapprentissage ? Ça c'est une très bonne question.

00:39:30 :Alors là justement je n'ai pas d'exemple, pas de données. Donc je vais te faire un petit paint. D'accord ? C'est pas très pas très joli mais tu vas comprendre pourquoi.

00:39:38 :Là en fait ce qui va se passer c'est que en Y je vais regarder du coup le score.Donc les performances de ma machine. D'accord ? Et ça

00:39:52 :ça va être combien de fois je vais entraîner. D'accord ?Donc j'appelle ça training parce que j'ai la flemme d'écrire en français. D'accord ?Ma machine. D'accord ?

00:40:02 :Donc ça c'est le score.Ou alors on peut remplacer le score par la loss.En général la loss c'est la fonction de perte.Donc en fait c'est si tu veux minimiser la perte c'est que du coup tu veux augmenter ton score.

00:40:16 :D'accord ? Ce qui n'est pas la logique.Donc on va mettre perte.Et en fait ce que tu vas faire c'est que tu vas comparer tes données donc ton évaluation en entraînement et en test.

00:40:28 :D'accord ? Et parfois en fait ta comment ça s'appelle ?Ta courbe, ce qu'elle va faire c'est qu'elle va descendre.Donc ça ça va être ta courbe en entraînement.

00:40:38 :Et après elle va faire ça.Alors si tu te dis merde c'est...Y'a un problème. Mais en fait c'est ça le surapprentissage.C'est à dire qu'à partir de ce moment là dès que t'arrives là, tu vas minimiser ta perte jusqu'à un certain entraînement. D'accord ? Donc un certain

00:40:52 :rapport à plein de paramètres.Et en fait ta perte elle va re-augmenter du coup elle va faire diminuer ton score et là tu vas être en overfitting.

00:41:02 :Donc en fait le but c'est vraiment de trouver ce seuil là où tu vas pouvoir avoir une conversion vers la meilleure des solutions.D'accord ?

00:41:12 :Donc regardons un petit peu notre classification.Et bam !0.75%0.88%Oh c'est fort !0.96%Là c'est très très fort !Et donc là c'était le petit le petit plus.

00:41:32 :Gradient boosting c'est un bon classifieur.On part à 0.97%Alors là du coup il faut faire attention. On se dit ok je suis droit du pétrole. Je suis presque

00:41:42 :à 100%. En faisant juste donc vous voyez là ce que j'ai fait c'est j'ai juste ajouté plus de données, des images en faisant des rotations.

00:41:48 :Mais ce qu'il va falloir faire c'est de tester. Donc là vous avez une première évaluation qui est assez bonne. Donc là les zones métriques on apprendra un petit peu qu'est-ce que c'est exactement.

00:42:00 :Là ce qu'il faut faire quand vous avez un score comme ça c'est de tester sur des données qui n'ont jamais été vues par la machine et de voir un petit peu ce qu'il se passe. Là ce soir je ne vous la ferai pas

00:42:10 :parce que je n'ai pas eu le temps de préparer ces données là mais je vous ferai un petit feedback.Donc là ce que je vais faire c'est que cet algorithme là, je vais récupérer ce qu'on appelle un modèle.

00:42:20 :Donc rappelez-vous sur la partie au niveau de l'apprentissage le modèle c'est ce qui contient en fait les règles d'apprentissage comment la machine va faire ses classifications en langage IA en fait c'est les équations les mêmes équations mathématiques de mon IA d'accord en fait ça je vais pouvoir le récupérer

00:42:44 :et faire des prédictions sur des données qui n'ont jamais été vues.Donc là le but de la suite ce sera de faire ça et on verra un petit peu qu'est-ce que ça va donner. Est-ce que c'est du

00:42:58 :bon apprentissage ? Alors on a toujours un écart, même si c'est on essaye de diminuer au plus en fait l'écart entre l'erreur, là c'est une erreur qui a été traitée donc avec une erreur réelle d'accord, on n'aura jamais un 97%à la fois en entraînement et à la fois

00:43:16 :en réel, on va toujours perdre un petit peu d'accord, c'est normal, on ne peut pas lui donner toutes les images de l'univers sur un certain truc même si on pouvait ça ne suffirait pas parce qu'on est en stat on n'est pas dans un monde parfait mais on peut se rapprocher vers une bonne solution

00:43:28 :ok ?Voilà donc du coup le code comme je le disais sera disponible ici je vais mettre le lien dans la le lien de mon github du coup dans le channel donc là j'attendais vraiment de terminer la présentation pour voir le... Ouais donc c'est le projet

00:43:46 :salsa d'accord, vous aurez une je suis en train de terminer le texte pour expliquer en détail si vous voulez lire tranquillement chez vous euh les avenants et les aboutissants en fait de notre de ce qu'on a dit ce soir d'accord un peu plus de précision au niveau mathématique etc

00:44:06 :je vous encourage à à récupérer le projet, pas parce que c'est le mien parce que je suis content, mais à le récupérer pour pouvoir tester les scripts de démo d'accord, pour voir de votre côté qu'est-ce que comment ça marche exactement un truc que j'ai pas parlé ici c'est la démo au niveau

00:44:22 :de les fréquences, là bon si je prends une fréquence image, là vous avez les fréquences sur les 3 channels donc RGB par rapport à une image qui est 838 SVPG, je crois que c'est celle de l'avion d'accord, vous avez les pourcentages de rouge, de bleu et de vert, voilà

00:44:36 :c'est ça qui va être appris par la machine d'accord donc là vous avez vraiment des valeurs on n'a plus de question de pixels et tout, là ça rentre vraiment dans la dans l'image qu'on s'estime, voilà donc euh sur ce c'est bon pour moi là je reste en local si jamais vous avez des questions