Session du 02 septembre 2024 à 19h00
Data Science & IA
Veille & Discussions
Scrapper pour ALIBABA
Le but de aba-cli-scrapper est de construire un dataset contenant des informations sur des produits avec leurs fournisseurs, en fonctions de mots clés choisi par l'utilisateurs .
00:01:49 :sur le navigateur, ok, je vais changer, je vais changer le partage, ok, d'accord, là je pense que maintenant c'est le terminal,ok, ok, donc du coup, puisque ça fonctionne avec Braille Data, la première commande que j'ai fait, ah voilà, un autre truc vraiment très important, peut-être avant que je fasse la démo, c'est ce que j'ai beaucoup apprécié, l'algorithme que j'ai le plus apprécié dans tout le projet, c'est Typer, c'est vraiment un truc hyper bien documenté, c'est fait par Tiangolo, je crois que c'est lui qui a aussi fait FastAPI, c'est vraiment Typer, la docuse du Typer est très très très bien faite,
00:02:38 :du coup, je vais d'abord commencer avec la lib normal pour faire une application en CLI, mais quand j'ai vu le rendu que donne Typer, c'était beaucoup plus intéressant, c'est vrai que de base je suis aussi tombé sur Rich,mais Rich, juste à la vue, moi ça me faisait un peu peur, parce qu'il y a beaucoup de, comme des décorateurs, donc des décorateurs pour faire des options, des décorateurs pour faire et tout et tout, du coup je trouvais que c'était vraiment beaucoup plus simple avec Typer, donc c'est Typer que j'ai utilisé, en gros il y a comme 3 commandes que j'ai faites, une commande pour scraper, j'ai essayé de vraiment diviser les process, il y a la commande pour configurer d'abord sa clé d'API pour Braille Data,
00:08:02 :donc je peux choisir comment est-ce que ça va sauvegarder, je vais faire un html folder et je vais mettre ma, ou m-a, du coup ça va lancer, ça va afficher comme un progress, un progress bar, que j'ai fait avec la librairie riche, by the way,voilà, c'est que là ça se met à charger, ça va récupérer les pages, puis quand ça les récupère directement, ça va les charger dans le dossier qui s'appelle m-a. En passant aussi, une grande partie des ressources que j'ai utilisées aussi, je pense que je vais partager les liens, les liens peut-être un peu à la fin, ça vient d'un repo, un repo que j'ai trouvé, qui montrait vraiment comment faire un package Python de A à Z,
00:20:17 :Est-ce que c'est mon terminal qui bug ? Est-ce que c'est mon terminal qui bug ?Possible, possible, possible, possible. Je vais essayer de le relancer. Il allait voir au niveau de cette base union. Elle est là. Je la relance. Ok. Je pense que ça va être fini, mais ça a dû planter un peu.
00:26:20 :Alors, peut-être que je pourrais essayer avec un truc un tout petit peu plus simple. Ok. Je vais dire quoi? Qui affiche?Stop. Bon, on va dire quoi? Great. Suppliers. Suppliers. Par pays. Voilà. Donc, ça devrait pas faire trop de soucis. Oui, par pays.
00:29:05 :Tous les produits avec un score égal à 5. Je ne sais pas s'il va comprendre ça.Voilà. Égal à 5. Là, si tu ne mets pas un truc qui ressemble trop à un plot, là il va juste, en principe, il devrait juste afficher le dataprint là dans une table. Voilà. Je pense pas que ça devrait. Voilà, voilà, voilà.
00:41:55 :Mais généralement, c'est pour des shells. Ça marche avec des shells Linux, en gros. Les trucs PowerShell directement, ça n'installe pas d'autocomplétion.Mais en gros, ce que je veux présenter, c'est vraiment ça. C'est que pour les personnes qui ne sont pas très à l'aise, je me suis dit que c'est un mode qui peut aider à faciliter l'utilisation, à part avoir à revenir dans l'invite de commande.
00:42:59 :Donc, c'est vraiment quelque chose que j'ai trouvé assez intéressant. Le textemode, c'est ma petite viété d'avoir eu à tripatouiller le code comme ça.Là, c'est vraiment les trucs où tu cliques et tu n'as pas besoin de faire des trucs. Là, je clique, par exemple, sur close et run et ça le ferme.
00:44:15 :Ça va t'afficher de l'aide. Donc, c'est vraiment quelque chose que j'ai trouvé super, super, super intéressant.Donc, je ne sais pas si j'ai vraiment assez parlé du code, parce que c'est encore en train d'évoluer. Je vais peut-être rajouter d'autres fournisseurs de proxy et tout.
00:44:36 :Mais en gros, c'est ça. Je ne sais pas s'il y a des questions ou des gens qui aimeraient savoir un peu plus.Est-ce que j'ai rejoint le nom ? D'accord. Là, c'est tout le temps le nom qui est partagé.
00:45:13 :Je sais que Gabriel... Ah, pardon. J'ai une question. Tout d'abord, c'était super bien présenté. C'était super intéressant, ce que tu as présenté.Et ce que je me demandais, c'est que sur le scrapping, normalement, il n'y a pas quelque chose qui est encadré par la loi ou un truc comme ça avec ça ?
00:47:30 :Qu'est-ce que c'est ? C'est le vote en tout cas. Voilà. Alors là, évidemment, il va falloir...Ma fenêtre. Ok. Donc là, je suis sur le truc. Il y a plein de disallo là. Disallo, disallo, disallo, disallo, disallo. Je vais faire un ctrl-c pour ouvrir ce truc juste là à côté.
00:50:16 :Donc, est-ce qu'il y a d'autres questions? Donc, en gros, voilà, voilà, voilà, voilà.Là, je suppose que peut-être les autres, ils ont juste laissé comme un enregistrement. Peut-être qu'ils n'étaient pas disponibles. Mais c'est comme un enregistrement et tout. Donc, on va dire, moi, ça m'a vraiment fait plaisir de pouvoir partager le projet. C'était vraiment un truc sur lequel je travaillais.
00:52:37 :Dans le tchat, comment est-ce que je fais pour voir le tchat ? Je ne suis pas souvent encore utilisé.C'est lui ? Ouais, je l'ai trouvé.
00:53:20 :D'accord, d'accord, d'accord, d'accord. Ça, c'est le 22 août. Ça, c'est aujourd'hui.OK, les liens de ressources. OK. Donc, on va commencer par Typer. Typer pour faire le truc en CLI, puis SQL Model. En gros, je te rais, je te rais même recommander tous les produits de Tiangolo.
00:55:12 :Je ne sais pas si c'est pareil. Quelque chose. Quelque chose comme ça.C'est vraiment quand j'avais besoin de faire quelque chose comme ça. Non, non, non, je n'avais pas l'intention de faire ça.
00:55:54 :Voilà. Je vais la retrouver. C'est génial. OK, à la suite.OK. Du coup, ici, tu as tout ce qu'il te faut pour faire les pâtisseries. C'est une ressource que j'ai beaucoup utilisée.
00:57:06 :Tu pourras aussi aller jeter un coup d'œil sur ceci-ci. Sphinx. Pour la docu. Je vais, je dois, très intéressant. Voilà. OK. Voilà.Donc là, je pense que, en gros, il y a plus ou moins de ce que j'ai utilisé. Au pire, je peux très rapidement aller regarder mon Pyproject. Ouais, voilà. Évidemment, il y a aussi la doc sur Playwright. Très, très intéressant.
00:58:38 :Ça suffit du coup. Et pour finir, l'enduripo. Troggone. Ouais. OK. Après, justement, pour faire ça, voilà. Yarrick et Yaclic. Je confondais les deux.Quand je comparais là. Yarrick et Yaclic. Tu peux faire tes trucs CLI avec Yarrick et Yaclic. Mais vraiment, moi, j'ai craqué sur Yarrick et Yaclic.
01:00:28 :Peut-être que je pourrais montrer un petit truc. Un jeu que quelqu'un a fait directement dans les terminales. Là, je partage Troggone.Hop, voilà. Ok. Là, il y a Troggone. D'accord, là, je partage Troggone. Par exemple, il y a un outil qui a été fait, là, si j'arrête, et que je fais plutôt le partage avec...
01:01:08 :Ok, je fais ce que je veux. Voilà.Par exemple, il y a un truc, un outil de ce genre-ci, par exemple, ça s'appelle Browser. Ça te permet de naviguer dans l'espace de dossier dans lequel tu te trouves, mais en mot de texte.
01:01:52 :Il y a la même chose avec Frogmoot, mais Frogmoot, c'est beaucoup plus, vraiment, quand tu...Bon, si j'utilise un dossier, ça peut... Voilà, mais ça, c'est un outil.
01:02:34 :Ouais, ouais. Excusez-moi, là, vraiment, je... Ok. D'accord. Là, en principe, Browser devrait se trouver ici. Voilà. Voilà à quoi ça ressemble.Juste un petit exemple de choses que tu peux faire. Là, je suis dans mon système 32, je vais te repérer là. Ça, ça t'affiche un peu tout ce que t'as affiché. Ça affiche aussi les formats Macdown.
Aucune occurrence trouvée pour « ».