Contourner les obstacles au scraping

Dans cette formation, nous allons voir comment contourner les principaux obstacles qui peuvent survenir lors de la récolte de données sur un site web : contenu servi via JavaScript, blocage de l'adresse IP, captchas...

Commencer le la formation

grade grade grade
Intermédiaire
schedule 1 heures 36 minutes
list 20 sessions

Introduction

1. Introduction

01:50

Découvrez les fondamentaux du scraping et préparez-vous à surmonter ses défis. Vous allez explorer les problématiques communes et les solutions efficaces pour extraire des données web malgré les obstacles techniques.

Sous-titres
Résumé textuel

Voir la session

Ce que dit la loi

2. Ce que dit la loi

01:00

Vous allez explorer la dimension légale du scraping, avec un focus sur la jurisprudence et une affaire impliquant LeBonCoin. Nous aborderons la légalité des pratiques de récolte de données et l'importance de consulter un avis juridique pour sécuriser vos activités de scraping.

Sous-titres
Résumé textuel

Voir la session

Le RGPD

3. Le RGPD

01:20

Découvrez les implications du RGPD dans le domaine du scraping et comment ces réglementations affectent la collecte de données. Nous aborderons les bonnes pratiques pour rester conforme.

Sous-titres
Résumé textuel

Voir la session

L'affaire Entreparticuliers.com VS LeBonCoin

4. L'affaire Entreparticuliers.com VS LeBonCoin

01:05

Vous allez explorer les défis du scraping à travers le cas Entreparticuliers.com contre LeBonCoin, en découvrant des stratégies pour surmonter les contentieux juridiques et techniques.

Sous-titres
Résumé textuel

Voir la session

Exemples de scraping licite et illicite

5. Exemples de scraping licite et illicite

02:56

Découvrez les frontières légales du scraping web. Vous allez apprendre à différencier les techniques légales des pratiques à éviter, essentielles à la collecte éthique de données.

Sous-titres
Résumé textuel

Voir la session

Le scraping éthique

6. Le scraping éthique

03:59

Vous allez découvrir les principes du scraping éthique pour collecter les données sans enfreindre les règles. L'accent sera mis sur les pratiques responsables et respectueuses.

Sous-titres
Résumé textuel

Voir la session

Le fichier robots.txt

7. Le fichier robots.txt

04:08

Vous allez explorer le rôle et la structure du fichier robots.txt, essentiel pour comprendre les autorisations de scraping d'un site. Vous découvrirez comment interpréter ses directives pour scraper de manière éthique.

Sous-titres
Résumé textuel

Voir la session

Les blocages techniques

8. Les blocages techniques

04:09

Découvrez les méthodes pour surmonter les verrous technologiques en scraping. Vous allez identifier et déjouer les mécanismes qui bloquent l'accès aux données comme les contenus dynamiques ou les protections anti-bot.

Sous-titres
Résumé textuel

Voir la session

Le blocage par limitation des requêtes

9. Le blocage par limitation des requêtes

07:09

Découvrez comment identifier et surmonter les restrictions de requêtes lors du scraping. Vous allez maîtriser les techniques pour contourner judicieusement la limitation de requêtes imposée par les sites web.

Sous-titres
Résumé textuel

Voir la session

Le blocage avec le user agent

10. Le blocage avec le user agent

05:33

Vous allez explorer les techniques permettant de contourner les blocages dus au user agent lors du scraping. Apprenez à simuler différents environnements de navigation pour éviter d'être détecté et bloqué par les sites web ciblés.

Sous-titres
Résumé textuel

Voir la session

Présentation de Playwright

11. Présentation de Playwright

05:46

Vous allez découvrir Playwright, un outil puissant pour automatiser la navigation sur des sites web modernes. Nous allons voir comment il permet de simuler des interactions complexes et de contourner les défis du scraping dynamique.

Sous-titres
Résumé textuel

Voir la session

Utiliser Playwright pour afficher le JavaScript

12. Utiliser Playwright pour afficher le JavaScript

09:23

Vous allez découvrir comment utiliser Playwright pour interagir avec des pages web dynamiques et extraire des données de contenus générés par JavaScript, un atout clé pour le scraping avancé.

Sous-titres
Résumé textuel

Voir la session

Interragir avec le DOM

13. Interragir avec le DOM

06:04

Découvrez comment interagir avec le DOM pour extraire des données dynamiques. Vous allez maîtriser les outils et techniques nécessaires pour manipuler et accéder au contenu généré par JavaScript.

Sous-titres
Résumé textuel

Voir la session

Les méthodes indispensables à connaître

14. Les méthodes indispensables à connaître

11:19

Vous allez découvrir les techniques essentielles pour surmonter les défis du scraping, notamment le traitement de contenu dynamique et le contournement des système anti-robot.

Sous-titres
Résumé textuel

Voir la session

Introduction à Bright Data

15. Introduction à Bright Data

00:54

Découvrez Bright Data (anciennement Luminati), une plateforme puissante pour le scraping avancé. Vous allez explorer ses fonctionnalités clés pour surmonter les obstacles comme les contenus dynamiques et les restrictions IP.

Sous-titres
Résumé textuel

Voir la session

Tour d'horizon de la plateforme et des outils

16. Tour d'horizon de la plateforme et des outils

06:17

Vous allez découvrir une variété d'outils et de techniques utilisés pour contourner les défis du scraping web. Nous explorerons les solutions aux problèmes courants comme les blocages et les données dynamiques.

Sous-titres
Résumé textuel

Voir la session

Création de votre compte

17. Création de votre compte

03:20

Vous allez créer votre propre compte, étape essentielle avant de débuter les processus avancés de scraping. Cette base vous permettra de contourner certaines restrictions initiales.

Sous-titres
Résumé textuel

Voir la session

Utiliser un réseau de proxy résidentiel

18. Utiliser un réseau de proxy résidentiel

09:27

Vous allez découvrir comment utiliser un réseau de proxy résidentiel afin de contourner le blocage d'IP lors du scraping. Des astuces pour les sélectionner et les intégrer efficacement à vos scripts seront abordées.

Sous-titres
Résumé textuel

Voir la session

Utiliser le Web Unblocker

19. Utiliser le Web Unblocker

04:08

Vous allez découvrir les techniques pour déjouer les blocages en utilisant le Web Unblocker, une arme efficace pour assurer la continuité de votre scraping.

Sous-titres
Résumé textuel

Voir la session

Utiliser le Scraping Browser

20. Utiliser le Scraping Browser

07:07

Vous allez découvrir les techniques pour utiliser un navigateur automatisé afin d'exécuter du JavaScript et récolter des données dynamiques. Cette session clé vous permettra de surmonter les défis liés au contenu chargé dynamiquement lors du scraping.

Sous-titres
Résumé textuel

Voir la session

Rechercher sur le site

Lance une recherche parmi les centaines de ressources disponibles sur le site.

Formulaire de contact

N'hésite pas à nous contacter si tu ne trouves pas la réponse à ta question dans la FAQ.

Inscris-toi à Docstring

Pour commencer ton apprentissage.

Tu as déjà un compte ? Connecte-toi.