Contourner les obstacles au scraping

Dans cette formation, nous allons voir comment contourner les principaux obstacles qui peuvent survenir lors de la récolte de données sur un site web : contenu servi via JavaScript, blocage de l'adresse IP, captchas...
Commencer le la formation
  • grade grade grade
    Intermédiaire
  • schedule 1 heures 35 minutes
  • list 20 sessions
Introduction

1. Introduction

01:50

Découvrez les fondamentaux du scraping et préparez-vous à surmonter ses défis. Vous allez explorer les problématiques communes et les solutions efficaces pour extraire des données web malgré les obstacles techniques.

  • Sous-titres
  • Résumé textuel
Voir la session
Ce que dit la loi

2. Ce que dit la loi

01:00

Vous allez explorer la dimension légale du scraping, avec un focus sur la jurisprudence et une affaire impliquant LeBonCoin. Nous aborderons la légalité des pratiques de récolte de données et l'importance de consulter un avis juridique pour sécuriser vos activités de scraping.

  • Sous-titres
  • Résumé textuel
Voir la session
Le RGPD

3. Le RGPD

01:20

Découvrez les implications du RGPD dans le domaine du scraping et comment ces réglementations affectent la collecte de données. Nous aborderons les bonnes pratiques pour rester conforme.

  • Sous-titres
  • Résumé textuel
Voir la session
L'affaire Entreparticuliers.com VS LeBonCoin

4. L'affaire Entreparticuliers.com VS LeBonCoin

01:05

Vous allez explorer les défis du scraping à travers le cas Entreparticuliers.com contre LeBonCoin, en découvrant des stratégies pour surmonter les contentieux juridiques et techniques.

  • Sous-titres
  • Résumé textuel
Voir la session
Exemples de scraping licite et illicite

5. Exemples de scraping licite et illicite

02:56

Découvrez les frontières légales du scraping web. Vous allez apprendre à différencier les techniques légales des pratiques à éviter, essentielles à la collecte éthique de données.

  • Sous-titres
  • Résumé textuel
Voir la session
Le scraping éthique

6. Le scraping éthique

03:59

Vous allez découvrir les principes du scraping éthique pour collecter les données sans enfreindre les règles. L'accent sera mis sur les pratiques responsables et respectueuses.

  • Sous-titres
  • Résumé textuel
Voir la session
Le fichier robots.txt

7. Le fichier robots.txt

04:08

Vous allez explorer le rôle et la structure du fichier robots.txt, essentiel pour comprendre les autorisations de scraping d'un site. Vous découvrirez comment interpréter ses directives pour scraper de manière éthique.

  • Sous-titres
  • Résumé textuel
Voir la session
Les blocages techniques

8. Les blocages techniques

04:09

Découvrez les méthodes pour surmonter les verrous technologiques en scraping. Vous allez identifier et déjouer les mécanismes qui bloquent l'accès aux données comme les contenus dynamiques ou les protections anti-bot.

  • Sous-titres
  • Résumé textuel
Voir la session
Le blocage par limitation des requêtes

9. Le blocage par limitation des requêtes

07:09

Découvrez comment identifier et surmonter les restrictions de requêtes lors du scraping. Vous allez maîtriser les techniques pour contourner judicieusement la limitation de requêtes imposée par les sites web.

  • Sous-titres
  • Résumé textuel
Voir la session
Le blocage avec le user agent

10. Le blocage avec le user agent

05:33

Vous allez explorer les techniques permettant de contourner les blocages dus au user agent lors du scraping. Apprenez à simuler différents environnements de navigation pour éviter d'être détecté et bloqué par les sites web ciblés.

  • Sous-titres
  • Résumé textuel
Voir la session
Présentation de Playwright

11. Présentation de Playwright

05:46

Vous allez découvrir Playwright, un outil puissant pour automatiser la navigation sur des sites web modernes. Nous allons voir comment il permet de simuler des interactions complexes et de contourner les défis du scraping dynamique.

  • Sous-titres
  • Résumé textuel
Voir la session
Utiliser Playwright pour afficher le JavaScript

12. Utiliser Playwright pour afficher le JavaScript

09:23

Vous allez découvrir comment utiliser Playwright pour interagir avec des pages web dynamiques et extraire des données de contenus générés par JavaScript, un atout clé pour le scraping avancé.

  • Sous-titres
  • Résumé textuel
Voir la session
Interragir avec le DOM

13. Interragir avec le DOM

06:04

Découvrez comment interagir avec le DOM pour extraire des données dynamiques. Vous allez maîtriser les outils et techniques nécessaires pour manipuler et accéder au contenu généré par JavaScript.

  • Sous-titres
  • Résumé textuel
Voir la session
Les méthodes indispensables à connaître

14. Les méthodes indispensables à connaître

11:19

Vous allez découvrir les techniques essentielles pour surmonter les défis du scraping, notamment le traitement de contenu dynamique et le contournement des système anti-robot.

  • Sous-titres
  • Résumé textuel
Voir la session
Introduction à Bright Data

15. Introduction à Bright Data

00:54

Découvrez Bright Data (anciennement Luminati), une plateforme puissante pour le scraping avancé. Vous allez explorer ses fonctionnalités clés pour surmonter les obstacles comme les contenus dynamiques et les restrictions IP.

  • Sous-titres
  • Résumé textuel
Voir la session
Tour d'horizon de la plateforme et des outils

16. Tour d'horizon de la plateforme et des outils

06:17

Vous allez découvrir une variété d'outils et de techniques utilisés pour contourner les défis du scraping web. Nous explorerons les solutions aux problèmes courants comme les blocages et les données dynamiques.

  • Sous-titres
  • Résumé textuel
Voir la session
Création de votre compte

17. Création de votre compte

03:20

Vous allez créer votre propre compte, étape essentielle avant de débuter les processus avancés de scraping. Cette base vous permettra de contourner certaines restrictions initiales.

  • Sous-titres
  • Résumé textuel
Voir la session
Utiliser un réseau de proxy résidentiel

18. Utiliser un réseau de proxy résidentiel

09:27

Vous allez découvrir comment utiliser un réseau de proxy résidentiel afin de contourner le blocage d'IP lors du scraping. Des astuces pour les sélectionner et les intégrer efficacement à vos scripts seront abordées.

  • Sous-titres
  • Résumé textuel
Voir la session
Utiliser le Web Unblocker

19. Utiliser le Web Unblocker

04:08

Vous allez découvrir les techniques pour déjouer les blocages en utilisant le Web Unblocker, une arme efficace pour assurer la continuité de votre scraping.

  • Sous-titres
  • Résumé textuel
Voir la session
Utiliser le Scraping Browser

20. Utiliser le Scraping Browser

07:07

Vous allez découvrir les techniques pour utiliser un navigateur automatisé afin d'exécuter du JavaScript et récolter des données dynamiques. Cette session clé vous permettra de surmonter les défis liés au contenu chargé dynamiquement lors du scraping.

  • Sous-titres
  • Résumé textuel
Voir la session

Rechercher sur le site

Formulaire de contact

Inscris-toi à Docstring

Pour commencer ton apprentissage.

Tu as déjà un compte ? Connecte-toi.