Résolue

Manipulation fichier word et pdf

# Fichiers # pandas

bonjour,
j'espère que tout le monde va bien ?
on me demande de récupérer dans des fichiers word et pdf , des remarques de retour de chantier sauf que il y a beaucoup de fichier et vue que c'est une tâche repetitive, je me dis pourquoi mettre en pratique notre python préfère.
de fait, est ce cela vous semble deja possible, si oui, est ce que le module panda sera le plus adapté ? dans mon idee de débutant, je souhaiterais récupérer ces infos et les archives dans un fichier excel pour pouvoir les modifier par la suite.
une fois modifié je souterais intégrées cela dans une petite application pour un futur, pour mettre dans une sorte de template.
désolé je n'ai pas forcément le bon vocabulaire. si pas clair n'hésitez pas a me contacter.Merci d'avance

Salut, ça va bien merci et toi ? =D

Avec Python, tu peux tout faire ah ah ! Pour récupérer des informations depuis des fichiers Word et PDF, tu auras besoin de modules spécifiques, comme python-docx pour les fichiers Word et PyPDF2 ou pdfplumber pour les PDF.

Voici une petite ébauche de ce que tu pourrais faire:

  1. Lire les fichiers Word :
   from docx import Document

   def lire_word(fichier):
       doc = Document(fichier)
       contenu = [p.text for p in doc.paragraphs]
       return contenu
  1. Lire les fichiers PDF :
   import pdfplumber

   def lire_pdf(fichier):
       with pdfplumber.open(fichier) as pdf:
           contenu = [page.extract_text() for page in pdf.pages]
       return contenu

Pour l'archivage dans Excel, tu as raison de penser à utiliser pandas. C'est une excellente librairie pour manipuler des données et les exporter sous divers formats, y compris Excel. Je l'utilise beaucoup moi même.

  1. Créer un DataFrame pandas et le sauvegarder en fichier Excel :
   import pandas as pd

   # Imaginons que tu as une liste de remarques
   remarques = [...]

   # Créer un DataFrame à partir de tes données
   df = pd.DataFrame({'Remarques': remarques})

   # Sauvegarder dans un fichier Excel
   df.to_excel("remarques_chantier.xlsx")

Commence petit à petit, d'abord par extraire les données, puis les manipuler avec pandas, et finalement, tu pourras aller vers le développement de l'application.

J'ai fais plusieurs mentorats sur pandas et il y en a aussi sur la manipulation word et même pdf il me semble.

Nh'ésites pas si tu as d'autres questions !

A +

Merci pour ton retour.
effectivement tu as fais pas mal de mentorats la dessus.
je te tiens au courant sur l'avancer.
@ +

Avec plaisir, je peux fermer la question et te laisser la rouvrir au besoin ?

yes of course

Inscris-toi

(c'est gratuit !)

Inscris-toi

Tu dois créer un compte pour participer aux discussions.

Créer un compte

Rechercher sur le site

Formulaire de contact

Inscris-toi à Docstring

Pour commencer ton apprentissage.

Tu as déjà un compte ? Connecte-toi.