Manipulation fichier word et pdf
bonjour,
j'espère que tout le monde va bien ?
on me demande de récupérer dans des fichiers word et pdf , des remarques de retour de chantier sauf que il y a beaucoup de fichier et vue que c'est une tâche repetitive, je me dis pourquoi mettre en pratique notre python préfère.
de fait, est ce cela vous semble deja possible, si oui, est ce que le module panda sera le plus adapté ? dans mon idee de débutant, je souhaiterais récupérer ces infos et les archives dans un fichier excel pour pouvoir les modifier par la suite.
une fois modifié je souterais intégrées cela dans une petite application pour un futur, pour mettre dans une sorte de template.
désolé je n'ai pas forcément le bon vocabulaire. si pas clair n'hésitez pas a me contacter.Merci d'avance
Salut, ça va bien merci et toi ? =D
Avec Python, tu peux tout faire ah ah ! Pour récupérer des informations depuis des fichiers Word et PDF, tu auras besoin de modules spécifiques, comme python-docx pour les fichiers Word et PyPDF2 ou pdfplumber pour les PDF.
Voici une petite ébauche de ce que tu pourrais faire:
- Lire les fichiers Word :
from docx import Document
def lire_word(fichier):
doc = Document(fichier)
contenu = [p.text for p in doc.paragraphs]
return contenu
- Lire les fichiers PDF :
import pdfplumber
def lire_pdf(fichier):
with pdfplumber.open(fichier) as pdf:
contenu = [page.extract_text() for page in pdf.pages]
return contenu
Pour l'archivage dans Excel, tu as raison de penser à utiliser pandas. C'est une excellente librairie pour manipuler des données et les exporter sous divers formats, y compris Excel. Je l'utilise beaucoup moi même.
- Créer un DataFrame pandas et le sauvegarder en fichier Excel :
import pandas as pd
# Imaginons que tu as une liste de remarques
remarques = [...]
# Créer un DataFrame à partir de tes données
df = pd.DataFrame({'Remarques': remarques})
# Sauvegarder dans un fichier Excel
df.to_excel("remarques_chantier.xlsx")
Commence petit à petit, d'abord par extraire les données, puis les manipuler avec pandas, et finalement, tu pourras aller vers le développement de l'application.
J'ai fais plusieurs mentorats sur pandas et il y en a aussi sur la manipulation word et même pdf il me semble.
Nh'ésites pas si tu as d'autres questions !
A +
Inscris-toi
(c'est gratuit !)
Tu dois créer un compte pour participer aux discussions.
Créer un compte