Ce programme écrit en Python récupère toutes les vulnérabilités d'un fichier d'analyse Checkmarx et les intégres dans un fichier Excel.
- Clonez le dépôt :
git clone https://github.com/nico-vrn/PDF_to_Excell.git
- Installez les dépendances :
pip install -r requirements.txt
-
Placez votre fichier d'analyse Checkmarx dans le répertoire du projet.
-
Exécutez le programme en utilisant la commande suivante :
python extract_pdf.py
-
Entrez le nom du fichier PDF que vous souhaitez analyser (sans l'extension .pdf).
-
Choisissez la langue du fichier PDF (fr ou en).
-
Le fichier Excel contenant les vulnérabilités et les classes sera généré dans le répertoire du projet.
Le script suit les étapes suivantes :
- Demander à l'utilisateur le nom du fichier PDF à récupérer, le nom du fichier Excel à créer et la langue du fichier PDF.
- Trouver les pages à extraire en fonction de la langue choisie.
- Extraire le texte de chaque page et le stocker dans une variable globale pour chaque page.
- Extraire les données de toutes les pages et les stocker dans une variable.
- Compter le nombre de lignes de la variable.
- Écrire le résultat dans un fichier texte nommé "data.txt".
- Supprimer les numéros de page dans les données extraites.
Les contributions sont les bienvenues ! Si vous souhaitez contribuer à ce projet, veuillez suivre les étapes suivantes :
-
Fork ce projet.
-
Créez une branche pour vos modifications :
git checkout -b ma-nouvelle-fonctionnalite
- Faites vos modifications et commit :
git commit -am 'Ajout d'une nouvelle fonctionnalité'
- Push les modifications sur votre branche :
git push origin ma-nouvelle-fonctionnalite
- Faites une pull request depuis votre branche vers la branche principale de ce projet.
Ce projet est sous licence MIT. Veuillez consulter le fichier LICENSE
pour plus d'informations.
Lefranc Nicolas : Développeur principal