GithubHelp home page GithubHelp logo

ceres-sorbonne / europressparser Goto Github PK

View Code? Open in Web Editor NEW
0.0 1.0 1.0 8.78 MB

Parsing d'articles de presse pour extraire le contenu

License: GNU Affero General Public License v3.0

Python 79.89% HTML 16.32% Shell 2.31% Dockerfile 1.48%

europressparser's Introduction

Europarser

PyPI - Version PyPI - Python Version

Parsing d'articles de presse pour extraire le contenu et le transformer en des formats d'analyse comme TXM ou Iramuteq

This readme is also available in English


Table of Contents

Installation

PyPi

Europarser est disponible sur PyPi, vous pouvez l'installer avec pip à l'aide de la commande suivante:

pip install europarser

Vous pouvez ensuite vérifier que l'installation s'est bien passée en lançant la commande europarser --version Une fois installé, vous pouvez lancer l'interface graphique avec la commande europarser.

Docker

docker run -p 8000:8000 --name europarser ceressorbonne/europarser

Le serveur sera accessible sur localhost:8000, vous pouvez également spécifier un autre port de la manière suivante:

docker run -p [port souhaité]:8000 --name europarser ceressorbonne/europarser

Développement

Pour installer Europarser en mode développement, vous pouvez cloner le dépôt git et installer les dépendances avec pip:

git clone https://github.com/CERES-Sorbonne/EuropressParser.git
cd EuropressParser
pip install -e .

Usages

Usage basique

from pathlib import Path

from europarser.main import main
from europarser.models import Params

folder = Path('/path/to/your/articles')
# As a list, you can choose between "json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown" or any combination of them
outputs = ["json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown"]
params = Params(
    minimal_support_kw=5,
    minimal_support_authors=2,
    minimal_support_journals=8,
    minimal_support_dates=3,
)

main(folder, outputs, params=params)

Usage sous forme d'API

  1. Installez le package
pip install europarser
  1. Lancez le serveur avec la commande suivante
europarser [--host HOST] [--port PORT]
  1. Allez sur localhost:8000 (par défaut) pour accéder à l'interface de l'API

Usage en ligne de commande

  1. Installez le package
pip install europarser
  1. Utilisez la commande suivante pour parser un dossier
europarser-cli --folder /path/to/your/articles --output [one of "json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown"] [--output other_output] [--minimal-support-kw 5] [--minimal-support-authors 2] [--minimal-support-journals 8] [--minimal-support-dates 3]

Exemple

europarser-cli --folder /path/to/your/articles --output json --output txm --minimal-support-kw 5 --minimal-support-authors 2 --minimal-support-journals 8 --minimal-support-dates 3

License

europarser est distribué sous les termes de la licence AGPLv3.

europressparser's People

Contributors

marceau-h avatar tyrannas avatar julienbez avatar bmaz avatar

Watchers

 avatar

Forkers

bmaz

europressparser's Issues

Ajout d'ID

Hi²,

Ca serait chouette dans l'export d'avoir des ID ajoutés.

Quand je travaille avec Rainette je remouline l'export dans un script pour les rajouter (*Id_1, *Id_2...)
Pour TXM, ça permettrait de parcourir article par article également.

Merci !

EB

amélioration du débruitage

Hello,

Proposition pour 'améliorer' la restructuration des données dans Europarser :

1 - ajout d'une métadonnées "web" avec valeur "oui" ou "non" pour indiquer avec plus de précision le lieu de publication de l'article (ouvre des potentialités de comparaisons)

2 - Régulièrement dans les articles il y a dans le texte du bruit qui reste. Peut-être à supprimer ?
2.1 - "Cet article est paru dans..." : ça a toujours la même forme dans le html : <a href ...... . A priori rien d'autre n'a cette forme.
2.2 - "illustration" + du détail placé entre parenthèse : peut-être à supprimer également
2.3 - "Mis à jour le xx/xx/xx à xxhxx" ou "Mis à jour le xx.xx.xx à xx:xx" (les formes sont interchangeables).
2.4 "Article à lire aussi", "article à lire du jour", "à lire aussi"... Peut-être un peu plus compliqué ici car la forme change régulièrement, mais rajoute du bruit dans le texte en mentionnant des occurences qui n'ont pas à voir avec ce qui est traité dans les articles. Mérite peut-être une réflexion

Compatibilité Iramuteq

Hi,

Pour que la sortie Iramuteq soit bien compatible il faut modifier la var *Journal_Clean_Blablabla en JournalClean_Blablabla

Merci!

EB

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.