Ce projet de recherche implémente une classification de texte pour identifier l'affiliation politique des parlementaires européens à partir de leurs discours, en se focalisant sur le corpus en français. Différents classificateurs ont été appliqués et évalués pour déterminer le plus performant.
Le corpus comprend des discours du Parlement européen en français. Les données ont été extraites de fichiers XML, normalisées, et traitées pour la classification. Le prétraitement comprend la normalisation de la casse, la suppression des mots vides, des caractères spéciaux et des chiffres.
- Processus : Utilisation de TF-IDF pour convertir les discours en vecteurs, en tenant compte de la fréquence des mots tout en équilibrant leur importance à travers différents documents.
- Configuration : Paramètre
max_df
réglé à 0.6 pour filtrer les mots qui apparaissent fréquemment, améliorant ainsi la distinction entre les catégories.
Plusieurs modèles de classification ont été explorés :
- Application : Testé avec et sans rééquilibrage des classes. Amélioration notable de la performance avec rééquilibrage.
- Particularités : Paramètre d'apprentissage ajusté pour gérer les déséquilibres de catégories.
- XGBoost
- LightGBM
Des expérimentations ont été menées pour chaque modèle, et les performances ont été évaluées en termes de précision, rappel, score F1, et support. Le projet a mis en lumière des différences significatives dans les performances des divers classificateurs.
- Xinhao Zhang
- Yingzi Liu
- Xiaohua Cui