ia-z / ia-z Goto Github PK

Dépôt pour le cours d'IA par la communauté @DefendIntelligence.

Shell 19.29% Python 79.13% CSS 1.59%

artificial-intelligence machine-learning teaching-materials francophone deep-learning nlp computer-vision reinforcement-learning big-data timeseries

ia-z's Issues

[Modif] Revoir chapitre 2 - Eléments de définition

Il faudrait s'assurer que les images qui sont utilisées soient bien open sources. Idéalement nous utiliserions que des images à nous (à moins que cela nuise à la compréhension du lecteur).
De plus, on s'est rendu compte avec TheBatz qu'il manquait la notion de fonction de loss dans ce chapitre. Il faudrait une introduction générale au concept d'apprentissage d'un modèle (définition d'un modèle de ML, évaluation sur une loss, apprentissage défini en tant que minimisation de cette loss). On pourrait peut-être parler de la différence entre les hyperparamètres et les paramètres d'un modèle ? Peut-être qu'il faudrait aussi mentionner la différence entre les modèles paramétriques et les non-paramétriques ?

[Ecriture] Chapitre 10 - Métriques

Après avoir vu la MSE (et le R² ?) dans le chapitre 3, l'accuracy dans le chapitre 4 et probablement une autre métrique dans le chapitre 7, il faut présenter un ensemble de métriques ici. Les anciennes métriques peuvent être représentées afin d'être plus complet et que le lecteur n'ait pas à se réferrer aux chapitres d'introductions.
En vrac, une petite liste de métriques envisageables :

Accuracy / Precision / Recall / F1
MSE / MAE
AUC / ROC

Il faudrait à chaque fois préciser l'intérêt de chaque métrique lorsqu'elle est introduite.

Plan RL

plan proposé par @AntoninLagarrigue (Discord : Zinzolin)

Module I: Introduction
Notions fondamentales

Introduction
Bandit Multi-armes
Processus de décision markoviens
Programmation Dynamique

Module II: Notions générales
Les algos de RL

Monte Carlo
TD Learning
Conclusion sur les méthodes tabulaires

Module III: Spécialisé ++
Deep Reinforcement Learning
1. Deep Q-Learning
2. Policy Gradient
3. Actor Critic

[Ecriture] Chapitre 4 - Classification avec K-NN

Ce chapitre devrait couvrir les points suivants :

Présentation rapide de la classification en ML (déjà introduite dans le chapitre 2)
Présentation du modèle K-NN en tant que modèle de classification
Présentation de la métrique d'accuracy en tant que métrique d'évaluation d'une tâche de classification
Petit exemple sur sklearn (faudrait-il faire un exemple codé à la main ? cf chapitre 3 où la même discussion se pose)

[Ecriture] Chapitre I - Introduction

[Ecriture] Chapitre 9 - Introduction clustering avec KMeans

Ce chapitre sera le premier chapitre parlant du clustering. La méthode KMeans y est présentée en tant qu'exemple.

Plan CV

plan proposé par: @Otsutsukii @RonyAbecidan (Discord : Tao & Rony)

Module I: Introduction

Presentation générale, task, domaine, contexte

Module II: Notions générales

Traditional CV (SIFT, BRIEF, FLANN, Hough, transforms, Geometric, hashing, bag-of-words approach)
ML CV, CamShift or Other shallow classifier, like Boosting, Adaboost based on traditional CV feature
ImageNet CNN (loss, cnn backprog, kernels, filters)
Deep CNN, Resnet, VGG, Inception, Residual Connections, Vision Transformer
Tasks in CV (Post estimation, GAN, Image retrieval, Image classification, Person, Re-identification, Image segmentation, image tracking etc.)

Module III: Spécialisé ++

Plan ML

plan proposé par : @Futurne (Discord : PierrotLeCon)

Module I: Introduction
1. Pourquoi ML
2. Éléments de définition
3. Regression avec LR (MSE)
4. Classification avec Knn (Accuracy)
5. Généralisation d'un modele de ml
6. Régularisation et compromis biais-variance : une introduction
7. Régularisation
8. Compromis biais-variance
9. Intro Clustering: Kmeans
10. Métrics (precision, f1 score, AUC, ROC, ...)
11. Feature engineering

Module II: Modèles Généraux
- Régression Logistique
- PCA (?)
- Decision Tree: Gini score -> Random Forest
- Naive Bayes (?)
- SVM (?)
- Kernel
- Gaussian Mixture Model
- Bayesian Learning (?)
- Feed Forward

Futurs modules: Spécialisés ++

Plan NLP

plan proposée par : @Serenalyw (Discord : Serena)

Chapitre I: Introduction

Présentation du NLP

Plan du cours

Prérequis
Plan

Etude des données textuelles

différences avec les données structurées et quels enjeux en découlent
Pré-traitements:
- Stemming
- Lemmatisation
- Régularisation des expressions
- Supression des Stop Words
- Tokenisation

Chapitre II: Notions générales

Modélisation statistique du langage

Vectorisation de texte : bow, tf-idf
Modélisation de topics : LDA
Limite des modèles statistiques

Modèles de langues

Modèle unigram/bigram/ngram
Perplexité
Mise en pratique:
- Classification unigram/bigram utilisant Naive Bayes/Multinomial Bayes (Comparaison précision unigram et bigram)
- Génération de texte ngram utilisant une chaîne de Markov

Embeddings

Word2Vec : modèle skip-gram et CBow
Glove : Global Vectors
Mesure de la similarité:
- Cosine similarity
- Dot product
Exploration de topics: tSNE

Chapitre III: NLP & Deep Learning

Les réseaux de neurones récurrents

RNN
(Problème du vanishing gradient)
GRU
LSTM
Transformers (Parenthèse sur BERT)
(Possibilité de réutiliser le TP de Pierrot)

Pipelines NLP

Image to Text (CLIP openAI)
Text to Speech / Speech to Text
Text to Image (DALL-E openAI)

Plan Soft. Eng & Big Data

plan réalisé par : @LPauzies et @adriengoleb (Discord : Adrien & Cair0n)

Module I: Introduction

Le Big data, c’est quoi ? (Introduction)

La définition d’une donnée (Qu’est ce qu’une data ? Qualitative vs quantitative etc …)
Comment sont stockées nos données ? Sous quel format ?
L’avènement du Big Data (Définir pourquoi ? et définition des enjeux associés)
Quelle est la place des Big data au quotidien ?
Le Big Data dans le contexte de l’IA (rappel des enjeux)

Module II: Notions générales

Les principales structures de bases de données

Définition du paysage des types de bases de données à schématiser

Bases de données relationnelles et ses limites

Bases de données relationnelles Sur un exemple basique de bdd avec exemple de requête sur cette même base pour être assez rapide
Optimisation de requêtes de BDD rel (algo d’indexation , etc …)
Les limites des bases SGDR
L’avènement du Big Data et les bases No SQL (tableau récap de comparaison)

Principales caractéristiques des NOSQL BD

Concepts généraux des BDD Nosql
Systèmes clé/valeurs (Présentation globale + citer ressources sur internet)
Systèmes colonnes (Présentation globale + citer ressources sur internet)
Systèmes Documents (Présentation globale + citer ressources sur internet)
Systèmes graphes (Présentation globale + citer ressources sur internet)
Théorème de CAP

Relationelles, non relationnelles ? un choix à faire selon le contexte

Petite partie méthodo pour faire comprendre au lecteur qu’une BDD SQL peut sufir…

Module III: Spécialisé ++

Systèmes et Algorithmes distribuées

Contexte appliqué dans l’IA
Systèmes et fichiers distribués
Définition et notions principales (citées des ressources internet)
HDFS
– gestion de fichiers Hadoop Hive Algorithme distribué, le Map Reduce (sur un exemple)
Fonction Map Fonction Reduce
Apache Spark Architecture et librairies (citées des ressources internet)
Pyspark (Présentation d’un projet)
Scala (Présentation d’un projet)

Cloud Computing

Introduction au Cloud
Présentation de plusieurs technos AWS/Azure/GCP
Comment faire un projet Cloud sur une de ces technos lorsqu'on est étudiant ? Faire des projets à moindre coût.

Data Engineering

DevOps

[BUG] Links not working on the main page

Links at the bottom of the main page are not working :

[Ecriture] Chapitre 9: Classification

[Ecriture] BDD relationnelles et ses limites

Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats.

Plan proposé par : @AntoninLagarrigue (Discord : Zinzolin) et @tanguyesteoule (Discord : PhPMan)

Du théorique au concret (avec des exemples réels)

- L'IA confrontée à la réalité
(Essaie de montrer la différence entre faire des challenges sur kaggle et faire un vrai projet de data science de bout en bout. Quelles questions pratiques on sera amené à se poser. Je pense qu'on peut le faire sous forme de liste, genre les "X commandements de l'IA" ou un truc dans le style ^^)
- Quel protocole d'évaluation pour quel usage ?
- Les métriques sont-elles représentatives de l'usage ?
- Adapter la complexité du modèle en fonction des besoins (Penser itératif, ne pas réinventer la route)
- Conditions opérationnels
- Fuites de données
- Monitoring des prévisions
- Test avec données synthétiques
- Importance de la qualité des données + que du tunning des algos
- Comparaison à d'autres méthodes naïves/basiques/standards

- Aspects éthiques
(Ici c'est plutôt les points éthiques/morales qu'il faut garder en tête lorsqu'on attaque un sujet d'IA. Avec des exemples concrets de cas qui ont vraiment existés, sur les facebook files, cambridge analytica, zillow, ...)
- Point sur les impacts de l'IA dans nos vie, et les risques associés
- Ethique des données (anonymat, biais présents dans les données, recoupement de plusieurs datasets...)
- Usage détournée (désinformation/discrimination). Responsabilité du data scientist
- Excès de confiance (les modèles de ML ne sont pas infaillibles, il n'y a rien de magique), non neutralité des algos (il y a toujours des choix derrière les algos)
- Biais discricrimation/exclusion, parfois volontaires souvent négligés
- Autonomie des algos, controle/ garde-fous
- Manque de transparence

- Limites/Dangers de l'IA
(Se rapproche un peu de l'éthique sur certains points, mais peut être plus d'un point de vue technique.)
- Poisoning
- Adversarial attack
- Usage détourné

A insérer dans le plan

Un sur les problèmes concrets techniques (Peu de données, Déséquilibre des classes, fuites de données, ...) qui sont déjà utiles pour des challenges type kaggle qui reflètent pas forcément la réalité du métier.
Un qui se concentre plus sur "Comment définir le cadre d'un projet de data science ?" si celui ci n'est pas donné par un exercice ou par un challenge (parce qu'en général on va tous commencer là avant de se lancer dans un vrai projet perso/pro). Dans ce cas là on se pose toujours beaucoup de questions : Quel protocole d'évaluation ? Quelles métriques ? Par quel type de modèle commencer ? Quelles données ? Est-ce que mon modèle va bien répondre à mon problème ? A quoi se comparer ? .... . L'idée c'est de donner quelques pistes / exemples (tirés de nos expériences respectives) pour savoir un peu dans quelle direction partir.
utiliser le dataset house price aussi, c'est un classique et il parle à tout le monde (features m carré, nombre de chambres ...)

[Ecriture] Chapitre III - NLP & Deep Learning

[Ecriture] Introduction Big Data

Readme

Définition du scope du cours (pas assez clair).

[Ecriture] Chapitre 10: Clustering

[Écriture] Bandits

#5- Mener une recherche

Sous-partie concernée

Mener des recherches

Proposition de titre

Mener une recherche internet efficacement

Description du cours

Une introduction rapide à l'utilité de savoir mener une recherche internet correctement.
Suivie d'une liste de conseils et points clés pour bien chercher sur la toile.
2 méthodes pour mener des recherches classiques dans le cadre du cours sur les data sciences.

Première version très simplifiée, plutôt sous forme de liste d'idées directrices que de réel cours.
Structure et mise en page à retravailler.
Version odt :
mener_une_recherche.odt

Version Markdown :
mener_une_recherche.md

Informations supplémentaires

Je peux l'écrire
J'ai déjà du matériel
Je recherche un-une co-auteur

Plan Big data

Version détaillée du plan du chapitre ci-dessous

Définition d'une donnée (Introduction)

La définition d’une donnée (Qu’est-ce qu’une data ? Qualitative vs quantitative etc …)
Structurées/Non structurées
Comment sont collectées/stockées nos données ? Sous quel format ?
Cloud

Le Big data, c’est quoi ?

Les limites du modèle relationnel
L’avènement du Big Data (4V + Définir pourquoi ? et définition des enjeux associés)
Quelle est la place des Big data au quotidien ?
Les données, l’or noir de l’IA, entre enjeux et désillusions.
- Qualité de la donnée (Implique préprocessing)
- Une gouvernance nécessaire au sein des organisations
- RGPD

Définition du projet fil rouge, fil conducteur du chapitre

Définition du contexte

Paysage des structures de bases de données

Définition du paysage des types de bases de données à schématiser

Bases de données relationnelles et ses limites

Bases de données relationnelles Sur un exemple basique de bdd avec exemple de requête sur cette même base pour être assez rapide
Optimisation de requêtes de BDD rel (algo d’indexation , etc …)
Les limites des bases SGDR
Projet Fil rouge (sql)

Principales caractéristiques des NOSQL BD

L’avènement du Big Data et les bases No SQL (tableau récap de comparaison)
Concepts généraux des BDD Nosql
Systèmes clé/valeurs (Présentation globale + citer ressources sur internet)
Systèmes colonnes (Présentation globale + citer ressources sur internet)
Systèmes Documents (Présentation globale + citer ressources sur internet)
Systèmes graphes (Présentation globale + citer ressources sur internet)
Théorème de CAP

Relationelles, non relationnelles ? un choix à faire selon le contexte

Petite partie méthodo pour faire comprendre au lecteur qu’une BDD SQL peut sufire…
Appel projet fil rouge (no sql)

Systèmes et Algorithmes distribuées

Contexte appliqué dans l’IA
Systèmes et fichiers distribués
Définition et notions principales (citées des ressources internet)
HDFS
– gestion de fichiers Hadoop Hive Algorithme distribué, le Map Reduce (sur un exemple)
Fonction Map Fonction Reduce
Apache Spark Architecture et librairies (citées des ressources internet)
Pyspark
Appel projet fil rouge (pyspark ?)
Complément à citer : Scala & Julia

Cloud Computing

o Introduction au Cloud

Présentation des concepts clés
o Présentation de plusieurs technos AWS/Azure
Low code, Azure, Amazon , Data Pipeline, Versionning
Appel projet fil rouge (cloud Azure ?)

ETL & DEVops

Présentation des notions ? Pourquoi ? Quel sont les intérêts ?
Déploiement infrastructure, Tagguer les fonctionnalités, Mise à échelle
Appel projet fil rouge

ML OPS

Dev OPS Appliqué à la donnée
Appel projet fil rouge

Plan Times Series

Plan proposé : @tanguyesteoule (Discord : PhPMan)

Introduction aux séries temporelles
(C'est quoi une série temporelles concrètement ? Différentes dénominations)
1. Définition série temporelle
2. Décomposition Tendance / saisonnalité / résidu (Ici ou dans exponential smoothing forecasting)
3. Terminologie
1. Endogène / Exogène (Ajout de données différente de la time series ?)
2. Régression / Classification (Valeur numérique ou classe ?)
3. Structuré / Non structuré (Corrélations temporelles ?)
4. Univarié / Multivarié (Plusieurs variables ?)
5. Single-step / Multi-Step (Plusieurs horizon ?)
6. Statique / Dynamique (réentrainement ?)
7. Continue / Discontinue (Données à pas de temps régulier ?)

Méthodes de référence
(Présentation des méthodes historiques)
1. Méthodes naïves
1. Persistance
2. Moyenne
2. Autoregressive forecasting methods
1. ARMA
2. ARIMA
3. SARIMA
4. ARX ?
3. Exponential smoothing forecasting

Méthodes ML régression
(Présentation des méthodes ML, comme elles auront sans doute déjà été présentées on se focalise sur leurs applications aux time series)
1. Standard regression methods: GBM, SVM
2. LSTM
3. CNN

Regression times series en pratique
(A détailler un peu plus)
1. Traitement des données
1. Indicateurs temporels
2. Fenêtre glissante
2. Évaluation
1. Set de validation
2. Cross-validation (/!\ a la fuite de données, pas de shuffle)

Application : Prévision de consommation d'électricité en France
(Cas concret de prévision sur lequel j'ai eu à bosser, avec des données en libre accès)
1. Présentation du problème
2. Traitement des données
3. Implémentation des modèles
4. Évaluation

Autres cas d'applications
(Sans forcément rentrer dans les détails, donner des pistes/codes pour traiter ces problèmes moins courants)
1. Prévision séries temporelles multivariées
2. Classification (e.g., prédire activité sportive à partir données montre)
3. Prévision probabiliste

[Modif] Revoir chap. 3 - régression linéaire

Ce chapitre introduit actuellement beaucoup de choses. Après concertation avec TheBatz, on s'est dit qu'il serait plus pertinent de le revoir en enlevant les explications sur la descente de gradient ainsi que la dernière partie sur la classification binaire.

On pense que ce chapitre devrait couvrir les points suivants :

Présentation rapide sur le principe de régression (déjà couvert dans le chapitre 2)
Introduction au modèle linéaire en tant que modèle de régression
Présentation de notre fonction de loss : MSE
Résolution grâce à l'algèbre linéaire : section à classer avec deux étoiles pour signifier qu'elle peut être sautée si le lecteur n'a pas les bases mathématiques (voir chapitre sur le compromis biais-variance où une telle section a aussi été marquée avec 2 étoiles)
Exemple rapide avec une résolution à l'aide de sklearn (possibilité de montrer aussi une résolution du problème écrite à la main avec numpy à partir de la solution analytique démontrée juste avant ? à discuter !)

J'ai utilisé la métrique R² dans les chapitres sur la régularisation et le compromis biais-variance, il serait peut-être judicieux de l'introduire dans ce chapitre ?

[Relecture] - Harmonisation du site

Relecture des chapitres 1 à 7

Une branche ml-fonda-relecture a été créée, les modifs y seront faite à cet endroit.

[Ecriture] Chapitre 0 - Présentation du module 1 : introduction au ML

Afin de mieux séparer le cours de ML fonda, nous avons décidé de diviser ce cours en plusieurs modules.
Il faudrait ainsi écrire une présentation du module 1 : introduction au Machine Learning.

Les infos clefs à mettre :

Contenu du module : première approche du ML pour un lecteur totalement débutant
Introductions aux concepts généraux du ML
3 modèles basiques sont introduits : régression linéaire, K-NN et KMeans

Une fois que ce sera fait, il faudra le mettre dans le _toc.ylm en tant que chapitre d'introduction du module 1.

Présentation du NLP - Qu'est ce que le NLP (Natural Language Processing) ?

Sous-partie concernée

Applications

Proposition de titre

Présentation du NLP - Qu'est ce que le NLP (Natural Language Processing) ?

Description du cours

Présentation de la complexité du NLP (ambiguïté, dimension, variation, distribution ..).
Le périmètre du traitement automatique du langage - NLP (champs d'applications).
Systèmes symboliques vs statistiques.
Exemple de jeu de données pour les méthodes NLP statistiques.
Pipeline de traitement des systèmes NLP statistiques.
Vocabulaires, définitions de bases (mot, document, corpus).
représentations des mots (vectorisation) : BagOfWord.
Tf-IDF.

Informations supplémentaires

Je peux l'écrire
J'ai déjà du matériel
Je recherche un-une co-auteur pour :

Implémentation Python de tf-idf/tutoriel-application avec un notebook (from scratch - scikit-learn) avec une proposition d'exercices.

[Ecriture] - Chapitre II - Notions générales

Objectifs pédagogiques des modules

Module 1 : Apporter les compétences et les connaissances de base à l'élève pour qu'il puisse mener seul un projet simple (type kaggle)

Plan Soft. Eng & Big Data

Plan proposée par : @LPauzies, @adriengoleb & @MohamedBsh (Discord : Adrien - CairOn - Bsh)

Module I: Basics Hands on - Ecrire un code de qualité en Python - @MohamedBsh

Importance d'écrire du code de qualité + ressources de référence ( bases )
Cohesion et Coupling
Dependency Inversion et Dependency Injection
Design patterns et software architecture
Refactoré un projet de Data Science
Software Testing
- Théorie
- écrire un test unitaire à partir d'un code existant
- TDD

Module I: Basics Fondamentaux - Big Data - @adriengoleb

Introduction Le Big data, c’est quoi ?
1. La définition d’une donnée (Qu’est-ce qu’une data ? Qualitative vs quantitative etc …)
2. Comment sont stockées nos données ? Sous quel format ?
3. L’avènement du Big Data (4V + Définir pourquoi ? et définition des enjeux associés)
4. Quelle est la place des Big data au quotidien ?

Module II: Principes généraux

qu'est ce qu'une pipeline de données ? - @MohamedBsh
Différents façon de stocker les données (différents types de stockages : BDDs relationnelles, NoSQL / limites, introduire SQL)
Présentation de l'écosystème Hadoop - @MohamedBsh

Module II: Hands On - @MohamedBsh

Projet SQL - challenge
Projet ELT - focus Spark : Pyspark (préparation d'un dataset pour entrainement d'un modèle)

Module III: Architecture, Cloud & Ops

Docker @MohamedBsh

Modules à insérer dans le Module III

qqles idées si des personnes sont partantes & ont le temps :)

Cloud paradigm (vs Hadoop Ecosytem notamment : stockage, coût, maintenance, gain de temps), Hands On en fonctions de vos affinités parmis {AWS,GCP,Azure} des principales fonctionnalités.
Orchestration (Airflow ?)

Modules Spécialisés ++

Systèmes et Algorithmes distribuées
Streaming vs Batch
Sécurité
Observabilité
MLOps

Recommendation de blogs, d'articles et de lectures en data science / engineering, machine learning, deep learning

Sous-partie concernée

Recommandation de lectures

Proposition de titre

Recommandation de lectures

Description du cours

condensé de blogs techniques, d'articles scientifiques, de livres par et pour la communauté Defend Intelligence.

Informations supplémentaires

Je peux l'écrire
J'ai déjà du matériel
Je recherche un-une co-auteur

ia-z / ia-z Goto Github PK

ia-z's Issues

Chapitre I: Introduction

Présentation du NLP

Plan du cours

Etude des données textuelles

Chapitre II: Notions générales

Modélisation statistique du langage

Modèles de langues

Embeddings

Chapitre III: NLP & Deep Learning

Les réseaux de neurones récurrents

Pipelines NLP

Sous-partie concernée

Proposition de titre

Description du cours

Informations supplémentaires

Définition d'une donnée (Introduction)

Le Big data, c’est quoi ?

Définition du projet fil rouge, fil conducteur du chapitre

Paysage des structures de bases de données

Bases de données relationnelles et ses limites

Principales caractéristiques des NOSQL BD

Relationelles, non relationnelles ? un choix à faire selon le contexte

Systèmes et Algorithmes distribuées

Cloud Computing

ETL & DEVops

ML OPS

Sous-partie concernée

Proposition de titre

Description du cours

Informations supplémentaires

Sous-partie concernée

Proposition de titre

Description du cours

Informations supplémentaires

Recommend Projects

Recommend Topics

Recommend Org

Jobs