Bruno Caraffa's Projects
Config files for my GitHub profile.
Repository to access and manipulate data from the ERP Bling using its API.
Extracting data from sofascore API then analysing it creating different views to evaluate and compare players' performance on Brazil's top football league - Brasileirão Serie A.
Using the random forest algorithm we create a model to predict the payment of credit card bills based on clients' attributes. Data source: https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients
BarChartRace to track the development of COVID19 by city on Federal District, Brazil.
Desafio de Classificação do curso de Data Science e Machine Learning da Tera. Em um dataset de mais de 6 milhões de operações bancárias tinhamos um objetivo de realizar a previsão de fraudes. Fazendo uso de um processo de feature engineering que acrescentou 20 features ao modelo, combinado com um resampling feito através do método SMOTE. Para o treinamento criamos três modelos: Regressão Logística, Random Forest e XGBoost. Esses dois últimos performaram com precisão e recall superiores a 99%.
Desafio de clusterização de clientes feito para o IFood e Tera. Utilizando as bibliotecas Plotly, Sklearn e Yellowbrick conseguimos fazer a clusterização em 3 dimensões de forma eficiente e visual utilizando as features construídas no feature engineering a partir de bases de clientes, pedidos e sessões do iFood.
Ensemble model created for the Tera Data Science course. We stacked some models (Random Forest, Gradient Boost Trees and SVM) in order to try to obtain a better accuracy.
Desafio de Regressão para o curso de Data Science e Machine Learning da Tera. Aqui aplicamos uma regressão múltipla com seleção de 6 features e posteriormente treinamos um modelo de regressão random forest com tuning dos hiperparâmetros em que atingimos um erro médio absoluto de apenas R$ 15.400 nas previsões com um R² de 0.956
Using a 2d Convolutional Neural Network on Tensorflow we train an application to classify images with human reactions on 6 different categories: sad, happy, fear, surprised, angry or neutral. Dataset available on: https://www.kaggle.com/c/facial-keypoints-detection/data
Usando o framework FastAPI para verificar a a consistência e previsões de um modelo de regressão treinado para prever o preço de imóveis com base em suas características (dataset California Housing do Sklearn)
Inferência estatística com objetivo de levantar e confrontar hipóteses que relacionam índices de depressão na população dos EUA com hábitos saudáveis e características demográficas.
Em uma base de dados com resultados de eleição a partir de blocos de divulgação dos votos calcularemos o desvio padrão entre cada um desses blocos para verificar se há uma dispersão considerável do que seria o matematicamente esperado
Training a model and creating a linear regression on random data using the Gradient Descent Optimizer of Tensorflow
Creates a Matplotlib plot with the moving average timeline for cases and deaths since the beggining of the COVID-19 outbreak in Federal District, Brazil. Also, we plot annotations on the timeline with important events that happened over the course of the outbreak.
PCA (principal component analysis) on the breast cancer dataset of sickit learn in order to obtain a classification between the benign and malign classes