The alura_cash from mvsampaio98

alura_cash's Introduction

Descrição

Boas-vindas!

Você foi contratado(a) como pessoa cientista de dados para trabalhar em um banco digital internacional chamado Alura Cash. Na primeira reunião do seu novo trabalho, a diretoria financeira informa que, recorrentemente, estão surgindo pessoas inadimplentes após a liberação de créditos. Portanto, é solicitada uma solução para que seja possível diminuir as perdas financeiras por conta de pessoas mutuarias que não quitam suas dívidas.

Como cientista de dados, você sugere um estudo das informações financeiras e de solicitação de empréstimo para encontrar padrões que possam indicar uma possível inadimplência.

Desse modo, você solicita um conjunto de dados que contenha as informações de clientes, da solicitação de empréstimo, do histórico de crédito, bem como se a pessoa mutuaria é inadimplente ou não. Com esses dados, você sabe que consegue modelar um classificador capaz de encontrar potenciais clientes inadimplentes e solucionar o problema do Alura Cash.

Semana 1

Objetivos:

Instalar MySQL Workbench e importar database dump.
Entender quais informações o conjunto de dados possui.
Analisar quais os tipos de dados.
Verificar quais são as inconsistências nos dados.
Corrigir as inconsistências nos dados.
Unir as tabelas de dados de acordo com os IDs.
Traduzir as colunas.
Exportar a tabela de dados unidos como csv.

1. Primeiramente foi instalado o SGBD MySQL Workbench e importado o database dump, disponibilizado pela Alura Cash aqui.

Instalar MySQL Workbench e importar database dump.

2. A segunda tarefa fiu entender o conjuntos de dados disponibilizados. São 4 tabelas que são explicadas abaixo:

• dados_mutuarios: Tabela contendo os dados pessoais de cada solicitante;

• emprestimos: Tabela contendo as informações do empréstimo solicitado;

• historicos_banco: Histório de emprétimos de cada cliente;

• id: Tabela que relaciona os IDs de cada informação da pessoa solicitante.

Entender quais informações o conjunto de dados possui.

3. A terceira etapa solicita a análise dos tipos de dados. Neste link foi fornecido o dicionário da Alura Cash, porém os tipos não foram especificados. Abaixo representei em tabelas os tipos de cada coluna do dataset:

dados_mutuarios

Feature	Tipo
`person_id`	VARCHAR(16)
`person_age`	INT
`person_income`	INT
`person_home_ownership`	VARCHAR(8)
`person_emp_length`	DOUBLE

emprestimos

Feature	Tipo
`loan_id`	VARCHAR(16)
`loan_intent`	VARCHAR(32)
`loan_grade`	VARCHAR(1)
`loan_amnt`	INT
`loan_int_rate`	DOUBLE
`loan_status`	INT
`loan_percent_income`	DOUBLE

historicos_banco

Feature	Tipo
`cb_id`	VARCHAR(16)
`cb_person_default_on_file`	VARCHAR(1)
`cb_person_cred_hist_length`	INT

id

Feature	Tipo
`person_id`	VARCHAR(16)
`loan_id`	VARCHAR(16)
`cb_id`	VARCHAR(16)

Analisar quais os tipos de dados.

4. Optei por traduzir as colunas primeiro antes de trata-las usando o seguinte comando:

ALTER TABLE nome_da_tabela RENAME COLUMN nome_antigo_da_coluna TO nome_novo_da_coluna;

Alguns registros das tabelas estão em inglês. Optei por traduzi-las também.

UPDATE nome_da_tabela SET nome_da_coluna ='registro_em_ptbr' WHERE nome_da_coluna = 'registro_em_ingles';

Traduzir as colunas.

5. Algumas da insconsistências de dados foram valores em branco nas colunas de ID.

Verificar quais são as inconsistências nos dados.

6. Essas insconsistências foram removidas, visto que sem o ID não seria possível fazer EDA desses registros.

Corrigir as inconsistências nos dados.

7. Para unificar as tabelas foi utilizado o comando INNER JOIN, no arquivo .SQL tem todos os detalhes de como foi feito tanto o tratamento quanto a união das tabelas.

Unir as tabelas de dados de acordo com os IDs.

8. A tabela foi exportada no formato .CSV para ser utilizada na semana seguinte.

Exportar a tabela de dados unidos como csv.

Semana 2

Na segunda semana, foi proposto fazer uma limpeza nos dados para remover possíveis outliers. Em seguida, elaborar modelos de ML capaz de prever se o cliente era adimplente ou inadimplente, comparar as diversas técnicas utilizadas e escolher o modelo que melhor generalizava nosso problema. Por último, o modelo foi otimizado e exportado para ser utilizado em dados futuros desconhecidos.

Toda essa semana foi explicada e desenvolvida neste arquivo Jupyter Notebook

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.