Neste desafio vamos praticar a manipulação de dados utilizando a biblioteca pandas. Manipulação de dados é uma das tarefas mais fundamentais para um cientista de dados e o pandas - biblioteca mais popular do Python no assunto - ajuda a tornar essa tarefa mais agradável.
O objetivo deste desafio é extrair algumas informações quantitativas que nos ajudem a compreender a natureza dos dados à disposição e ganhar alguns insights sobre o data set.
Para isso, utilizaremos o data set Black Friday disponibilizado originalmente pela Analytics Vidhya e acessível publicamente através do Kaggle. O data set traz algumas variáveis relativas à transações comerciais realizadas durante a Black Friday em uma determinada loja de varejo. Cada observação é relativa a um determinado item comprado por um usuário e um usuário pode ter comprado mais de um item.
Neste desafios nós vamos explorar:
- Python
- Pandas
- Jupyter notebook
Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais
com o virtualenv e o arquivo requirements.txt
para instalar os pacotes dependências
do desafio:
$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt
Windows
> pip3 install virtualenv
> virtualenv ..\venv -p python3
> ..\venv\Scripts\activate
> pip install -r requirements.txt
Quando finalizado, você pode desativar o ambiente virtual do virtualenv com:
$ deactivate