GithubHelp home page GithubHelp logo

teste_data_scientist_jr's Introduction

Teste_Data_Scientist_jr


Assuma que se deseja prever a soma do número de diárias de carros a serem vendidas nos próximos 7 dias em cada agência, em função do preço médio a ser arbitrado para cada tipo de carro em cada agência.

Os dados históricos de vendas estão em um arquivo CSV (ou em uma tabela SQL) com as seguintes colunas e respectivos dados em cada linha, onde cada linha corresponde a uma venda:

  • COD_AG: código da agência

  • NUM_NOTA: número da nota fiscal

  • DATA: data correspondente à venda

  • COD_TIPO_CARRO: código do tipo de carro que foi alugado

  • NUM_DIARIAS: número de diárias vendidas

  • VALOR: valor total da nota fiscal


Note que:

Múltiplas vendas do mesmo tipo de carro podem ocorrer no mesmo dia e na mesma agência, cada uma com preço potencialmente diferente.

O preço unitário de uma diária em uma venda pode ser calculado pela divisão VALOR/NUM_DIARIAS.

A DATA pode ser assumida como um número inteiro entre 1 e 7000, onde esse número corresponde ao número de dias desde o início da operação da empresa.

Você pode assumir que há aluguel de todos os tipos de carros em todas as agências ao longo de todos os dias do histórico.


Exercícios:

Escreva o código (usando SQL; Python com Pandas ou Spark; ou R) correspondente à preparação do seguinte dataframe (ou tabela SQL) para a criação de um modelo preditivo:

  • DATA_REF: data de referência (i.e. valores correspondem a 7 dias a partir dessa data)

  • COD_AG: código da agência

  • COD_TIPO_CARRO: código do tipo de carro

  • PRECO_MEDIO: preço médio ponderado por número de diárias do tipo de carro no período de referência e na agência

  • DELTA_PRECO_MEDIO: variação percentual do preço médio ponderado entre semana anterior (entre DATA_REF-7dias e DATA_REF-1 dia, incluindo os limites) e semana atual (entre DATA_REF e DATA_REF+6 dias, incluindo os limites)

  • NUM_DIARIAS_SEMANA_ANTERIOR: número total de diárias vendidas na semana anterior (entre DATA_REF-7dias e DATA_REF-1 dia, incluindo os limites)

  • NUM_DIARIAS_SEMANA: número total de diárias vendidas na semana atual (entre DATA_REF e DATA_REF+6 dias, incluindo os limites)

Proponha conjunto de “features” adicionais que possam ajudar na previsão futura, a serem adicionadas no dataframe. Note que há uma infinidade de “features” que podem ser úteis ao se agregar as vendas por semana e ao se considerar o histórico.

Explique como faria o treinamento e o teste do modelo.

teste_data_scientist_jr's People

Contributors

bmartins25 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.