GithubHelp home page GithubHelp logo

resume_hh_'s Introduction

Проект 1. Анализ резюме из HeadHunter (PJ)


Оглавление

1. Описание проекта

2. Какой кейс решаем

3. Краткая информация о данных

4. Этапы работы над проектом

5. Результат

6. Выводы


Описание проекта

Проблематика: часть соискателей не указывает желаемую заработную плату, когда составляет своё резюме
Общая цель: компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе
Постановка задачи текущего проекта: преобразовать, исследовать и очистить данные представленного датасета с резюме

⬆️ к оглавлению


Какой кейс решаем

Нужно преобразовать, исследовать и очистить данные представленного датасета с резюме.

Метрика качества:
Отсутствие в итоговом датасете дубликатов, пропущенных значений, выбросов, все категориальные переменные переведены в числовой / логический вид; данные готовы к использованию в построении модели

⬆️ к оглавлению


Краткая информация о данных

Исходный датасет размещен по ссылке: https://drive.google.com/file/d/1ZfplJnpXWvzv98_4axXdXWyu-IbzBf3d/view?usp=sharing (перед запуском ноутбука его и ноутбук необходимо сохранить локально)

⬆️ к оглавлению


Этапы работы над проектом

  1. Бвзовый анализ структуры данных
  2. Преобразование данных (формирование возможных к дальнейшему использованию признаков из сложных исходных форматов; преобразование категориальных переменных (обобщение, one-hot-encoding), пересчет валюты)
  3. Разведывательный анализ данных (построение графиков зависимостей между признаками)
  4. Очистка данных (удаление дубликатов, заполнение и удаление пропусков, удаление выбросов)

⬆️ к оглавлению


Результат

Модель готова к дальнейшему использованию заказчиком для прогнозирования заработной платы

⬆️ к оглавлению


Выводы

  • исходный датасет без преобразования не пригоден для построения моделей (состоит из множества сложно представленных категориальных признаков)
  • в результате работы датасет приведен к состоянию, готовому для дальнейшего использования
  • полученный датасет имеет довольно мало числовых характеристик, что может исказить итоговый прогноз
  • по итогам проведенного анализа данных сделаны следующие основные выводы:
    • возраст большинства кандидатов находится в промежутке от 20 до 40 лет, мода распределения - 30 лет (что соответствует ожиданиям)
    • опыт работы большинства кандидатов находится в промежутке от 3-5 до 12-15 лет (мода распределения - 7 лет)
    • зарплатные ожидания большинства кандидатов укладываются в пределы 30 - 100 тыс. руб. (мода распределения - 50 тыс. руб.), но есть и значения за границей 300 тыс. руб.
    • медианный уровень заработной платы зависит от уровня образования для специалистов и служащих (где образование является требованием), для представителей рабочих профессий образование не играет определяющей роли
    • медианная ожидаемая заработная плата наиболее высока в Москве, далее идет второй по величине город РФ - Санкт-Петербург (что ожидаемо), очевидной разницы между городами-миллионниками и прочими городами не отмечено
    • обращает на себя внимание также наибольший разброс зарплат в Москве в сравнении с другими городами (большее расстояние между 1 и 3 квартилью)
    • тепловая карта распределения з/п в зависимости от уровня образования демонстрирует очевидную пользу высшего образования: соискатели с данным уровнем образования претендуют на более высокие зарплаты в течение всей трудовой жизни и, собственно трудовая жизнь у них длится дольше, также из плюсов - наиболее быстрый карьерный рост

⬆️ к оглавлению

resume_hh_'s People

Contributors

olgakopaneva avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.