Проект 1. Анализ резюме из HeadHunter (PJ)

Проблематика: часть соискателей не указывает желаемую заработную плату, когда составляет своё резюме
Общая цель: компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе
Постановка задачи текущего проекта: преобразовать, исследовать и очистить данные представленного датасета с резюме

⬆️ к оглавлению

Какой кейс решаем

Нужно преобразовать, исследовать и очистить данные представленного датасета с резюме.

Метрика качества:
Отсутствие в итоговом датасете дубликатов, пропущенных значений, выбросов, все категориальные переменные переведены в числовой / логический вид; данные готовы к использованию в построении модели

⬆️ к оглавлению

Краткая информация о данных

Исходный датасет размещен по ссылке: https://drive.google.com/file/d/1ZfplJnpXWvzv98_4axXdXWyu-IbzBf3d/view?usp=sharing (перед запуском ноутбука его и ноутбук необходимо сохранить локально)

⬆️ к оглавлению

Этапы работы над проектом

Бвзовый анализ структуры данных
Преобразование данных (формирование возможных к дальнейшему использованию признаков из сложных исходных форматов; преобразование категориальных переменных (обобщение, one-hot-encoding), пересчет валюты)
Разведывательный анализ данных (построение графиков зависимостей между признаками)
Очистка данных (удаление дубликатов, заполнение и удаление пропусков, удаление выбросов)

⬆️ к оглавлению

Результат

Модель готова к дальнейшему использованию заказчиком для прогнозирования заработной платы

⬆️ к оглавлению

Выводы

исходный датасет без преобразования не пригоден для построения моделей (состоит из множества сложно представленных категориальных признаков)
в результате работы датасет приведен к состоянию, готовому для дальнейшего использования
полученный датасет имеет довольно мало числовых характеристик, что может исказить итоговый прогноз
по итогам проведенного анализа данных сделаны следующие основные выводы:
- возраст большинства кандидатов находится в промежутке от 20 до 40 лет, мода распределения - 30 лет (что соответствует ожиданиям)
- опыт работы большинства кандидатов находится в промежутке от 3-5 до 12-15 лет (мода распределения - 7 лет)
- зарплатные ожидания большинства кандидатов укладываются в пределы 30 - 100 тыс. руб. (мода распределения - 50 тыс. руб.), но есть и значения за границей 300 тыс. руб.
- медианный уровень заработной платы зависит от уровня образования для специалистов и служащих (где образование является требованием), для представителей рабочих профессий образование не играет определяющей роли
- медианная ожидаемая заработная плата наиболее высока в Москве, далее идет второй по величине город РФ - Санкт-Петербург (что ожидаемо), очевидной разницы между городами-миллионниками и прочими городами не отмечено
- обращает на себя внимание также наибольший разброс зарплат в Москве в сравнении с другими городами (большее расстояние между 1 и 3 квартилью)
- тепловая карта распределения з/п в зависимости от уровня образования демонстрирует очевидную пользу высшего образования: соискатели с данным уровнем образования претендуют на более высокие зарплаты в течение всей трудовой жизни и, собственно трудовая жизнь у них длится дольше, также из плюсов - наиболее быстрый карьерный рост

⬆️ к оглавлению

olgakopaneva / resume_hh_ Goto Github PK

resume_hh_'s Introduction

Проект 1. Анализ резюме из HeadHunter (PJ)

Оглавление

Описание проекта

Какой кейс решаем

Краткая информация о данных

Этапы работы над проектом

Результат

Выводы

resume_hh_'s People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs