Решение задачи кредитного скоринга, основанное на карточных транзакиях клиентов (банковские последовательные данные).
https://ods.ai/competitions/dl-fintech-card-transactions/data
Для проведения исследования были использованы данные опубликованные Альфа-Банком летом 2022 года в рамках ряда соревнований по кредитному скорингу в сообществе Open Data Science. Сотрудники лаборатории Data Science в Альфа-Банке публично разрешили использовать эти данные в любых научных и исследовательских целях.
Данный дата-сет занимает объём в распакованном виде около 6 ГБ в формате parquet и около 25 ГБ в виде CSV-файлов. Дата-сет содержит реальные данные клиентов, изменённые для сокрытия конфиденциальной информации. В дата-сете находится информация о 1,5 млн кредитных заявок клиентов, и 450 млн транзакций, совершённых данными клиентами за 1 год транзакционной истории.
-
gc: Библиотека для управления сборщиком мусора, используемая для освобождения памяти.
-
tqdm: Библиотека для создания прогресс-баров при выполнении итеративных операций.
-
Pandas: Библиотека для работы с табличными данными, предоставляющая структуры данных и инструменты для манипуляции ими.
-
numpy: Библиотека для работы с массивами и выполнения числовых операций.
-
matplotlib: Библиотека для создания статических, анимационных и интерактивных визуализаций.
-
seaborn: Библиотека для визуализации данных на основе matplotlib, предоставляющая высокоуровневый интерфейс для рисования привлекательных и информативных статистических графиков.
-
sklearn (scikit-learn): Библиотека для машинного обучения. Использовались следующие модули:
• train_test_split: для разделения данных на обучающие и тестовые наборы. • StratifiedKFold и KFold: для кросс-валидации. • permutation_importance: для оценки важности признаков. • roc_auc_score: для расчета AUC ROC метрики.
-
lightgbm: Библиотека для градиентного бустинга, разработанная компанией Microsoft, известная своей эффективностью и скоростью, особенно при работе с большими данными.
-
catboost: Библиотека для градиентного бустинга, разработанная компанией Яндекс, которая поддерживает как CPU, так и GPU ускорение.
-
TensorFlow/Keras: Библиотека для реализации и обучения моделей LSTM:
• tensorflow.keras.models.Sequential: Для создания последовательной модели. • tensorflow.keras.layers.LSTM: Для добавления слоев LSTM в модель. • tensorflow.keras.layers.Dense: Для создания полносвязного слоя. • tensorflow.keras.layers.Dropout: Для добавления слоев Dropout с целью регуляризации модели. • tensorflow.keras.preprocessing.sequence.pad_sequences: Для выполнения паддинга последовательностей. • tensorflow.keras.utils.to_categorical: Для преобразования меток в категориальный формат.
-
PyTorch: Библиотека для реализации и обучения моделей LSTM:
• torch: Основная библиотека PyTorch. • torch.nn: Для создания нейронных сетей и различных слоев. • torch.optim: Для реализации оптимизаторов, используемых при обучении моделей. • torch.utils.data.DataLoader: Для создания загрузчиков данных. • torch.utils.data.TensorDataset: Для создания наборов данных из тензоров.
- Норгей Билинский
- (https://github.com/NorgeyBilinskiy)