my test
Проект: вариант 4
Вы аналитик в компании, которая разрабатывает приложение для обработки и оформления фотографий в формате Stories (например, для дальнейшего экспорта в Instagram Stories). Был проведен A/B тест: тестовой группе предлагалась новая модель оплаты коллекций шаблонов, контрольной – старая механика. Ваша основная задача: проанализировать итоги эксперимента и решить, нужно ли выкатывать новую модель на остальных пользователей.
В ходе отчета обоснуйте выбор метрик, на которые вы обращаете внимание. Если различия есть, то объясните, с чем они могут быть связаны и являются ли значимыми.
В ходе исследования результатов A/B тестирования было получено:
- Bootstrap тест по среднему для пользователей дает p-value > 0.05, что не позволяет отклонить нулевую гипотезу и считать статистически незначимыми различия в двух выборках.
- Bootstrap тест по среднему для клиентов дает p-value < 0.05, что позволяет отклонить нулевую гипотезу и считать статистически значимыми различия в двух выборках.
- Конверсия в тестовой и контрольной группе - одинаковая
- ARPU увеличилось на 17.98% в тестовой по сравнению с контрольной.
- ARPPU увеличились на 28.5% в тестовой по сравнению с контрольной.
Полученнные результаты свидетельствуют о том, что
- Новая модель оплаты увеличивает средний доход, ARPU и ARPPU.
- При этом конверсия из пользователя в клиента не изменилась, следовательно новых клиентов не появилось.
Учитывая тот факт, что изменения рассматриваемые в A/B тесте были связаны с новой моделью оплаты коллекций шаблонов, то полученные результаты хорошо согласуются. Клиенты - те кто готов платить и приходят в приложение именно с этой целью и именно их средний доход увеличился. Было показано, что данное изменение является статистически значимым. Пользователи же в принципе не все и не всегда доходят до формы оплаты, изменение которой рассматривается. Поэтому маловероятно, что оно могло повлиять на конверсию пользователя в клиента, а как следствие и на средний доход от пользователей.
Новую модель оплаты рекомендуется выкатить на остальных пользователей.
Проект: вариант 2 Вы – единственный аналитик в компании, на которого легла ответственность за поиск инсайтов в данных продуктовых магазинов вашей компании. На повестке 3 задачи:
В файле test1_completed.csv содержится информация о покупках людей
id – означает покупку (в одну покупку входят все товары, купленные пользователем во время 1 похода в магазин)
Товар – наименование товара
Количество – число единиц купленного товара
Воспользуйтесь этими данными и выясните, какие пары товаров пользователи чаще всего покупают вместе. По сути, вам необходимо найти паттерны покупок, что позволит оптимизировать размещение продуктов в магазине, для удобства пользователей и увеличения выручки.
1_Товар – наименование первого товара
2_Товар – наименование второго товара
Встречаемость – число раз, когда такая пара была встречена Другими словами: 2 раза люди покупали одновременно чай и арбуз, 1 раз одновременно покупали арбуз и сгущёнку и 1 раз одновременно были куплены чай со сгущёнкой.
Напишите код на python для получения нужной таблицы и укажите 5 наиболее распространённых паттернов.
Топ 5 самых покупаемых товаров вместе выгружается в таблицу эксель top5_pair.xlsx
К вам поступила информация о числе заказов за прошедшие 3 месяца с разрешением по неделям. Постройте (если это возможно) прогноз продаж на следующие 3 месяца, с учётом того, что в неделю с 2020-02-02 по 2020-02-09 была проведена массивная акция, повысившая число заказов на 7% Данные в test2_completed.csv
Прогонозирование было сделано при помощи Prophet
Прогнозирование временного ряда было выполнено, как математический эксперимет, безотносительно реальности процессов. Полученный линейный тренд хорошо согласуется с трендом в изначальных данных. Cредняя абсолютная ошибка в процентах составляет 6.75 % что означает, что модель может ошибаться в среднем на 6,7%. Но есть несколько моментов, которые мешают сказать, что полученный прогноз - хороший.
Данных на которых модель учится - мало, что сказывается на качестве модели. Из-за этого сложно учесть сезонность помесячную, и невозможно поквартальную и годовую. Период, на который требуется предсказать количество заказов, равен периоду, на котором основывается модель, что тоже не очень хорошо. Из условия задания предполагается, что речь идет о каком-то продукте, предоставлюящим услуги или товары, и в том и в другом случае количество заказов не может быть бесконечным, в виду ограниченности количества пользователей и насыщаемости рынка. В таком случае следует использовать тренд с насыщением(логистическую регрессию), но никакой информации о естественной емкости системы у нас нет.
SQL-запрос для создания таблицы с указанными полями.
Рассчет метрики LTV используя когортный анализ для приложения - мобильная утилита для сканирования документов. Прогноз LTV. Расчет ROMI.