SMG

Виктория Высоцкая

May 24, 2022
6 мин

О проекте

В маркетинге часто приходится иметь дело с большими массивами данных, с которыми тяжело справится человеку в одиночку. Поэтому на помощь часто приходит машинное обучение.

В сотрудничестве с Институтом территориального маркетинга и брендинга мы реализовали Data Science проект: провели статистический анализ на основе материалов, предоставленных институтом.

Кто покупает книги?

Маркетинговое исследование ИТМБ было нацелено на то, чтобы увеличить количество продаж в книжных магазинах. Первое и вместе с тем основное, что надо сделать в таком исследовании, это понять: а кто в нем исследуется?

С этой задачей нам и предстояло разобраться

Соц. опрос уже был проведен институтом, а база данных, в которой были собраны разные покупатели книжных магазинов, составлена. Массив данных был… масштабным, и нам требовалось выявить в нем те группы, которые и являются целевой аудиторией.


Что мы сделали?

Мы провели кластеризацию базы данных и респондентов соц. опроса, чтобы поделить множество всех объектов (всех покупателей) на группы так, чтобы похожие попали в одно и то же подмножество, а объекты из разных подмножеств, наоборот — существенно различались. Всем полученным кластерам мы присвоили признаки из соц. опроса и базы данных.

К примеру, среди таких признаков были: город, пол, средний чек или используемый канал покупок, оффлайн и онлайн.


Опять Python

При разработке любого Data Science проекта основным инструментом становится Python. Чтобы реализовать кластеризацию данных нам требовалось найти метод кластеризации, который отвечал бы требованиям проекта наиболее точно, так что и SMG не стал исключением. Наши разработчики пробовали применять методы dbscan, mean shift, BIRCH, тем не менее, в результате, команда проекта остановился на K-means как на наиболее стабильном и универсальном алгоритме.


Немного особенностей кластеризации

Так как у всех пользователей из базы данных и респондентов соц. опроса признаки оказались одинаковыми, мы выделили наиболее важные, которые помогли дать качественные результаты.

В результате некоторые кластеры обладали похожими признаками: нам требовалось выявить дополнительные отличия между ними. Для этого мы разбили некоторые кластеры на подгруппы и таким образом увеличили их число.

Еще о наших проектах

Sixhands GPT Alpha