Что такое данные
03
/12
Узнаем, как в Havas смогли запустить аналитику розничной сети вместе с Qlik за полгода. А также разберемся с тем, что такое данные, какие типы данных мы выделяем, и зачем нужна агрегация.
О чем поговорим сегодня
Телеграм-сообщество Qlik
Приглашаем вас присоединиться к телеграм-чату Qlik, чтобы общаться с коллегами, задавать вопросы экспертам и оставаться в курсе новостей Марафона.
Никнейм в Telegram: @qlikbi_chat
История успеха

Qlik в Havas: как запустить аналитику по розничной сети за полгода

Havas — сеть магазинов-дискаунтеров «у дома» (далее — Компания) с более чем 200 магазинами в Ташкенте и Ташкентской области. С ростом Компании, росли и запросы к аналитике данных. Для проведения аналитики и создания оперативной отчетности, работники использовали данные напрямую из ERP-системы, загружая их в Excel или Power BI.

Однако, в Компании назревала необходимость единого взгляда на данные и KPI Компании с помощью единого инструмента аналитики, а также снижения нагрузки на ключевую информационную систему ERP. Именно поэтому в Havas задумались о создании хранилища данных (DWH), как промежуточного звена между ERP и BI, которое бы объединяло и согласовало поступающие данные из разных источников (не только ERP) и предоставляла бы надежную платформу для бизнес-аналитики и отчетности.

Выбор Qlik и старт проекта

После анализа предложений по созданию хранилищ данных, в Компании появилась гипотеза, что разработка хранилища данных на этом этапе будет нецелесообразной в силу высокой стоимости такого проекта и недостаточности данных для построения полноценного DWH. После анализа различных вариантов, в Havas решили закрыть потребности бизнес-пользователей отчетности без построения полноценного хранилища данных, а реализовать на Qlik прототип хранилища данных и выстроить на его основе аналитику.

Qlik для проекта был выбран по ряду факторов:
Более низкая стоимость внедрения, чем у полноценного хранилища данных
Быстрое получение результатов для бизнес-пользователей
Хорошая интеграция с системой 1С, основным источником данных в компании
Возможность гибкого разграничения прав доступа
Возможность внедрения Qlik самостоятельно, без привлечения партнера
Мадина Аюпова
руководитель отдела аналитики, Havas
Мы изначально понимали, что разработку аналитических дашбордов будет осуществлять наша внутренняя команда. В такой динамично развивающейся Компании, как наша, с запуском BI-инструмента требования к аналитике эволюционируют вместе с рыночной ситуацией и уровнем пользователей. Именно поэтому с таким agile-подходом к разработке аналитики справится может лишь внутренняя команда. Чтобы грамотно стартовать проект мы прошли недельный очный курс обучения Qlik у «Первый Бит. Ташкент» и погрузились в разработку первых приложений.
На старте проекта, в Компании было два BI-разработчика без опыта работы в Qlik. Удалось стартовать проект довольно быстро, но со временем стало понятно, что хорошим решением будет обучить разработке приложений Qlik специалистов из каждой бизнес-функции.
Такой подход развития self-service разработчиков помогает более эффективно закрывать потребность в бизнес-аналитике в конкретных департаментах — например, в HR или работе с дистрибьюторами.

Примеры аналитических задач

За полгода BI-проекта в Havas разработали 6 аналитических приложений Qlik для топ-менеджмента операционной команды, а также департаментов продаж, маркетинга и логистики.
Мадина Аюпова
руководитель отдела аналитики, Havas
При этом, функциональность разработанных шести приложений гораздо шире, чем те 14 отчетов, которые были реализованы в предыдущем BI-инструменте. Такой результат мы достигли силами 2−3 разработчиков всего за полгода.
Наиболее популярные приложения Qlik в Havas:
Анализ продаж по торговым точкам на карте
Основной пользователь отчета – операционный директор и его команда. В отчете показаны KPI, оперативный факт и исторические данные, возможность анализа как по сети в целом, так и с детализацией по региональной структуре
Отчет-конструктор для управляющей команды
Отчет с данными по продажам, в котором можно собрать любой срез данных с любыми имеющимися показателями для ad-hoc аналитики. Так как управляющая команда из Турции, то интерфейс этого отчета двуязычный: русский и турецкий.
Отчет по остаткам и товародвижению
Аналитика заказов, остатков на складах и в магазинах, а также показатели товародвижения. Отчет активно использует коммерческий директор и категорийные менеджеры.
Отчет Out-of-stock
Аналитика отсутствующих на складе товаров Out-of-stock для оперативного управления ситуацией и предотвращения упущенных продаж
Внутренний технический отчет BI-отдела
Рабочий отчет для проверки загрузки, качества и целостности данных.
Мадина Аюпова
руководитель отдела аналитики, Havas
Сейчас все совещания управляющего комитета и в том числе совещания внутри департаментов проводятся на основе аналитических приложений Qlik. Это серьезное изменение в доступности бизнес-данных и огромный шаг к реализации подхода data-driven в управлении компанией — переход от экспертных решений к действиям, основанным на актуальных данных
До конца 2023 года в Havas планируют перевести всю отчетность ритейл-группы на Qlik. Кроме создания новой отчетности, важно развивать текущую – в компании планируют интегрировать в BI прогнозную модель, сделанную на Python, а также разработать отдельную аналитику для мобильных устройств с важнейшими KPI для доступа топ-менеджмента.
Теория

Что такое данные

Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Все данные можно разделить на две категории: структурированные данные и неструктурированные. Информационные системы и BI-инструменты, в том числе и Qlik Sense, работают со структурированными данными.
Большинство данных в мире неструктурированы. Такие данные, как правило, представлены в виде текста, который может содержать любую информацию: цифры, даты, прочие факты.

Примером неструктурированных данных могут являться любые тексты (даже в формате Word, PDF), книги, видео, аудио, изображения — вообще практически все, что вы видите вокруг себя. Мы не можем провести какой-либо анализ содержимого на этой странице без этапа обработки и подготовки данных.
Структурированные данные — все, которые имеют формализованную структуру. То есть, их можно разложить на столбцы и строки и загрузить в инструмент для анализа данных.

Структурированные данные упорядочены и типизированы. Хранятся в форме таблицы, имеют столбцы (поля), и строки (записи). Еще говорят, что каждый столбец представляет собой атрибут данных, а каждая строка — единицу наблюдения. Структурированные данные — это данные о посещении сайтов в системах веб-аналитики, о покупках в интернет-магазине в специальной учетной системе о проведенных финансовых операциях, транзакциях.

Виды шкал

Нам важно понимать, как мы измеряем те или иные данные, чтобы применять подходящие методы их анализа. Поэтому мы акцентируем внимание на типах шкал — типах измерения данных. Зная с какими данными вам предстоит работать, вы будете знать и ваш план действий, чтобы провести анализ грамотно.
4 вида шкал при работе с данными
Качественные данные
Содержат наименования категорий, поэтому их также называют категориальными. Значения категорий уникальны. По своей форме, качественные данные могут содержать только текст (наименования товаров в магазине), могут состоять полностью из цифр (номер паспорта или телефона — тоже уникальная категория), а могут содержать и то и другое (номер автомобиля).

Качественные данные делятся на номинальные и порядковые. Здесь все просто: у номинальных данных нет порядка, а у порядковых есть заданная последовательность. Мы не можем количественно сравнивать номинальные данные, но можем оценить порядковые данные: у каждой порядковой категории есть своя «очередность».
Номинальные данные —
жанры кино: боевик, комедия, драма, детектив
набор фруктов: яблоко, апельсин, банан
ученики класса: Даша, Вова, Ксюша, Петя

Порядковые данные —
медаль, полученная на соревнованиях: бронза, серебро, золото
размеры одежды: XS-S-M-L-XL
рейтинги книг, фильмов, ресторанов: от 1 до 5 звезд
опросная шкала Лейкерта: от «полностью не согласен» до «полностью согласен»
Любые качественные данные используются для проведения анализа количественных характеристик объекта анализа и получения ответов на вопросы, что позволяет выработать и принять решение пользователю, который проводит такой анализ.
Денис Катюшин
генеральный директор, QUBData
Примеры работы с качественными данными от QUBData
Первый пример — работа с данными судебной статистики. В данной области большая часть данных — качественная. Как правило, это гендер, возраст, статья соответствующего кодекса, социально-демографическое положение, семейное положение, образование и т. д. Но вопросы, на которые необходимо получить ответы в рамках проведения анализа, трансформируются в количественные характеристики. Например, сколько было вынесено приговоров по статье "распространение наркотиков" в разрезе гендера и возраста, в зависимости от состава семьи (полная семья, только отец, только мать, сирота). И исходя из полученных результатов на уровне различных государственных программ могут быть запущены инициативы (социальные программы поддержки различных групп) для той целевой группы, которая покажет максимальное значение по вопросу выше.

Еще один пример — оценка работы тренинг-центра и конкретных тренеров пользователями, прошедшими обучение по той или иной внешней или корпоративной программе обучения. В данном случае все оценки собираются в шкале: от типа «категорически не устраивает» до «полностью удовлетворен» и далее обрабатываются для целей формирования отчетности — на выходе оценивается повторяемость оценок и те, которые встречаются наиболее часто, характеризуют качество работы тренера или тренинг центра. По сути, это перевод набора качественных характеристик в количественные показатели оценок конкретных субъектов.
Количественные данные
Содержат в себе числа, поэтому позволяют совершать над собой разные математические операции. Как и порядковые данные, количественные данные могут сравниваться между собой при помощи сравнения «больше/меньше». Количественные данные делятся на интервальные и относительные.

Интервальные данные также имеют свойство номинальности и порядка. Но основным их отличием является свойство равных интервалов между значениями. Интервальная шкала позволяет однозначно определить, какое значение больше или меньше и на сколько. Однако, не все виды математических операций могут быть применимы (зачем нам нужна сумма температур в городе за неделю?)
Интервальные данные —
температура (по Цельсию)
географические координаты
года (2020, 2021, 2022)

Относительные данные —
рост
вес
возраст
Относительные данные похожи на интервальные. Основное отличие: относительные данные не могут быть отрицательными, у них есть действительный ноль.
«В интервальных данных тоже есть ноль!» — скажете вы. Но на самом деле, 0º температуры за окном или нулевой год — это условность, которая была искусственно придумана для облегчения жизни. (Шкала Кельвина сюда не относится)

Основные виды агрегации данных

Виталий Городилов
СЕО, Первый Бит.Ташкент
Возможности нашего восприятия не позволяют проводить анализ данных в уме, просматривая сотни записей в таблице одна за одной. Но возможности программ и приложений для анализа данных основаны на функциях агрегирования данных! Это основной способ получения представления об имеющихся данных.
Агрегация — это способ объединения данных для упрощения их восприятия и анализа.
Представьте, что у вас есть набор данных погоды в вашем городе за последние 10 лет: это более 3500 тысяч наблюдений по нескольким показателям! Чтобы ответить на вопрос «стали ли зимы теплее», вам нужно оценить изменение температуры за сотни записей во времени. Просматривать 3500 строк поштучно неэффективно, но вы можете сделать агрегацию — посчитать среднюю температуру за каждый год и отследить ее динамику.

Чаще всего используются следующие виды агрегаций:
  • сумма — суммирование всех наблюдений
  • среднее — подсчет арифметического среднего
  • минимум / максимум — наименьшее или наибольшее наблюдение в данных
  • количество — сколько раз встречается то или иное значение
Виталий Тренкеншу
основатель, Datanomix.pro
В этом видео я подробно объясняю виды агрегаций с примерами. Вы сможете освежить школьные знаний по основным видам агрегирования данных вместе с примерами визуализаций на Qlik Sense.
Агрегации
Видео от Datanomix.pro
Практика
Инструкция по установке Qlik Sense — в дне 00
Если вы пропустили подготовительный день 00, перейдите в него сейчас, чтобы прочитать инструкцию по старту работы в Qlik Sense
  • Практическое задание 1
    В исследовании, моделирующем деятельность авиадиспетчера, группа испытуемых проходила подготовку перед началом работы на тренажере. Испытуемые должны были решать задачи по выбору оптимального типа взлетно-посадочной полосы для данного типа самолета. Показатели количества ошибок в тренировочной сессии приведены в таблице ниже.

    Что сделать:
    → 1.1. Поставьте оценки за тренировочную сессию на основе имеющихся данных.
    → 1.2. Определите, кого можно допускать к работе, а кого – нельзя.
    → 1.3. Определите шкалы, по которым проведены измерения:
    – количество ошибок
    – оценка (за тренировочную сессию)
    – допуск к работе
  • Практическое задание 2
    1. Скачайте приложение по ссылке.
    2. Загрузите приложение в Qlik Sense (дублируем ссылку на инструкцию по загрузке).
    3. В листе “День 02. Виды данных” необходимо проанализировать среднюю цену пачки бумаги А4 используя значения KPI-карточек (индикаторов) AVG и MEDIAN, а также гистограмму “Распределение цены за единицу без НДС”.
    4. Как вы думаете почему функции AVG и MEDIAN дают разный результат на одних и тех же данных? Почему по версии AVG цена одной пачки бумаги А4 отличается от цены по версии MEDIAN?
Телеграм-сообщество Qlik
Приглашаем вас присоединиться к телеграм-чату Qlik, чтобы общаться с коллегами, задавать вопросы экспертам и оставаться в курсе новостей Марафона.
Никнейм в Telegram: @qlikbi_chat
Полезные ссылки

Если вам интересно узнать больше, переходите по ссылкам для дальнейшего изучения тем и расширения кругозора

Вебинар дня
День 03
Обзор типов данных. Эксперт: Алексей Гриненко, архитектор Qlik Sense, Robomarkets LTD
Перейти к предыдущим дням:
Qlik Sense Узбекистан. День 00
Подготовительный день и установка программы
Qlik Sense Узбекистан. День 01
Что такое Qlik Sense + История успеха Baraka Market
Qlik Sense Узбекистан. День 02
Ключевые концепции Qlik + Анализ госзакупок в Казахстане