Базовые визуализации
07
/12
Сегодня мы изучим как в Novartis популяризируют культуру работы с данными и развивают корпоративную разработку в Qlik, а также познакомимся с базовыми видами визуализаций и сделаем первые диаграммы
О чем поговорим сегодня
История успеха

Преобразование культуры работы с данными в Novartis

Швейцарская международная компания Novartis является одним из основных игроков в медицинской, фармацевтической и медико-биологической отрасли.

Сегодня в Novartis сконцентрированы на переходе к концепции осознанной работы с данными. В этом компании помогает выстроенная data-стратегия, направленная на достижение «последней мили» процесса работы с данными: развитию дата-грамотности у всех пользователей, а также совершенствованию навыков эффективной трансляции результатов аналитических исследований и поиску сигналов в данных для принятия решений.
В компании считают: необходимо стремиться к тому, чтобы пользователи трансформировали свой способ принятия решений. Аналитические приложения должны встраиваться в рабочие процессы сотрудников, оказывать влияние на непосредственный процесс работы.
Георгий Виноградов
руководитель BI, Novartis
В Novartis проводят обучения не только для того, чтобы рассказать о том, как пользоваться отчетами Qlik Sense, но и как принимать решения, какие вопросы задавать к тем или иным диаграммам.
Развитие и поддержка BI стратегии в Novartis включает в себя три основных компонента:
1
Guidelines & Governance: подходы для взаимодействия с людьми и процессами
2
Styleguide: инструменты для унификация дизайна приложений
3
UI & BI kit: практики оптимизации разработки приложений
Подходы для взаимодействия с людьми и процессами (Guidelines & Governance) нацелены на поддержку разных аспектов работы с данными. Например, проведение аудита текущих потребностей пользователей помогает расставить приоритеты в соответствии с ожиданиями внутренних клиентов и удовлетворить спрос сотрудников на аналитику. В компании также выстроены процессы управления жизненным циклом отчетности, обеспечения качества данных, вовлечения пользователей, коммуникации и продвижения созданных приложений в компании помощью разных инструментов.
Кроме того, в Novartis разработаны специальные KPI для оценки работы подразделения аналитики.

Гид по стилю

Илья Орехов
аналитик данных, Novartis
На продвинутом уровне работы с аналитикой в Novartis уже думают не только о функциональности продукта, но и о том, как этим продуктом будут пользоваться, какой путь будет проходить пользователь от появления потребности до принятия решения, какие эмоции у него вызывает продукт? И также — насколько комфортно разработчику создавать аналитический продукт?
Гид по стилю — это выверенный набор рекомендаций и рамок, которые определяют, как должно выглядеть визуальное решение. Гид закрывает две потребности в создании комфортного процесса работы — с точки зрения разработчика и с точки зрения пользователя. Важно, что это прикладной инструмент, который может меняться и трансформироваться со временем, а не свод строгих правил.

Основные задачи проекта выглядели так:
1
Увеличить скорость разработки дашбордов
2
Создать легкий в масштабировании BI инструмент
3
Сформировать нормативный вид для всех аналитических отчетов
4
Повысить пользовательский опыт, увеличив качество и скорость принятия бизнес решений конечными пользователями
Гид покрывает такие аспекты разработки приложений в Qlik Sense, как макеты дашбордов, палитры цветов, работа со шрифтами, использование шаблонов и собственный visual vocabulary — визуальный словарь с объяснением диаграмм и графиков.

Visual Vocab – визуальный справочник

Visual Vocab — это более практичный способ научиться создавать информативные отчёты. Это приложение с разработанными для пользователей в Novartis категоризированными визуализациями.
На главной странице приложения можно изучить описание категорий, соотнести их с задачами стоящими перед отчётом, а затем перейти на нужную вкладку и выбрать тип диаграммы внутри категории, чтобы сформировать первоначальные идеи о том, что может подойти под задачу лучше всего.

При этом, представленный список визуализаций не является исчерпывающим, но он является полезной отправной точкой для создания отчёта, прототипа, теста визуализаций и вдохновения на использование инструмента по-новому.
Денис Бурый
аналитик данных, Novartis
По мере того, как пользователь лучше знакомится с коллекцией визуализаций, он начинает лучше понимать данные, лежащие в их основе, начинает автоматически создавать ассоциации между имеющимися данными и подходящими визуализациями. И все, что осталось — это просто найти их. Выбранные визуализации можно скопировать к себе в отчёт и заменить данные.
Выступление Novartis на конференции Qlik World Baku 2022
Георгий Виноградов, Илья Орехов и Денис Бурый поделились своим опытом продвижения культуры работы с данными в Qlik
Теория

Компоненты диаграмм

Любая диаграмма состоит из четырех частей — системы координат, шкалы, визуальной кодировки и контекста. Каждый из этих строительных блоков выполняет свою отдельную функцию, а вместе они обеспечивают простое и быстрое понимание диаграммы аудиторией.
Внешний вид диаграммы полностью зависит от выбранной системы координат. Существуют 3 вида системы координат: декартова, полярная и географическая. Декартова система координат всем знакома со школы: самые распространенная с координатами X и Y. В полярной системе координаты располагаются в соответствии с радиусом и величиной угла. Гео-система использует широту и долготу как координаты, позволяя строить карты.

Виды визуализаций

Столбиковая диаграмма
Столбиковая (линейчатая) диаграмма — это самый распространенный и универсальный вид диаграммы. Она отвечает на вопрос «сколько?» и позволяет сравнить категории между собой.

Величина показателя выражается при помощи длины столбиков: чем длиннее столбец, тем больше его значение. Столбиковая диаграмма может быть и вертикальной и горизонтальной, в зависимости от того, где располагаются категории.

Диаграмма показывает значения одного показателя по каждой дискретной категории, сравнивая их друг с другом. Если вы хотите столбиковой диаграммой отображать тренды во времени, это лучше сделать при помощи линейного графика.
На основе стандартной столбиковой диаграммы можно создать столбиковую диаграмму с несколькими измерениями. Для этого, после создания диаграммы, в ее свойствах вам необходимо добавить еще одно дополнительное измерение, чтобы получить опции группировки наборов данных.
Гистограмма
Гистограмма — это вид статистического графика, который показывает распределение величины. Гистограмма показывает частотность значений переменной, т. е. сколько раз то или иное значение встречается в наборе данных. Визуальной кодировкой здесь будет длина столбца — чем он выше, тем больше частота значения величины.

Алена Шинкаренко
ведущий разработчик BI, Первый Бит
Гистограммы используются для того, чтобы отследить концентрацию значений, выявить экстремумы, установить тип статистического распределения. При этом, частотность может показываться как на интервалах значений, так и на периоде времени. По смыслу, гистограмма показывает плотность распределения.
Распределения важны для понимания природы данных. На гистограмме будут хорошо видны асимметрии, возможные выбросы, меры центральной тенденции. Это некий «слепок» наших данных, который мы, кстати, можем сравнивать с другими слепками других данных — и это будет эффективно.

Подробнее про статистические распределения читайте в Открытом Марафоне DataYoga по Грамотной работе с данными: https://dataliteracy.ru/speak04
Линейный график
Линейный график — самый базовый способ для демонстрации изменения величины во времени: трендов, прогнозов и динамики. На линейных графиках может быть как одна, так и несколько линий, отображающих разные показатели.

Линейные графики чаще всего используют именно для показа данных во времени. Линия соединяет отдельные значения данных и усиливает акцент на видимых изменениях, отклонениях, трендах.

Для создания линейного графика в Qlik Sense, вам достаточно одного измерения и одной меры. При этом, измерение всегда располагается по оси X, а меры — по оси Y. Вы можете добавить дополнительные измерения, чтобы построить линейный график по нескольким наборам данных и получить несколько линий.
В свойствах линейного графика, вы также можете
  • показать точки на линии, чтобы выделить величины из источника данных
  • определить как показывать null-значения (пробелы, соединения точек, нули)
  • выбрать тип линейного графика: с линией или областью
  • добавить опорные (или референсные) линии
  • настроить цвета линии в зависимости от значений
  • скрыть/отобразить легенду
  • настроить отображение осей графика
  • настроить содержимое всплывающей подсказки
  • и многое другое…
Алена Шинкаренко
ведущий разработчик BI, Первый Бит
Когда вам нужно показать несколько мер на визуализации, можно использовать комбинированные диаграммы с двумя осями. Наиболее распространенный пример: сравнение плана и факта или отображение процентной доли рядом с абсолютными значениями. При этом, на комбинированном графике, меры могут иметь разную размерность (абсолютные числа и %, показатель со шкалой от 10 до 100 и в миллиардах), или одинаковую (доходы и расходы в одной размерности).
Комбинированные диаграммы подходят:
  • при наличии линейного графика и столбиковой диаграммы с одной и той же осью X
  • для сравнения нескольких показателей с другими диапазонами значений
  • для демонстрации корреляции между двумя показателями в одной визуализации
  • для проверки соответствия одного показателя целевому, который определяется другим показателем
Круговые диаграммы
Круговые диаграммы — или пайчарты — показывают отношение между категориями данных при помощи сегментов круга. Вся окружность круга равна 100%. Отдельные ее участки отображают долю определенной категории. Круговые диаграммы удобны для показа пропорций небольшого количества сегментов.

Главной ошибкой в использовании круговых диаграмм является попытка вывести слишком большое количество сегментов. Из-за этого пайчарт выглядит перегружено, а понимать данные будет сложно.
Карта дерева
Карта дерева (или тримап) — это диаграмма, которая наглядно показывает соотношение частей целого. Такая визуализауия является методом отображения иерархических данных с помощью вложенных прямоугольников.

Для построения диаграммы дерева нужна хотя бы одна категория и одна мера. Категории будут определять «разбивку», а меры — площадь каждого прямоугольника.

Отобразить значение показателя можно несколькими способами: подписями на прямоугольниках, цветом прямоугольников, и метод по умолчанию — размер прямоугольников, площадь которого пропорциональна доле показателя.
Точечная диаграмма
Точечная диаграмма — или диаграмма рассеяния, скаттерплот — показывает распределение всех элементов множества на плоскости. Это статистическая диаграмма и ее часто используют для нахождения корреляции между двумя переменными.

Значения одного параметра откладываются по горизонтальной оси, а значения другого – по вертикальной. Также можно управлять размером точки на диаграмме, добавляя дополнительную аналитику в виде еще одной метрики.

Отличие от большинства остальных диаграмм заключается в том, что значение измерений находятся не на одной из осей в виде заголовков, а представляются точками на диаграмме. На двух осях отмечаются шкалы двух основных мер.
Практика
  • Практическое задание 1
    Наша задача звучит так:

    Показать динамику изменения доли товара в общей выручке компании за последние 6 месяцев.

    Какую диаграмму вы выберете для этого? Почему?
  • Практическое задание 2
    Наша задача звучит так:

    Показать зависимость между ценой товара и количеством проданных единиц.

    Какую диаграмму вы выберете для этого? Почему?
Столбцы показывают динамику во времени, но разбивка внутри столбцов помогает понять долю категорий.
Здесь отлично подходит скаттерплот, где
  • по оси Х отложим количество проданных единиц товара
  • по оси Y - цену товара
Таким образом увидим корреляцию двух показателей.
Игорь Буробин
эксперт по Qlik Sense, «Про BI»
  • Практическое задание 3
    Мы продолжаем работать на основе уже загруженных данных (из практики дня 05).

    Постройте столбиковую диаграмму (Bar chart), отражающую рейтинг стран по количеству фильмов. Так же как и в прошлых заданиях, старайтесь использовать меры и измерения.

    Укажите для визуализации заголовок, подзаголовок.
Подсказки к заданию 3
Рейтинги как правило не выводят все значения измерений, а ограничиваются лучшими или худшими значениями. Используйте настройки ограничения измерения, чтобы вывести только 5 первых значений.

При этом обратите внимание, что ограничение будет работать вместе с указанным порядком сортировки. Для рейтинга порядок сортировки должен быть по мере — Количеству фильмов. Если у вас указан другой порядок сортировки (по наименованию страны) поменяйте порядок передвинув наименование меры вверх.
  • Практическое задание 4
    Мы продолжаем работать на основе уже загруженных данных (из практики дня 05).

    Постройте линейный график, отображающий количество фильмов по году производства. На графике будет отображена одна линия, но добавив второе измерение мы можем отразить столько линий, сколько значений во втором измерении.

    Добавьте измерение «Жанр» и на графике каждая линия будет отображать динамику отдельного жанра. Если у вас не установлены отборы, то на графике будет отображено множество линий. Это типичный пример плохой визуализации, спагетти-чарт. Обычно я не рекомендую выводить на линейчатый график более 5 линий.
Подсказки к заданию 4
Для того, чтобы уменьшить количество значений измерений мы можем использовать Ограничения (как в предыдущем дне марафона в задании, где требовалось выводить рейтинг стран по наибольшему количеству фильмов).

Сегодня мы используем другой способ — мы добавим в график условие вычисления. В условии вычисления указывают выражение: если выражение истинно, то визуализация будет отображаться, иначе будет выведено сообщение, текст которого указывается вторым параметром.

Добавьте в условие вычисления выражение count (distinct [Жанр]) <= 5, а в отображаемое сообщение текст, который будет выводится если выражение ложно.
Разместите рядом с графиком фильтр по измерению Жанр.

Убедитесь в том, что при выборе в фильтре пяти и менее жанров визуализация будет отображаться.
Полезные ссылки

Если вам интересно узнать больше, переходите по ссылкам для дальнейшего изучения тем и расширения кругозора

Описание видов визуализаций
Справка Qlik с подробным описанием имеющихся типов диаграмм
Тримапы как искусство
Лекция Бена Шнайдермана: Every AlgoRiThm has ART in it
Вебинар дня
День 07
Базовые визуализации в Qlik Sense, почему для работы с данными не стоит обходиться только таблицами и как выбрать визы, которые должны отправиться в «коробочку зла»
Перейти к предыдущим дням:
Qlik Sense Узбекистан. День 00
Подготовительный день и установка программы
Qlik Sense Узбекистан. День 01
Что такое Qlik Sense + История успеха Baraka Market
Qlik Sense Узбекистан. День 05
Загрузка данных + История успеха департамента финансов Дубая
Qlik Sense Узбекистан. День 06
Таблицы и KPI + История успеха Magnum Cash&Carry