Загрузка данных
05
/12
Сегодня мы познакомимся с процессом загрузки данных в Qlik Sense и узнаем, как департамент финансов Дубая использует Qlik для визуализации государственных данных в открытом доступе.
О чем поговорим сегодня
История успеха

Прозрачное правительство: как департамент финансов Dubai использует Qlik Sense для визуализации государственных данных

Департамент финансов правительства Дубая (Department of Finance, DOF) был создан в 1995 году для надзора за всеми финансовыми и бухгалтерскими делами правительства Дубая, а также для выпуска консолидированных финансовых отчетов для правительства эмирата.

Департамент финансов правительства Дубая отвечает за разработку общего годового бюджета правительства и его исполнение в сотрудничестве со всеми соответствующими органами местного самоуправления. Кроме того, Департамент финансов обеспечивает передачу санкционированных бюджетных ассигнований всем соответствующим государственным органам, а также проверяет сбор и предоставление общих доходов, контролирует государственные банковские счета.

Начало работы с Qlik

В 2017 году Департамент финансов правительства Дубая запустил Government Service Prices Portal — веб-сайт с тысячами ценовых категорий, аккредитованных 23 государственными органами Дубая и распределенными по шести секторам. Эта информация распространяется на арабском и английском языках и предназначена для широкой общественности, включая частных лиц, государственные учреждения и частные компании.
Интерактивная версия отчета доступна здесь
(при первом посещении сайта, в зависимости от качества интернет-соединения, может понадобиться немного времени, чтобы подгрузились визуализации)
Портал Government Service Prices Portal разработан с использованием встроенной аналитики Qlik. Департамент финансов правительства Дубая стал первым государственным учреждением на Ближнем Востоке, использующим Qlik для создания систем открытых данных.
Использование платформы Qlik позволило Департаменту финансов правительства Дубая разрабатывать, расширять и внедрять средства визуальной аналитики в правительственные порталы — и все это в рамках общей системы безопасности и управления данными.
Huda Hamdan Al Shaikh
Директор отдела технической поддержки и развития Департамента финансов правительства Дубая
В соответствии с указаниями Его Высочества Sheikh Mohammed bin Rashid Al Maktoum, вице-президента и премьер-министра ОАЭ и правителя Дубая, мы стремимся внести свой вклад в процесс цифровой трансформации в Дубае и сделать этот город одним из самых счастливых и умных в мире.
«Департамент финансов правительства Дубая продолжает идти в ногу с видением и стремлениями государственных органов и компаний частного сектора в Дубае, а также оправдывать ожидания жителей Дубая, предоставляя удобный доступ к информации о ценах на государственные сборы и штрафы, среди прочего. Поэтому мы так стремились реализовать проект „Government Service Prices Portal“, чтобы предоставить цены на все государственные услуги во всех их категориях и по различным каналам получения доходов, основываясь на принципах открытости и прозрачности, которых мы придерживаемся», — добавляет Huda Hamdan Al Shaikh.

Этот сервис поддерживает Инициативу Открытых Данных в Дубае, и Qlik помогает в достижении целей правительства Дубая по обеспечению доступности и значимости данных.
Это позволит большему количеству людей получать информацию самостоятельно и в удобном формате.
Примеры встроенной визуализации Qlik в портале Government Service Prices Portal, разработанном Департаментом финансов правительства Дубая:
Интерактивная версия отчета доступна здесь. Нажмите на изображения, чтобы прочитать дополнительный комментарий.
(при первом посещении сайта, в зависимости от качества интернет-соединения, может понадобиться немного времени, чтобы подгрузились визуализации)
Интерактивная версия отчета доступна здесь. Кроме того, данные доступны в интерактивных таблицах для более детального анализа, а также поддерживают выгрузку данных в Excel.
(при первом посещении сайта, в зависимости от качества интернет-соединения, может понадобиться немного времени, чтобы подгрузились визуализации)
Теория

Процесс загрузки данных

Для того, чтобы начать работу, нужно загрузить данные в приложение. Для этого есть две опции: через Диспетчер данных или через Редактор cкриптов. Диспетчер данных откроет окошко для добавления данных из файлов и других источников через дружелюбный интерфейс. В Редакторе скриптов вы сможете написать свой собственный код загрузки данных.

Рассмотрим более простой способ загрузки — через Диспетчер данных. На базовом уровне, процесс можно описать так:
1
Добавление подключения к источнику и выбор нужных таблиц из исходной системы или файла/выгрузки
2
Выбор полей загружаемой таблицы
3
Предварительный просмотр данных в Диспетчере данных и проставление взаимосвязей между таблицами, если их несколько
4
Загрузка данных в приложение
Триальная версия Qlik Sense Business не имеет ограничений по источникам данных, но приложения не должны занимать в памяти более 1,25 GB. Сравнение и ограничения облачных подписок Qlik Sense Business и Qlik Sense SaaS (Qlik Cloud) приведены здесь. Qlik Sense Desktop по-прежнему ограничен только оперативной памятью компьютера, на котором установлен.
Когда вы добавите источник, в верхней панели окна вы сможете открыть дополнительные инструменты управления данными, например, открыть Диспетчер данных, чтобы посмотреть связи между таблицами (если их несколько).

Из Диспетчера данных вы можете перейти в режим редактирования таблицы и поменять тип загружаемого поля или создать в таблице новое вычисление. Поле может быть общего типа (числовое или текстовое) или специального: датой, временем или иметь географические значения. Qlik определяет подходящий тип поля автоматически.

Выставление соответствующего типа поля влияет на визуализацию этих данных на диаграммах. Также на экране редактирования свойств, вам доступно превью значений по столбцам таблицы, изменение значений данных, определение пустых значений.
Второй способ подключения данных — Редактор скриптов — открывает редактор загрузки данных. Здесь можно написать код загрузки с нуля, а можно более детально настроить скрипт уже загруженных данных через Диспетчер. Скрипт загрузки данных подключает приложение к источнику данных и загружает данные в приложение.

При этом, скрипт создается как автоматически, так и доступен вам для настройки вручную — более продвинутые пользователи обычно прописывают скрипт вручную, но это необязательно на старте. При автоматической загрузке в скрипте проставляются форматы используемых полей, например, формат времени или первый день недели.
Илья Голев
ведущий разработчик Qlik
Редактор загрузки также используется для сложных операций по переподготовке данных для анализа в Qlik. Код скрипта пишет продвинутый пользователь.

Вот некоторые из возможностей по моделированию данных через скрипты:
  • преобразование столбцов данных в строки
  • преобразование строк данных в поля
  • загрузка данных, упорядоченных по иерархическим уровням, например, схема организации
  • загрузка только новых или обновленных записей из базы данных большого размера
  • объединение данных из двух таблиц с общим полем
  • сопоставление дискретного значения с интервалом
  • обработка не согласованных значений полей

Практические советы по загрузке данных

Денис Катюшин
генеральный директор, QUBData
При разработке процесса загрузки данных необходимо определить следующее:
1
Какая будет глубина анализа данных — сколько данных потребуется загрузить в аналитическое приложение
2
Как часто необходимо загружать данные в Qlik (раз в час, ежедневно, раз в неделю, раз в месяц)
3
Какой период (как правило, «скользящий») данных будет неизменным на стороне источника, какой будет постоянно меняться/дополняться — используется для реализации инкрементальной загрузки
  • Кейс 1
    Обновление данных по CDR каждые 20 минут. Загрузка данных по звонкам из биллинговой системы для:
    • целей мониторинга маржинальности направлений ip-трафика в оперативном режиме — это позволяет своевременно вносить изменения в тарифы, а также менять поставщиков услуг для транзита трафика по направлениям ip-звонков.
    • целей технического мониторинга работы маршрутизаторов, чтобы своевременно перенаправить трафик с неисправного узла на альтернативные маршруты транзита трафика — это позволяет снизить количество не-дозвонов и сократить отток клиенткой базы, которая недовольна качеством связи.
    За счет создания подобного мониторинга компания смогла повысить маржинальность и выйти на показатели выше отраслевых. Для отрасли ip-телефонии маржинальность выше 6% - это исключение.
  • Кейс 2
    Обновление данных по чекам и строкам чеков по сети ресторанов из более чем 150 торговых точек. Загрузка данных из кассовых систем каждые 20 минут. Для обеспечения доставки данных из более чем 150 торговых точек данные грузили в 10 потоков. Такая аналитика позволяет обеспечить оперативный мониторинг работы торговых точек, в частности посмотреть:
    • работает ли торговая точка,
    • сколько касс открыто,
    • сколько чеков пробивается в единицу времени,
    • достаточно ли компонентов для производства блюд и т. д.
Самое важное в модели — обеспечить правильные связи между объектами модели. Как правило, формируется одна таблица фактов, а на лучах находятся таблицы справочников. Ниже приведен пример неидеальной модели, но наглядно иллюстрирующей взаимосвязи между различными объектами. Утрированно — идеальная модель — одна таблица, в которой есть все факты и все аналитики.
Нажмите на изображение, чтобы увеличить его
Роман Матаев
технический руководитель, А2 Consulting
Таблица фактов является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Самый распространенный тип таблицы фактов — таблицы транзакций, т. е. событий, которые мы хотим анализировать.

Справочники — или таблицы измерений — содержат неизменяемые или редко изменяемые данные. Обычно это относительно статичные списки таких сущностей, как клиенты, поставщики, список товаров, список филиалов и т. д. Строки записей из справочников используются для аналитики данных в таблице фактов.
Но в любом случае при создании модели необходимо учитывать объемы данных, которые предстоит анализировать, ширину (набор колонок) самой большой таблицы, содержимое полей справочников. Достаточно распространенным и эффективно работающим решением является модель, в которой одна таблица фактов и несколько таблиц справочников (где, как правило, больше 10 текстовых колонок) на лучах одного уровня.
Практика
Игорь Буробин
эксперт по Qlik Sense, «Про BI»
  • Практическое задание 1
    Перед вами четыре файла Excel, содержащие часть выгрузки базы данных IMDB по фильмам. Наша задача во время сегодняшнего дня и следующих дней загрузить эти данные и вычислить несколько показателей.

    1. Скачайте четыре файла:
    Описание каждого источника вы найдете ниже.

    2. Создайте новое приложение, загрузите в него данные и вычислите показатели, отвечающие на вопросы:
    • Фильмов какого жанра больше в нашей выборке?
    • У какого фильма самые большие кассовые сборы?
    • У какого фильма самый большой бюджет?

    3. Подробное описание этапов выполнения задания находится здесь.
Описание источников данных
  • Произведения.xlsx – файл, содержащий данные о произведениях. У каждого произведения есть свой уникальный код. Этот код нам пригодится для сопоставления данных их разных файлов.
  • Страны.xlsx – файл, содержащий данные о странах производства фильмов. Следуют обратить внимание на то, что для одного произведения может быть указано несколько стран, а может быть и ни одной. Ассоциативная модель данных Qlik Sense позволяет использовать эти данные, не присоединяя к таблице с произведениями, а устанавливая связь. Тем самым решается проблема дублирования данных при присоединении.
  • Жанры.xlsx – файл содержит жанры произведений. Так же, как и файл со странами, для произведения может быть указано несколько жанров или ни одного.
  • ДатыВыходаФильмов.xlsx – в файле находятся даты выхода фильмов и года выхода фильмов.
Полезные ссылки

Если вам интересно узнать больше, переходите по ссылкам для дальнейшего изучения тем и расширения кругозора

Вебинар дня
День 05
Загрузка данных в Qlik Sense вместе с экспертом Ильей Голевым, ведущим разработчиком Qlik
Перейти к предыдущим дням:
Qlik Sense Узбекистан. День 00
Подготовительный день и установка программы
Qlik Sense Узбекистан. День 03
Типы данных + История успеха Havas
Qlik Sense Узбекистан. День 04
Ассоциативная модель + История успеха UzAuto