Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Управление развитием организации подходы, методы, инструменты

..pdf
Скачиваний:
3
Добавлен:
12.11.2023
Размер:
4.88 Mб
Скачать

чие. Когда мы говорим про управление данными, то мы подразумеваем данные как актив бизнеса, другими словами, предполагаем, что данные будут генерировать прибыль при правильном их использовании. Последняя фраза: «правильное использование данных» – ключевая для понимания, как извлекать прибыль из данных. В российской академической, технической, бизнес-литературе мало про это сказано. Отдельные методики управления данными прослеживаются в некоторых российских и международных стандартах ГОСТ 10032, ГОСТ 34.321, ISO/IEC 24668 или его российская версия – «Национальный стандарт в области управления большими данными», а также «Словарь в области больших данных». Но все эти рекомендации не дают системного понимания, как управлять данными. Нет, так сказать, методологии в области управления большими данными, и с этой точки зрения – очевидна проблема для предприятий, пытающихся внедрять у себя управление на основе данных.

Изучив многообразие стандартов, лучших практик и локальных нормативных документов на различных промышленных предприятиях, мы остановили свой взгляд на своде знаний по управлению данными (DMBOK). Свод знаний – это не стандарт, это собрание лучших международных практик в области управления данными, которые были собраны ассоциацией международных экспертов (Data Management Association – DAMA) в одном труде: «Свод знаний по управлению данными»

(Data Management Body of Knowledge – DMBOK)146.

Руководство данными как функция организации находится в самом начале своего развития и активно набирает обороты на российских предприятиях. Особенную актуальность данная функция получала в условиях четвертой промышленной революции. Так как парадигма цифровой трансформации заключается в использовании данных как актива. Цифровая экономика рассматривается как экономика данных. Новый технологический устрой – это вызов для бизнеса как с точки зрения появления новых технологий и компетенций, так и с точки зрения формирования новой культуры, новых отношений внутри и вне организации. Эти вызовы потребуют от руководства решить ряд непростых задач, а возможно, и провести трансформацию ранее существующей бизнесмодели на модель, основанную, на системной, долгосрочной работе с

146 DAMA-DMBOK: свод знаний по управлению данными / пер. с англ. Г. Агафоновой. – М.: Олимп-Бизнес, 2021. – 828 с.

111

данными, которые теперь рассматриваются как важнейший актив предприятия. Должны появиться новые активности как ИТ-специалистов, так и, что важнее, сотрудников не ИТ-подразделений для консолидированных усилий по внедрению единых каталогов данных, корпоративных дефиниций для единого толкования понятий этой предметной области, новых программных продуктов и технологий для управления данными, новых программ повышения квалификации персонала для формирования новых компетенций. Это позволит предприятию определять данные, их качество, процессы очистки и хранения, а также многомерной визуализации их для поиска скрытых закономерностей и резервов в рамках реализации принципов SSA (Self Service Analytics), в условиях которого возможно быстрое, а в некоторых случаях и автоматизированное принятие управленческих решений.

Отвечая на вопрос «Что же такое управление данными?», мы будем руководствоваться толкованиями DMBOK, который в настоящее время представлен уже во второйредакцииDAMA. Для справки: перваяредакция этогофреймворка(рамочнаяструктура) былаопубликованав2009 году.

Управление данными – это процесс по созданию, исполнению и контролю политик, программ и практик по получению, оценке, защите и преобразованию (повышению ценности) данных как информационного актива на протяжении всего жизненного цикла. Таким образом управление даннымитребуеткактехнических, такиуправленческихкомпетенций.

Часто мы сталкиваемся со смешением понятий «данные» и «информация». Давайте разведем эти понятия для дальнейшего однозначного восприятия рассматриваемого материала.

Данные – это факты об окружающем мире. Например, мы, выйдя на улицу, констатировали наличие дождя, это данные. Или, придя на работу, обнаружили на рабочем месте документ – это тоже данные. То есть данные – это совсем не обязательно цифровое представление факта, это может быть и аналоговое его исполнение.

Но мы будем говорить о цифровом представлении данных, так как именно этот формат для нас имеет особую ценность, тем более что речь идет о больших данных.

Сами по себе данные не имеют для нас никакого смысла, это просто фиксация фактов и только: услышали имя человека, получили цифровые значения выработки производства, прозвучала сирена пожарной безопасности, получен сигнал системы контроля доступа. Данные не

112

имеют ценности до тех пор, пока не произойдет их интерпретация: имя – это сотрудник, с которым мне нужно поговорить, значение выработки – ниже планового значения, сирена – это проверка системы пожарной безопасности, сигнал СКУД сообщил о несанкционированном проникновении на территорию. Данные приобретают для нас ценность, только если для них определен контекст. Данные в контексте – это информация. По сути контекст – это информационное окружение, ассоциативно связанное с данными, естественно, ассоциации – это продукт мыслительного процесса конкретного человека. Или так: контекст – это репрезентативная система восприятия данных. И как у любой системы должны быть понятия, компоненты, связи, правила. Организация должна описать эту систему для адекватного интерпретирования данных. Однако процесс создания такой системы весьма сложен. Даже в одной организации могут существовать различные формы представления данных. Это серьезная проблема для организации, так как в этих условиях теряется доверие к данным, и процесс управления данными стагнирует. Решение этой проблемы обеспечивается наличием архитектуры данных, формализованными моделями данных, справочниками метаданных, процессами управления качеством данных, все это необходимо для правильного использования данных и извлечения прибыли из них.

Данные – это актив предприятия. Под активом мы понимаем ресурс, принадлежащий нам на правах собственности, который способен генерировать ценность. В качестве ценности предприятие может рассматривать более тонкое понимание потребности клиентов, обнаружение узкого места в производственной цепи или обнаружение системных проблем на предприятии.

Управление данными имеет свои правила, которые позволяют интегрировать в бизнес-архитектуру предприятия процессы управления данными:

данные должны рассматриваться как актив;

управление данными подразумевает управление качеством, для чего необходимы метаданные;

управление данными это сквозной процесс;

управление данными требует непосредственного участия потребителя конечного продукта;

управление данными одушевляется в рамках жизненного цикла данных;

113

управление данными подразумевают управление рисками, связанными с данными;

управление данными требует инструментальной поддержки со стороны ИТ.

Данные должны рассматриваться как актив с уникальными свойствами. Данные нематериальны, неосязаемы и эфемерны, долговечны и износоустойчивы. Это основные отличия данных от других активов.

Востальном они могут иметь одинаковые свойства. Например, со временем данные могут увеличивать или уменьшать свою ценность. Могут быть утрачены, утраченные данные могут иметь невосполнимую потерю или чрезмерно высокую стоимость восстановления для организации. Ценность данных сложно перевести в стоимостное измерение: так, оценка требует объективной их интерпретации. Незнание стоимостной оценки данных создает проблему в измерении вклада данных в общий результат организации. Мы под ценностью понимаем разность между затратами на создание потребительской ценности и потребительской стоимостью, за которую эта ценность может быть приобретена. То есть, если производство бутылки минеральной воды нам обошлось в 10 рублей, а покупатель готов ее купить за 20 рублей, то ценность процесса производства минеральной воды составит 10 рублей. Но по отношению к данным не получится определить ценность их использования таким образом. Хотя в части получения данных мы можем использовать общепринятые модели оценки себестоимости, например:

затраты на получение и хранение данных;

затраты на воспроизводство или восстановление данных;

затраты на управление качеством данных;

выгоды организации от управления данными;

цена, за которую рынок готов заплатить за данные, и т.д. Главная сложность в оценке – это зависимость от контекста. Что

важно для одного сотрудника, не важно для другого, или что было ценно вчера, не имеет ценности сегодня. Для уравновешивания этих диалектических сущностей принято использовать соответствующие политики в области управления данными для отдельно взятой организации или группы компаний. Такие политики позволяют структурировать процесс оценки данных. Соответственно, данные о постоянных клиентах имеют ценность на уровне организации, и накопление таких данных имеет ценность. Наша рекомендация такая: навешивание «ценников» на

114

все данные – не лучшая стратегия в процессе управления данными, не стоит этим злоупотреблять.

Отдельное внимание следует уделять качеству данных. Качество – это соответствие полученного результата заявленным требованиям, приблизительно так нам описывают этот термин большинство стандартов и глоссариев.

Кто же определяет эти требования? Обычно требования формулирует производитель, а покупатель их акцептует в момент покупки. Но в случае с данными, кто производитель, а кто покупатель и кто формулирует, а кто акцептует?

Работа с данными традиционно осуществляется в ИТ-подразде- лениях. Как мы понимаем, для ИТ-специалистов важнейшими задачами являются получение, сохранение и воспроизведение данных, и, возможно, их утилизация. А качество уходит на второй план по понятной причине – ИТспециалисты не используют данные как источник получения выгод. Но качество определяет жизнеспособность всей этой деятельности. Если качество данных низкое, то и получение, хранение и прочие действия не имеют смысладляорганизации. Мусорнавходе– мусорнавыходе.

Главную роль в этом процессе – управление качеством – играет потребитель этих данных. Именно он определяет требования к этим данным, и он проверяет соответствие полученных данных заявленным требованиям. В другом случае организация не только недополучит прибыль, но и сформирует убытки, связанные с некачественными данными.

Еще в 1996 году Ричард Вонг и Дайана Стронг сформулировали впервые системный взгляд на измерение качества данных147.

Пятнадцать параметров данных в области качества позволяют нам сформировать взвешенные критерии как относительно самих данных (точность, объективность, достоверность и т.д.), так и позволяют измерить контекстуальное качество данных, их репрезентативность, а также технические параметры, связанные с получением данных, трансформацией, загрузкой и их безопасностью.

Далее были предложены альтернативные взгляды на классификацию параметров качества данных, например, на основе структуры данных (данные, метаданные, модель данных). Одним из последних пред-

147 Wang R.Y. & Strong D.M. Beyond accuracy: What data quality means to data consumers // Journal of Managements Information Systems. – 1996. – Vol. 12(4). – P. 5–34.

115

ставлений качества данных сформулировало британское отделение международной ассоциации DAMA, согласно которого принято выделять шесть параметров качества данных:

1.Полнота.

2.Уникальность.

3.Актуальность.

4.Годность.

5.Соответствие.

6.Согласованность.

Как правило, содержание этих параметров читателю интуитивно понятно. Полнота это способность извлекать из хранилища необходимый и достаточный объем информации. Уникальность определяет специфическую принадлежность данных к конкретному объекту исследования, гарантирует нам отсутствие дублирующих сущностей. Актуальность говорит о ценности данных с точки зрения использования их в моменте времени. Под годностью нужно понимать возможность использования их в различных синтаксических конструкциях (например, при написании меры с применением функциональных языков программирования). Соответствие – это мера отождествления данных с объектом исследования, который эти данные описывают.

В настоящее время нет единой классификации измерений качества данных. Тем не менее свод знаний об управлении данных нам предлагает собственную версию этого классификатора измерения качества данных.

Актуальность – это соответствие данных заданной версии. Об этом уже писали выше. Но у этого параметра есть одна сложность, его трудно измерить. Данные условно можно разделить на две группы: динамичные и статичные. Статичные данные это в основном справочники, они изменяются нечасто, и их актуальность нас будет волновать реже, в отличие от динамических данных, которые могут изменяться очень часто, например биржевые данные. И в этом случае параметр актуальности приобретает особое значение.

Полнота (достаточность) – характеризует удельный вес наличествующих данных относительно необходимых. Этот показатель может иметь различные представления, например, процент заполненных полей пользователями или наличие необходимых строк, загруженных из базы данных, или достаточный уровень гранулярности данных.

Разумность (необходимость) – этот параметр позволяет оценить объем, в котором данные имеют смысл для интерпретации, но не при-

116

водят к издержкам, связанным с чрезмерным объемом. Если мы получаем данные с десяти датчиков, которые генерируют данные с частой десять миллисекунд, то несложно посчитать, что через месяц в нашем хранилище будет лежать объем данных около 5 ТБ памяти. Другими словами, мы заполнили все хранилище за месяц и нужно покупать новое, плюс обслуживать существующее. Очевидно, что это не бесплатно, и вопрос экономической целесообразности хранения такого объема данных на крайне актуален.

Согласованность – это про непротиворечивость записей в различных базах данных. Достигается путем создания корректных связей между сущностями СУБД. Таблица фактов, содержащая внешний ключ, связь с таблицей – справочником – должна иметь реляционную связь только с этим справочником. Такая согласованной называется структурной. Но есть еще хронологическая согласованность, когда значения одного параметра имеют записи в разных временных периодах, и для правильной интерпретации этих значений нужна четкая увязка с заданным временным периодом.

Соответствие – определяет близость полученных данных заданным требованием. Если вы определили выручку как сумму полученных денег за проданный товар, то количество проданного товара как выручка будет не соответствовать заданным требованиям.

Уникальность (отсутствие дубликатов) – этот параметр говорит сам за себя, не должно быть дубликатов одних и тех же записей.

Целостность данных – определяется наличием всех заданных реляционных связей, которые связывают таблицы посредством пары «первичный – внешний ключ».

Особую роль в управлении качеством данных играют метаданные. Метаданные – это данные о данных. Если мы рассматриваем данные как актив, то по аналогии с этим понятием, чтобы управлять активом, нам нужна информация о нем. Например, если мы используем человеческий ресурс как актив, то для получения максимальной выгоды от управления мы должны понимать его компетенции, мотивацию, возраст в конце концов – это все касается и обыкновенных данных. Специалист отдела продаж рассматривает данные о продажах как выручку или чистую выручку с учетом полученных скидок. А отдел планирования производства рассматривает продажи как количество проданного товара в разрезе номенклатуры. Экономист же оценивает продажи с позиции тенденции и пре-

117

доставленных скидок. Но все это про продажи, интерпретация которых в различных подразделениях возможна благодаря метаданным. Метаданные описывают, что отражают данные, как классифицируются, их источники и методики обработки, ролевую доступность, включая математические выражения для расчета мер на основе этих данных.

И в завершение повествования о качестве данных считаем полезно также сослаться на стандарт ISO 8000, который рассматривает качество данных немного в другой перспективе. Этот стандарт описывает процессы обеспечения качества данных в условиях обмена различными приложениями, сложными по структуре данных. Этот стандарт обеспечивает способность создавать, получать, хранить, обслуживать, загружать и представлять данные. Технические параметры этого стандарта регламентируются другим стандартом ISO 22745 (ГОСТ Р ИСО 22745- 20-2013). Основная задача – это организовать процесс дифференцирования качественных данных от некачественных.

Управление данными – это сквозной бизнес-процесс, который включает в себя ряд взаимосвязанных функций, каждая из которых базируется на собственных целевых ориентирах, объектах управления и обеспечена собственной организационной структурой. Менеджменту в условиях такого многообразия интересов стейкхолдеров этого процесса необходимо учитывать весь комплекс проблем, связанный с этой деятельностью. Противоречия, рождающиеся в этом процессе, требуют балансировки, рассматривать их нужно под одним знаменателем. Достигается этот баланс благодаря единой системе целей бизнеса и архитектуре. Дадим определение архитектуре. Под архитектурой в общепринятом смысле принято понимать науку проектирования зданий. Но в заданном контексте статьи такой образ малопригоден. Соответственно, под архитектурой будем понимать упорядоченную компоновку наиболее значимых элементов системы, которые обеспечивают достижение целей, высокую эффективность или производительность, стоимость или эстетичность. Стандарт системной и программной инженерии (ISO 42010, ГОСТ Р 57100-2016) определяет архитектуру как «основные понятия или свойства системы в окружающей среде, воплощенной в ее элементах, отношениях и конкретных принципах ее проекта и развития».

Архитектурная практика осуществляется на различных уровнях деятельности предприятия, может затрагивать различные его аспекты.

Например, фреймворк TOGAF (The Open Group Architecture Framework)

118

описывает архитектуру предприятия с позиции четырех иерархически расположенных архитектурных доменов (рис. 4.1), где архитектура данных встраивается в контекст других предметных областей: бизнес, приложения и технологическая инфраструктура.

Рис. 4.1. Архитектурные домены TOGAF

Самый известный фреймворк проектирования архитектуры – это модель Захмана148. Суть его архитектурного подхода базируется на утверждении, что любая архитектурная деятельность имеет точку зрения (перспектива) на архитектуру создаваемого объекта. Этот подход он применил к политикам для различных типов и уровней архитектуры.

Модель Захмана описывает процесс материализации абстрактной идеи в реальный объект. Процесс описан посредством соответствующих ролей: планировщик, владелец, проектировщик, разработчик, внедренец, пользователь.

Каждая перспектива описывает отношение к различным сущностям управления (объекты, работы, местоположение бизнес-структур, организационно-ролевые сущности, сроки, цели и средства):

Руководство – определяет бизнес-модель.

Менеджмент– определяетграницыразличныхсистемуправления.

Архитектор – определяет логические связи между объектами системы и создает модели.

Инженер – переносит модель на физический уровень и создает исполняемые модели для их последующей реализации.

Специалист – создает физическую систему на основе исполняемой модели.

Пользователь – эксплуатирует разработанную модель.

148 Джон Захман (John A. Zachman, USA) – специалист по информационным технологиям, разработал и описал модель бизнес-систем IBM.

119

120

Рис. 4.2. Модель Захмана

120