- •Оглавление
- •Список иллюстраций
- •Список таблиц
- •Вступительное слово компании «Юнидата»
- •Вступительное слово компании BSSG
- •Предисловие
- •Глава 1. Управление данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели
- •2. ОСНОВНЫЕ ПОНЯТИЯ И КОНЦЕПЦИИ
- •2.1 Данные
- •2.2 Данные и информация
- •2.3 Данные как актив организации
- •2.4 Принципы управления данными
- •2.5 Проблемы управления данными
- •2.6 Стратегия управления данными
- •3. РАМОЧНЫЕ СТРУКТУРЫ УПРАВЛЕНИЯ ДАННЫМИ
- •3.1 Модель стратегического выравнивания
- •3.2 Амстердамская информационная модель
- •3.3 Рамочная структура DAMA-DMBOK
- •3.4 Пирамида DMBOK (Айкен)
- •3.5 Дальнейшая эволюция рамочной структуры управления данными DAMA
- •4. DAMA И DMBOK
- •5. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 2. Этика обращения с данными
- •1. ВВЕДЕНИЕ
- •2. БИЗНЕС-ДРАЙВЕРЫ
- •3. ОСНОВНЫЕ ПОНЯТИЯ И КОНЦЕПЦИИ
- •3.1 Этические принципы, связанные с данными
- •3.2 Основополагающие принципы законодательства о конфиденциальности данных
- •3.3 Этические аспекты работы с данными в режиме онлайн
- •3.4 Риски, обусловленные неэтичными практиками обращения с данными
- •3.5 Формирование культуры этичного обращения с данными
- •3.6 Этика обращения с данными и руководство данными
- •4. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 3. Руководство данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение задач и функций руководства данными в организации
- •2.2 Проведение оценки готовности
- •2.3 Выявление возможностей / угроз и согласование с бизнесом
- •2.4 Создание точек взаимодействия внутри организации
- •2.5 Разработка стратегии руководства данными
- •2.6 Определение операционной рамочной структуры руководства данными
- •2.7 Выработка целей, принципов и политик
- •2.8 Поддержка проектов в области управления данными
- •2.9 Внедрение практики управления организационными изменениями
- •2.10 Внедрение практики управления проблемными вопросами
- •2.11 Оценка требований по нормативно-правовому соответствию
- •2.12 Внедрение руководства данными
- •2.13 Поддержка стандартов и процедур
- •2.14 Разработка бизнес-глоссария
- •2.15 Координация взаимодействия с архитектурными группами
- •2.16 Оказание содействия в финансовой оценке данных
- •2.17 Встраивание руководства данными в процессы
- •3. ИНСТРУМЕНТЫ И МЕТОДЫ
- •3.1 Присутствие в Сети / Веб-сайты
- •3.2 Бизнес-глоссарий
- •3.3 Инструменты для управления потоками работ
- •3.4 Инструменты для управления документами
- •3.5 Оценочная ведомость руководства данными
- •4. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •4.1 Организация и культура
- •4.2 Согласование действий и коммуникации
- •5. МЕТРИКИ
- •6. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 4. Архитектура данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Результаты и практики разработки архитектуры данных
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Внедрение практики разработки и сопровождения архитектуры данных
- •2.2 Интеграция с корпоративной архитектурой
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Программное обеспечение для управления ИТ-активами
- •3.3 Приложения для графического проектирования
- •4. МЕТОДЫ
- •4.1 Проекции на фазы жизненного цикла
- •4.2 Четкость и ясность графических представлений
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО АРХИТЕКТУРОЙ ДАННЫХ
- •6.1 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 5. Моделирование и проектирование данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 План проведения работ по моделированию данных
- •2.2 Построение модели данных
- •2.3 Проверка и оценка качества моделей данных
- •2.4 Сопровождение моделей данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Инструменты для отслеживания происхождения данных
- •3.3 Инструменты профилирования данных
- •3.4 Репозитории метаданных
- •3.5 Шаблоны моделей данных
- •3.6 Отраслевые модели данных
- •4. ЛУЧШИЕ ПРАКТИКИ
- •4.1 Лучшие практики в области соглашений об именовании
- •4.2 Лучшие практики проектирования баз данных
- •5. РУКОВОДСТВО МОДЕЛИРОВАНИЕМ И ПРОЕКТИРОВАНИЕМ ДАННЫХ
- •5.1 Управление качеством моделей и проектных решений
- •5.2 Метрики моделирования данных
- •6. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 6. Хранение и операции с данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Управление технологиями баз данных
- •2.2 Управление базами данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Инструменты мониторинга баз данных
- •3.3 Инструменты управления конфигурацией баз данных
- •3.4 Инструменты разработки приложений
- •4. МЕТОДЫ
- •4.1 Тестирование в средах более низкого уровня
- •4.2 Стандарты именования для физической модели данных
- •4.3 Использование сценариев для внесения любых изменений
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО ХРАНЕНИЕМ И ОПЕРАЦИЯМИ С ДАННЫМИ
- •6.1 Метрики
- •6.2 Отслеживание и учет информационных активов
- •6.3 Аудит и проверка корректности данных
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 7. Безопасность данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Выявление требований по безопасности данных
- •2.2 Определение политики безопасности данных
- •2.3 Определение стандартов в области безопасности данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Антивирусное программное обеспечение
- •3.2 Протокол HTTPS
- •3.3 Технологии управления идентификацией
- •3.4 Системы обнаружения и предотвращения вторжений
- •3.5 Межсетевые экраны
- •3.6 Отслеживание метаданных
- •3.7 Маскировка / Шифрование данных
- •4. МЕТОДЫ
- •4.1 Использование CRUD-матриц
- •4.2 Немедленное развертывание обновлений безопасности
- •4.3 Атрибуты безопасности в метаданных
- •4.4 Метрики
- •4.5 Учет потребностей в безопасности данных в проектных требованиях
- •4.6 Эффективный поиск в массиве зашифрованных данных
- •4.7 Санитизация документов
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •5.3 Доступность информации о наборах прав пользователей
- •5.4 Обеспечение безопасности данных в условиях аутсорсинга
- •5.5 Обеспечение безопасности данных в облачных средах
- •6. РУКОВОДСТВО БЕЗОПАСНОСТЬЮ ДАННЫХ
- •6.1 Безопасность данных и корпоративная архитектура
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 8. Интеграция и интероперабельность данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование и анализ
- •2.2 Проектирование решений по интеграции данных
- •2.3 Разработка решений по интеграции данных
- •2.4 Внедрение и мониторинг
- •3. ИНСТРУМЕНТЫ
- •3.1 Программный комплекс для преобразования данных / ETL-инструмент
- •3.2 Сервер виртуализации данных
- •3.3 Корпоративная шина данных (ESB)
- •3.4 Программный комплекс для управления бизнес-правилами
- •3.5 Инструменты моделирования данных и процессов
- •3.6 Инструменты профилирования данных
- •3.7 Репозиторий метаданных
- •4. МЕТОДЫ
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО DII
- •6.1 Соглашения о совместном доступе к данным
- •6.2 DII и происхождение данных
- •6.3 Метрики для оценки эффективности интеграции данных
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 9. Управление документами и контентом
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование управления жизненным циклом
- •2.2 Управление жизненным циклом документов и контента
- •2.3 Публикация и доставка контента
- •3. ИНСТРУМЕНТЫ
- •3.1 Системы управления корпоративным контентом
- •3.2 Инструменты поддержки совместной работы
- •3.3 Инструменты управления контролируемыми словарями и метаданными
- •3.4 Стандартные форматы разметки и обмена
- •3.5 Технологии e-discovery
- •4. МЕТОДЫ
- •4.1 Сценарий подготовки электронной доказательной базы
- •4.2 Карта данных, которые могут быть найдены и представлены
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО УПРАВЛЕНИЕМ ДОКУМЕНТАМИ И КОНТЕНТОМ
- •6.1 Рамочные структуры руководства информацией
- •6.2 Рост объемов информации
- •6.3 Управление качеством контента
- •6.4 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 10. Справочные и основные данные
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Работы по управлению основными данными
- •2.2 Работы по управлению справочными данными
- •3. ИНСТРУМЕНТЫ И МЕТОДЫ
- •4. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •4.1 Строгое следование архитектуре основных данных
- •4.2 Мониторинг движения данных
- •4.3 Управление изменениями справочных данных
- •4.4 Соглашения о совместном использовании данных
- •5. ОРГАНИЗАЦИОННЫЕ И КУЛЬТУРНЫЕ ИЗМЕНЕНИЯ
- •6. РУКОВОДСТВО СПРАВОЧНЫМИ И ОСНОВНЫМИ ДАННЫМИ
- •6.1 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 11. Ведение хранилищ данных и бизнес-аналитика
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Выработка понимания требований к DW
- •2.2 Определение и сопровождение архитектуры DW/BI
- •2.3 Проектирование и разработка хранилища и витрин данных
- •2.4 Заполнение хранилища данных
- •2.5 Внедрение портфеля инструментов BI
- •2.6 Сопровождение информационных продуктов
- •3. ИНСТРУМЕНТЫ
- •3.1 Репозиторий метаданных
- •3.2 Средства интеграции данных
- •3.3 Типы инструментов BI
- •4. МЕТОДЫ
- •4.1 Прототипирование с целью уточнения требований
- •4.2 BI по принципу самообслуживания
- •4.3 Открытые для пользователей данные аудита
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Дорожная карта выпуска релизов
- •5.3 Управление конфигурациями
- •5.4 Организационные и культурные изменения
- •6. РУКОВОДСТВО DW/BI
- •6.1 Обеспечение одобрения со стороны бизнеса
- •6.2 Удовлетворенность клиентов/пользователей
- •6.3 Соглашения об уровне обслуживания
- •6.4 Стратегия в области отчетности
- •6.5 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 12. Управление метаданными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение стратегии работы с метаданными
- •2.2 Выработка понимания требований к метаданным
- •2.3 Определение архитектуры метаданных
- •2.4 Создание и ведение метаданных
- •2.5 Применение метаданных в аналитике и при формировании запросов и отчетов
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты управления репозиторием метаданных
- •4. МЕТОДЫ
- •4.1 Отслеживание происхождения и анализ влияния
- •4.2 Метаданные для обработки больших данных
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО МЕТАДАННЫМИ
- •6.1 Механизмы контроля процессов
- •6.2 Документация, описывающая метаданные
- •6.3 Стандарты и руководства
- •6.4 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 13. Качество данных
- •1. ВВЕДЕНИЕ
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение данных высокого качества
- •2.2 Определение стратегии качества данных
- •2.3 Определение критически важных данных и бизнес-правил
- •2.4 Проведение первичной оценки качества данных
- •2.5 Выявление и приоритизация потенциальных улучшений
- •2.6 Определение целей повышения качества данных
- •2.7 Разработка и внедрение операционных процедур обеспечения качества данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты профилирования данных
- •3.2 Инструменты формирования запросов к данным
- •3.3 Инструменты моделирования данных и средства ETL
- •3.4 Шаблоны правил качества данных
- •3.5 Репозитории метаданных
- •4. МЕТОДЫ
- •4.1 Превентивные меры
- •4.2 Корректирующие меры
- •4.3 Программные модули проверки и аудита качества
- •4.4 Эффективные метрики качества данных
- •4.5 Статистическое управление процессами
- •4.6 Выявление и анализ корневых причин
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО КАЧЕСТВОМ ДАННЫХ
- •6.1 Политика в области качества данных
- •6.2 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 14. Большие данные и наука о данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Стратегическое планирование потребностей бизнеса в больших данных
- •2.2 Выбор источников данных
- •2.3 Определение источников и загрузка данных
- •2.4 Выработка гипотез и выбор методов
- •2.5 Предварительная интеграция / Cогласование данных для анализа
- •2.6 Исследование данных с помощью моделей
- •2.7 Внедрение и мониторинг
- •3. ИНСТРУМЕНТЫ
- •3.1 Технологии и архитектуры MPP без разделения ресурсов
- •3.2 Базы данных на основе распределенных файловых систем
- •3.3 Алгоритмы «в базе данных»
- •3.4 Облачные хранилища больших данных
- •3.5 Языки статистических вычислений и графических представлений
- •3.6 Средства визуализации данных
- •4. МЕТОДЫ
- •4.1 Аналитическое моделирование
- •4.2 Моделирование больших данных
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Согласование со стратегией организации
- •5.2 Оценка готовности / Оценка рисков
- •5.3 Организационные и культурные изменения
- •6. РУКОВОДСТВО В ОБЛАСТИ БОЛЬШИХ ДАННЫХ И НАУКИ О ДАННЫХ
- •6.1 Управление каналами визуализации
- •6.2 Наука о данных и стандарты визуализации
- •6.3 Безопасность данных
- •6.4 Метаданные
- •6.5 Качество данных
- •6.6 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 15. Оценка зрелости управления данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование работ по оценке
- •2.2 Проведение оценки зрелости
- •2.3 Интерпретация результатов
- •2.4 Создание целевой программы совершенствования управления данными
- •2.5 Проведение повторных оценок зрелости
- •3. ИНСТРУМЕНТЫ
- •4. МЕТОДЫ
- •4.1 Выбор рамочной структуры DMM
- •4.2 Возможность использования рамочной структуры DAMA-DMBOK
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ DMMA
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО УПРАВЛЕНИЕМ ЗРЕЛОСТЬЮ
- •6.1 Надзор за процессом DMMA
- •6.2 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 16. Организация управления данными и ролевые ожидания
- •1. ВВЕДЕНИЕ
- •2. ВЫРАБОТКА ПОНИМАНИЯ СУЩЕСТВУЮЩЕЙ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ И КУЛЬТУРНЫХ НОРМ
- •3. СТРУКТУРЫ ОРГАНИЗАЦИОННЫХ СИСТЕМ УПРАВЛЕНИЯ ДАННЫМИ
- •3.1 Децентрализованная операционная модель
- •3.2 Сетевая операционная модель
- •3.3 Централизованная операционная модель
- •3.4 Гибридная операционная модель
- •3.5 Федеративная операционная модель
- •3.6 Выбор оптимальной для организации операционной модели
- •3.7 Альтернативные варианты организационной системы и соображения проектирования
- •4. КРИТИЧЕСКИЕ ФАКТОРЫ УСПЕХА
- •4.1 Куратор в высшем руководстве
- •4.3 Упреждающее планирование изменений
- •4.4 Согласование позиций руководства
- •4.5 Прямая и обратная связь
- •4.6 Обеспечение заинтересованности и участия
- •4.7 Ориентировка, инструктаж и подготовка
- •4.8 Мониторинг восприятия и освоения новых методов
- •4.9 Соблюдение руководящих принципов
- •4.10 Эволюции — да! Революции — нет!
- •5. ПОСТРОЕНИЕ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ УПРАВЛЕНИЯ ДАННЫМИ
- •5.1 Выявление действующих участников управления данными
- •5.2 Определение состава участников Координационного комитета
- •5.3 Выявление и анализ заинтересованных сторон
- •5.4 Привлечение заинтересованных сторон
- •6. ВЗАИМОДЕЙСТВИЕ DMO С ДРУГИМИ ОРГАНАМИ УПРАВЛЕНИЯ
- •6.1 Директор по данным
- •6.2 Руководство данными
- •6.3 Управление качеством данных
- •6.4 Корпоративная архитектура
- •6.5 Особенности управления данными, присущие глобальным организациям
- •7. РОЛИ В ОБЛАСТИ УПРАВЛЕНИЯ ДАННЫМИ
- •7.1 Организационные роли
- •7.2 Индивидуальные роли
- •8. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 17. Управление данными и управление организационными изменениями
- •1. ВВЕДЕНИЕ
- •2. ЭМПИРИЧЕСКИЕ ЗАКОНЫ ПРАКТИКИ ИЗМЕНЕНИЙ
- •3. УПРАВЛЯТЬ НЕ ИЗМЕНЕНИЯМИ, А ПРОЦЕССОМ ПЕРЕХОДА
- •4. ВОСЕМЬ ОШИБОК УПРАВЛЕНИЯ ИЗМЕНЕНИЯМИ ПО КОТТЕРУ
- •4.1 Ошибка № 1: самонадеянность
- •4.2 Ошибка № 2: неспособность создать достаточно мощную поддержку сверху
- •4.6 Ошибка № 6: пренебрежение созиданием краткосрочных побед
- •4.7 Ошибка № 7: преждевременное объявление о победе
- •4.8 Ошибка № 8: Пренебрежение закреплением перемен в корпоративной культуре
- •5. ВОСЕМЬ СТАДИЙ ПРОВЕДЕНИЯ КРУПНОЙ РЕФОРМЫ ПО КОТТЕРУ
- •5.1 Выработка всеобщего понимания ситуации и безотлагательности перемен
- •5.2 Руководящая коалиция
- •6. ФОРМУЛА ИЗМЕНЕНИЙ
- •7. ДИФФУЗИЯ ИННОВАЦИЙ И ПОДДЕРЖАНИЕ ИЗМЕНЕНИЙ
- •7.1 Главные трудности на пути распространения инноваций
- •7.2 Ключевые элементы диффузии инноваций
- •7.3 Пять стадий восприятия инновации
- •7.4 Субъективные причины неприятия или отторжения инноваций и изменений
- •8. ОБЕСПЕЧЕНИЕ ПОДДЕРЖКИ ИЗМЕНЕНИЙ
- •8.1 Острота чувства неотложности или неудовлетворенности
- •8.3 Состав руководящей коалиции
- •8.4 Объективность и осязаемость улучшений
- •9. ДОНЕСЕНИЕ ЦЕННОСТИ УПРАВЛЕНИЯ ДАННЫМИ ДО ВСЕОБЩЕГО ПОНИМАНИЯ
- •9.1 Базовые принципы коммуникаций
- •9.2 Оценка информированности и подготовка целевой аудитории
- •9.3 Задействование элементов неформального общения
- •9.4 План коммуникаций
- •9.5 Продолжение осуществления коммуникаций по завершении внедрения программы управления данными
- •10. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Выражение признательности
- •Предметный указатель
- •Именной указатель
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
1.3 Основные понятия и концепции
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
1.3.1 Наука о данных
Как уже отмечалось во введении, наука о данных объединяет статистический анализ, машинное обучение, интеграцию и моделирование данных для построения прогнозных моделей и выявле ния структурных закономерностей в содержании данных.
Иногда науку о данных трактуют более узко, относя к ней только предиктивное моделиро вание, что не лишено оснований в том смысле, что именно на стадиях моделирования и про гнозирования аналитики больших данных придерживаются естественно-научной методологии в строгом понимании.
Аналитик данных выдвигает гипотезу о возможном наблюдаемом поведении предметов ста тистического описания еще до начала каких-либо действий. Например, часто бывает, что покупка предмета потребления одной категории с высокой вероятностью влечет за собой покупку пред мета потребления другой (пример: покупка жилья влечет за собой покупку мебели). Затем ана литик исследует большие объемы исторических данных с целью проверки справедливости этой гипотезы и определения статистической корреляции между двумя параметрами модели. Если гипотеза подтверждается, а корреляция (показатель обусловленности второго события первым) достаточно высока, модель может стать основной для практического применения в целях прогно зирования поведения или даже использования ее в режиме реального времени — например, для контекстной рекламы.
Разработка решений в науке о данных ведется методом итеративного подключения к модели всё новых и новых источников данных по мере наработки статистически значимых результатов с целью углубления и детализации полученных выводов. Эффективность практического приме нения методологии науки о данных зависит от следующих факторов.
Богатство исходных данных как признак потенциала выявления в них скрытых закономер
ностей и тенденций в поведении организаций или потребителей.
Сопоставление и анализ информации: технические приемы, используемые для понимания смыслового наполнения данных и правильного сочетания их наборов с целью выдвижения и проверки гипотез о взаимосвязях и закономерностях.
Извлечение и выдача информации: обработка массивов данных с применением математиче ских моделей и алгоритмов и создание визуальных и иных представлений выходных данных, позволяющих выявлять глубинные закономерности и характеристики поведения.
Оформление результатов анализа данных с целью их распространения.
Таблица 32 сравнивает роль традиционной модели хранилища данных / бизнес-аналитики с мо делями прогнозной и предписывающей аналитики, которые можно реализовать в рамках мето дологии науки о данных.
Большие данные и наука о данных |
627 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
Таблица 32. Прогресс аналитики
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
Традиционные средства DW/BI |
|
Наука о данных |
|
|
|
|
|
Описание |
Предварительное прогнозирование |
|
Предписание |
|
|
|
|
Осмысление прошлого |
Понимание настоящего |
|
Предвидение будущего |
|
|
|
|
Анализ истории: что произошло; |
Модели прогнозирования: |
|
Сценарный анализ: какая последовательность |
как и почему это случилось? |
что и с какой вероятностью произойдет? |
|
действий даст желаемые результаты? |
|
|
|
|
1.3.2 Процесс осуществления деятельности в области науки о данных
Рисунок 98 иллюстрирует последовательность итераций в рамках процесса осуществления дея тельности в области науки о данных (Data Science process). Результаты на выходе предыдущего эта па этого циклического процесса служат исходными данными для следующего этапа (см. раздел 2).
1. Выбор стратегии больших данных для бизнеса
7. Внедрение
2. Выбор
и мониторинг
источников
данных
6. Проработка |
3. Получение |
данных |
и освоение |
в рамках |
источников |
моделей |
данных |
5. Интеграция / |
4. Выработка |
согласование |
гипотез |
данных |
и методик |
для анализа |
их проверки |
Рисунок 98. Процесс осуществления деятельности в области науки о данных
Наука о данных следует общепринятой методологии познания посредством последователь ного приближения к объективной истине через циклы наблюдений, выдвижения и опытной про верки гипотез, накопление результатов экспериментов в рамках предложенной модели и форму лирование общих теорий, объясняющих совокупность результатов наблюдений и экспериментов.
628 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
В науке о данных этот процесс познания принимает форму наблюдений за данными, создания и оценки годности моделей, объясняющих их поведение.
Определение стратегии и потребностей бизнеса в области изучения больших данных
Сформулируйте требования к желаемым результатам с указанием измеримых материальных выгод от их выполнения.
Выбор источников данных. Идентифицируйте пробелы в имеющейся базе информацион ных ресурсов и изыщите источники данных, которые позволят заполнить эти пробелы.
Получение и освоение источников данных. Получите все необходимые наборы данных или доступ к их источникам с целью загрузки.
Проработка гипотез и методов их проверки средствами науки о данных. Исследуйте источ ники данных с помощью средств профилирования, визуализации, статистического анализа и т. п. с целью уточнения требований. Определите алгоритм модели и необходимые типы вводных и выходных данных или смоделируйте несколько альтернативных гипотез и методов анализа (например, сравнительный анализ группировок данных, выявленных посредством кластеризации, и т. п.).
Интеграция и согласование данных для анализа. Годность модели зависит еще и от качества источников данных. Используйте данные из надежных и достоверных источников. По мере необходимости используйте средства интеграции, очистки и доработки данных с целью по вышения качества и полезности вводимых наборов.
Исследование данных с использованием моделей. Задействуйте средства статистического анализа и алгоритмы машинного обучения для выявления закономерностей на основе ин тегрированных данных. Регулярно проверяйте валидность модели и при необходимости вносите коррективы в параметры модели и настройки алгоритмов самообучения, а по мере накопления статистики дорабатывайте и саму модель. Машинное обучение подразумевает многократные прогоны через модель больших массивов реальных данных с целью проверки гипотез и внесения корректив в настройки алгоритмов (например, выявления выпадающих из общего статистического ряда значений). В процессе такой проработки окончательно уточ няются и требования. Эволюция модели выверяется по изначально определенным метрикам пригодности/реалистичности результатов. С появлением новых гипотез могут потребоваться дополнительные наборы данных, а по результатам их проверки — новые модели, выходные данные и даже требования.
Внедрение и мониторинг. Модели, которые выдают полезную информацию, можно перено сить в производственную среду и использовать для текущего мониторинга ситуации с целью получения данных или, напротив, появления нежелательных тенденций, ставящих под угрозу эффективность текущей бизнес-модели. На этой стадии проекты по изучению данных пре вращаются в обычные рабочие проекты хранилища данных / бизнес-анализа и в среде храни лища обрастают всеми необходимыми техническими доработками и компонентами (проце дурами ETL, DQ, основными данными и т. д.).
Большие данные и наука о данных |
629 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
1.3.3 Большие данные
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
На ранней стадии формирования этого понятия большие данные определялись по признаку соответствия трем «V-характеристикам»: Volume — объем, Velocity — скорость, Variety — раз нообразие (Laney, 2001). Вместе с широким распространением этой концепции в организациях, стремящихся сполна реализовать потенциал колоссальных массивов слабо структурированной информации, число V-характеристик в мнемоническом правиле определения понятия больших данных удвоилось. В наши дни к ним относят данные со следующими характерными свойствами.
Volume объем как мера количества данных: большие данные включают миллиарды полей или записей, описывающих тысячи сущностей или элементов.
Velocity — скорость регистрации/генерирования, обработки или распространения: большие данные зачастую не только создаются, но и распространяются и даже анализируются в режи
|
ме реального времени или близком к нему. |
|
|
Variety/Variability разнообразие/вариативность формы или представления: большие дан |
|
|
ные сохраняются во всевозможных форматах, а их структура зачастую бывает несогласован |
|
|
ной не только между наборами, но и внутри отдельно взятых наборов данных. |
|
|
Viscosity |
вязкость: большие данные крайне трудно поддаются как вычленению из общей |
|
массы, так и анализу и интеграции с целью практического использования. |
|
|
Volatility |
волатильность как мера непостоянства: большие данные крайне переменчивы, |
|
что весьма ограничивает сроки годности полученных с их использованием результатов. |
|
|
Veracity |
правдоподобие по критериям проверки подлинности источника. |
Но главной отличительной особенностью больших данных являются колоссальные объемы за нимаемой ими памяти: сегодня под большими данными по умолчанию понимают нечто свыше 100 терабайт, а то и петабайты или эксабайты данных. В обычных средах с централизованной ар хитектурой DW/BI обработка подобных объемов становится весьма проблематичной, поскольку требует ЦОДа с серьезными серверными мощностями и пропускной способностью каналов связи для их загрузки, моделирования, очистки и анализа. Проблему часто решают за счет массивнопараллельной архитектуры обработки данных или сочетания параллельной обработки с распре деленными вычислениями и облачными хранилищами. Однако всё это не более чем локальные и временные решения, поскольку проблемы, обусловленные нарастанием объемов и потоков больших данных, имеют гораздо более широкие и далеко идущие последствия. Колоссальные размеры наборов данных требуют от нас изменений в общем подходе к хранению данных, досту пу к данным, в концептуальном представлении о данных (в частности, отказа от традиционного мышления категориями структур данных, описываемых реляционными моделями), а также в ме тодах управления данными (Adams, 2009).
Рисунок 99 позволяет составить наглядное представление о расширении спектра данных, ко торые стали доступны благодаря технологиям сбора и анализа больших данных, и о последствиях этого информационного разнообразия с точки зрения емкости требуемых хранилищ данных.
630 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
Эксабайты
Петабайты
Терабайты
Гигабайты
Объемы данных
Интернет вещей
Соцсети и форумы
Сенсоры/сканеры
Аудио/видео
|
Web 2.0 |
Файлы регистрации |
|
Мобильные |
|
|
|
Маркетинг Электронная |
|
||
приложения |
|
||
|
|
торговля |
Блоги |
EWD/BW |
|
Веб-журналы |
|
|
|
||
Клиенты |
|
|
Вики |
Продукты |
|
Сотрудничество |
|
|
|
GPS |
|
|
|
|
|
Партнеры |
|
Реклама |
Тексты/изображения |
|
|
|
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
Скорость Разнообразие Правдоподобие
Места хранения: |
EDW/BW |
Web 2.0 |
Интернет вещей |
|
|
|
|
Рисунок 99. Масштабы задач в области хранения данных1
1.3.4 Компоненты архитектуры больших данных
Для правильного выбора, установки и конфигурации средств сбора и анализа больших данных требуются опытные специалисты. Необходимо разработать дополнительный комплекс архитек турных решений, его согласование с существующими средствами сбора и анализа данных и обо снование необходимости новых приобретений.
Рисунок 100 описывает концептуальную архитектуру рабочей среды для областей DW/BI и больших данных (о DW/BI подробнее в главе 11). Ключевое различие между средами рабо ты с большими данных и традиционного хранилища заключается в порядке операций: в среде DW/BI реализуется последовательность ETL (извлечение → преобразование → загрузка), а в среде больших данных — алгоритм ELT (извлечение → загрузка → преобразование). Это важнейший момент, поскольку большие данные загружаются до их приведения к совместимому с имеющейся структурой данных виду, что необходимо для интеграции. Во многих случаях интеграции в тра диционном смысле приведения к общей модели большим данным и не требуется. Вместо подго товки их к использованию в составе общего комплекса интегрированных данных применяется метод выборочного включения этих данных в процессы, для которых они могут быть полезными (например, в процессе построения модели прогнозирования могут потребоваться какие-то кон кретные наборы данных, — только они и будут интегрированы).
1 Источник: Robert Abate / EMC Corporation. Используется с разрешения правообладателей.
Большие данные и наука о данных |
631 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
Концептуальная архитектуры DW/BI и среды обработки больших данных
Источники |
|
|
|
|
|
|
Хранилище данных |
|
|
|
|
|
BI |
|
||
|
Приложения |
|
|
Подготовка данных |
|
|
|
|
|
|||||||
|
Операционная |
|
|
Повышение качества |
|
|
|
|
|
|||||||
|
отчетность |
|
|
Обогащение и дополнение |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Зависимые |
|
||
|
|
|
|
|
Временное |
|
|
|
|
|
Операционная отчетность |
|||||
|
|
|
|
|
хранение |
|
|
|
|
|
|
|
хранилища |
и аналитика |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
Оперативные |
|
Очистка |
|
|
|
|
|
|
ODS |
Геопространственная |
|||||
|
|
Интеграция |
|
|
|
|
|
|
и демографическая аналитика |
|||||||
|
|
Центральное |
|
|
||||||||||||
|
системы |
|
Обогащение |
|
|
|
|
|
|
|||||||
|
|
|
|
|
Стандартизация |
|
|
хранилище |
|
Управление |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Витрины |
эффективностью |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
Предметно-ориентированные |
|
|
|
DaaS |
|
|
|
Неизменяющиеся |
|
Визуализация данных |
||
|
|
|
C привязкой ко времени |
|
||||
|
|
Справочные |
|
|
||||
Результаты |
|
|
Атомарные |
|
Data & Text |
|||
|
и основные данные |
|
||||||
обработки |
MDM |
Исторические данные |
|
|||||
Кубы |
Mining |
|||||||
больших |
|
|
Конформные |
|
|
|||
|
|
измерения |
|
|
|
|
||
данных |
|
|
|
|
|
Анализ |
||
|
|
|
|
|
|
|||
|
|
|
|
Большие данные |
|
|
неструктурированных данных |
|
|
|
|
|
|
|
|
||
Мультимедиа |
|
|
|
|
|
|
Предиктивный анализ |
|
Датчики |
|
|
|
|
|
Модель |
||
|
|
|
|
|
|
|||
Интернет вещей |
Прием |
Озеро |
Интеграция |
Изучение |
|
|||
Соцсети |
оценки |
|
||||||
|
|
данных |
|
|
|
|||
Web DaaS |
|
|
|
|
|
Машинное обучение |
||
DW |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Рисунок 100. Концепция рабочей среды для областей DW/BI и больших данных
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
Обучение Прогноз Оценка Сравнение Настройка Отчетность
Различия между обработкой данных по схемам ETL и ELT столь значительны, что влияют и на систему управления данными. Например, схема ELT позволяет обойтись вовсе без модели рования данных предприятия. Однако подобное упрощение рискует обернуться утерей большей части информативного содержания обрабатываемых данных в процессе беспорядочного освое ния. Отсюда вытекает еще и обязательность управляемого сбора метаданных о накапливаемых данных, чтобы со временем не утрачивалось понимание их смысла и назначения.
Далее в настоящем разделе описываются источники больших данных, структура озер данных (хранилище большого объема неструктурированных данных) и средства их реализации, а в раз деле 2 — основные направления работ по освоению, интеграции, изучению и оценке результатов анализа больших данных.
1.3.5 Источники больших данных
Значительная часть человеческой деятельности в современном мире осуществляется в электрон ной форме, а значит, ежедневно накапливаются огромные массивы дополнительной информа ции, появление которой обусловлено нашими передвижениями по миру, взаимодействиями друг с другом и всевозможными бизнес-транзакциями. Мы непрестанно генерируем большие данные, отправляя электронные письма, высказываясь в соцмедиа, оформляя онлайн-заказы и даже про сто играя в сетевые видеоигры. Данные генерируются не только компьютерами и смартфонами, но
632 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
и кассовыми терминалами, системами видеонаблюдения, сенсорными датчиками транспортных систем, системами медицинского наблюдения, промышленными, коммунальными, спутниковы ми системами, не говоря уже о военной технике. Например, за один регулярный рейс современ ный гражданский пассажирский самолет генерирует до терабайта данных. Значительную долю больших данных создают всевозможные устройства с интернет-подключением, обменивающиеся информацией с владельцами или между собой, — этот феномен иногда называют интернетом вещей (Internet of Things, IoT).
1.3.6 Озёра данных
Озеро данных — среда накопления массы разнородных по типу и структуре данных, откуда они могут черпаться для сохранения, оценки или анализа. Озёра данных могут создаваться в различ ных целях. Вот лишь некоторые примеры их функционального назначения:
среда для работы специалистов по анализу данных методами науки о данных;
центральное хранилище — накопитель сырых данных, иногда с функцией минимальной предварительной обработки;
альтернативное хранилище детальных архивных версий DW/BI;
онлайн-архив записей;
среда для обработки входящих потоковых данных с функцией автоматического распознава ния структуры.
Озеро данных может быть реализовано в сложной конфигурации с использованием продвину тых средств обработки данных, включая системы управления хранилищами (например, Hadoop), службы кластеризации, преобразования и интеграции данных. Все подобные обработчики озер ных данных специально ориентированы на работу на базе распределенной инфраструктуры хра нения данных и имеют аналитическую оснастку, позволяющую собирать данные согласно задан ной структурной конфигурации.
Главный риск при использовании озера данных заключается в том, что оно имеет тенден цию к быстрому превращению в болото — грязное, запущенное, вязкое и непрозрачное. Чтобы этого не допустить, нужен учет содержания наполнения озера, а для учета содержания — не прерывная маркировка вводимых данных метаданными прямо на входе, что делает управление метаданными важнейшей задачей сопровождения озера данных. Для того чтобы понять характер связей — хотя бы ассоциативных — между данными в озере, архитекторы и проектировщики часто используют уникальные ключи или иные технические приемы (например, семантические или топонимические модели данных), чтобы аналитики и иные разработчики средств визуализа ции данных имели хотя бы приблизительное представление о том, что за информация стекается в озеро данных и как ее можно использовать (см. главу 9).
Большие данные и наука о данных |
633 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
1.3.7 Архитектура на основе сервисов
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-x cha |
|
|
|
|
В последнее время набирает популярность архитектура на основе сервисов (SBA1), позволяющая поначалу немедленно выдавать потребителям данные без гарантии их точности или полноты, а параллельно вести доработку данных из того же источника, чтобы затем сохранить их в полном и точном историческом наборе (Abate, Aiken, Burke, 1997). Архитектура SBA представляет собой вариант архитектуры DW с немедленной отправкой данных, поступающих из операционных си стем, в хранилище операционных данных (ODS) и одновременной доработкой этих данных в об ласти подготовки с последующей отправкой данных в главное DW, где накапливается история. Архитектура SBA предусматривает наличие трех слоев данных — пакетного, скоростного и слоя выдачи (см. рис. 101).
Пакетный слой реализован в среде озера данных, где ведется полная обработка поступающих данных и хранятся как последние, так и исторические данные.
Скоростной слой содержит только текущие данные, поступающие в режиме реального вре мени.
Слой выдачи интерфейс представления сводных данных (текущих и полных).
Скоростной слой
в реальном времени без истории
Источник
данных
Пакетный слой
полная обработка, ведение истории
Рисунок 101. Архитектура на основе сервисов (SBA)
Слой выдачи
сводное
представление
Данные загружаются одновременно в пакетный и скоростной слои. Все аналитические вычис ления производятся и в скоростном, и в пакетном слоях, что требует, как правило, двух раздельных систем обработки. Решение проблем синхронизации путем подбора оптимального компромисса между полнотой, задержкой, точностью и детализацией сводного представления осуществляется через определение параметров слоя выдачи. Для определения требуемого баланса между, например,
1 сокр. от англ. services-based architecture. — Примеч. пер.
634 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
временем запаздывания и точностью или полнотой отображаемых данных, а также стоимостью и сложностью решения, как правило, используется сравнительная оценка издержек/выгод.
Пакетный слой часто называют также накопительным по времени компонентом, поскольку транзакции туда последовательно дописываются, а скоростной слой — хранилищем операцион ных данных (ODS), поскольку там представлены лишь последние транзакции (или, если требует ся, только правки, дельты, приращения и т. п.). Ресурсоемкость подобной архитектуры оправды вает себя там, где требуется исключить всякую возможность рассинхронизации текущего пред ставления с данными в источнике в текущем слое за счет вынесения строгой обработки данных в исторический слой. Слой выдачи данных или служб данных при такой архитектуре извлекает и сводит данные из обоих слоев, используя метаданные. Сервисы данных определяют согласно заданным правилам, из какого слоя какие данные брать для «выдачи» в ответ на те или иные за просы потребителей данных.
1.3.8 Машинное обучение
Машинное обучение исследует методы построения алгоритмов, реализованных в программном обеспечении. Можно рассматривать машинное обучение как синтез методов неконтролируемого самообучения (часто называемых «извлечением информации» — data mining) и методов контро лируемого или управляемого обучения, которые имеют глубокие математические корни, в том числе из статистики, комбинаторики и оптимизации систем. Начала формироваться и третья ветвь — так называемое обучение с подкреплением без учителя: задаются целевые параметры,
исистема упражняется в их соблюдении (пример: автопилот транспортного средства). Програм мирование машин на быстрое усвоение повторяющихся структур запросов и адаптацию к из менениям наборов данных привело к появлению одноименного раздела «машинное обучение»
ив области больших данных, где эта концепция получила совершенно новое применение1. Про цессы прогоняются, результаты сохраняются, а затем используются при последующих прогонах для уточненной настройки процесса, и такие итерации повторяются до получения результата же лаемого уровня точности и детализации.
Машинное обучение занимается структурным построением алгоритмов познания и усвоения знаний. Выделяют три типа таких алгоритмов.
Обучение с учителем основано на применении обобщенных правил (пример: настраиваемый фильтр спама в почтовом приложении).
Обучение без учителя основано на выявлении скрытых паттернов, связей, закономерностей (то есть собственно интеллектуальный анализ данных).
Обучение с подкреплением основано на достижении цели (например, выигрыша шахматной партии).
1 См., например, «Периодическую таблицу методов визуализации» (http://bit.ly/IX1bvI) — интерактивный путево дитель по различным платформам, доступным разработчикам, теоретикам и практикам обучения машин распозна ванию данных.
Большие данные и наука о данных |
635 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
Статистическое моделирование и машинное обучение используют также для автоматизации не реализуемых или слишком затратных процессов в рамках исследовательских и проектных работ, когда требуется, например, методом проб и ошибок подобрать ключ к огромному набору данных, повторяя цикл экспериментальной обработки, анализа результатов и исправления ошибок. Та кой подход позволяет значительно ускорить получение ответа, что и стимулирует организации к инициативам по поиску глубинных закономерностей посредством многократного повторения затратно эффективных процессов. Например, CIVDDD1 использует машинное обучения и ком плексные средства визуализации научных данных с целью оказания помощи государственным органам и миротворческим силам в противостоянии принявшим массовый характер информа ционным угрозам.
Хотя машинное обучение и использует весьма новые способы получения данных, в этой новой области знания должны соблюдаться все традиционные принципы этичного обращения с данны ми, в частности и прежде всего — принцип прозрачности. Появились научные доказательства того, что метод обучения нейронных сетей методом глубокого погружения работает. Они учатся и постигают мир. Однако не всегда ясны механизмы их обучаемости. Чем сложнее становятся алгоритмы, лежащие в основе этих процессов, тем менее они прозрачны — и начинают функцио нировать в режиме «черного ящика». Чем больше переменных учитывают самообучаемые ней ронные сети и чем более абстрактными делаются сами эти переменные, тем больше реализуемые ими алгоритмы испытывают пределы возможностей человека понимать и интерпретировать ло гику машинного мышления (Davenport, 2017). Необходимость обеспечения прозрачности приня тия решений по мере дальнейшего совершенствования функциональности неконтролируемого самообучения и его применения во всё более широком спектре ситуаций, вероятно, будет только возрастать (см. главу 2).
1.3.9 Анализ настроений
Мониторинг медиа и анализ текста относятся к автоматизированным методам извлечения анали тической информации из больших массивов неструктурированных и слабо структурированных данных, включая страницы отзывов, соцмедиа, блоги, новостные веб-сайты и т. п. Делается это для того, чтобы понять и обобщить мнения людей и выявить преобладающее в различных со циальных группах отношение к брендам, продуктам или услугам, а также любым другим темам или явлениям. Используя алгоритмы обработки естественного языка, синтаксического и лекси ческого разбора предложений или формулировок, средства семантического анализа позволяют выявлять не только доминирующую в высказываниях эмоциональную окраску, но и динамику ее изменения во времени, что открывает возможность предсказывать вероятные сценарии дальней шего развития событий.
1 CIVDDD (сокр. от англ. the Centre for Innovation in Information and Data-Driven Design — «Центр инноваций в инфор мационном проектировании») — субсидируемая межуниверситетская программа по изысканию возможностей для использования средств анализа и визуализации больших данных в прикладных информационно-технологических решениях нового поколения, включая новые вычислительные средства, стратегии и интерфейсы представления данных.
636 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
Проиллюстрируем этот подход на простейшем примере поиска и подсчета статистики ча стоты употребления ключевых слов в опубликованных отзывах о продукте. Если в комментарии присутствуют слова «отличный», «восторг», «замечательно» и т. п., вероятно, это позитивный отклик, а присутствие слов «плохой», «дрянь», «гадость» может служить признаком негативного отношения. Распределив отзывы по категориям, можно выяснить преобладающее в целевом со обществе (например, в данной соцсети, блоге и т. п.) отношение. Но, к слову, реальные чувства и эмоции, вызываемые предметом обсуждения, не так легко бывает уловить по причине того, что любое ключевое слово, будучи вырванным из контекста, может быть интерпретировано неверно. Например, слово «ужасно» вроде бы указывает на негативное отношение к ресторану, а в отзыве написано: «Ужасно вкусно!» А формально позитивную характеристику «сказочно» можно най ти в возмущенном отзыве: «Сказочно нерасторопное обслуживание!» Поэтому семантический анализ эмоциональной окраски должен интерпретировать слова только в контексте. А это уже требует понимания смыслового значения всего отзыва или комментария. Для правильной интер претации смысла написанного часто требуются функции обработки естественного языка, реали зованные на сегодняшний день лишь в суперсистемах уровня IBM Watson.
1.3.10 Интеллектуальный анализ данных и текстов
Интеллектуальным анализом данных (или извлечением информации — data mining) принято называть применение к массивам разнородных данных разнообразных алгоритмов выявления скрытых структурных закономерностей. Интеллектуальный анализ данных постепенно отделил ся от машинного обучения и сделался отдельной подобластью исследований по созданию искус ственного интеллекта. Теория интеллектуального анализа данных формально относится к ме тодологии статистического анализа, известной под названием «обучение без учителя», которая предусматривает применение к набору данных неких алгоритмов изучения, никак не связанных с ожидаемым или желаемым результатом. В то время как стандартные средства генерации запро сов и отчетов формулируют вполне конкретные требования к данным, средства интеллектуаль ного анализа данных помогают раскрывать неизвестные ранее взаимосвязи через выявление по вторяющихся структур (паттернов). Извлечение данных — ключевое направление работ на этапе первичного изыскания возможностей, поскольку позволяет оперативно идентифицировать под дающиеся изучению элементы обрабатываемого массива данных, выявлять ранее неизвестные и уточнять нечеткие или неклассифицированные связи, закладывая структурную основу класси фикации элементов изучаемых данных.
В сочетании с семантическим и структурно-лингвистическим анализом текстовой инфор мации интеллектуальный анализ данных позволяет автоматически классифицировать дан ные по признакам их содержания и интегрировать полученные классификации в онтологии, составляемые по мере накопления данных под общим руководством экспертов в предметной области. Таким образом, появляется возможность анализа электронных текстов в различных средах и форматах без их реструктурирования или конвертирования. Накапливаемые онто логии можно подключать к информационно-поисковым системам, что даст пользователям
Большие данные и наука о данных |
637 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
и приложениям возможность получать доступ к этим документам через поисковые запросы (см. главу 9).
Извлечение данных и интеллектуальный анализ текстов основаны на использовании ряда стандартных технических приемов, включая описанные ниже.
Профилирование заключается в описании характерных типов поведения людей, групп или ор ганизаций и используется для определения признаков нормального поведения с целью выявле ния серьезных отклонений от нормы — например, в приложениях по отслеживанию мошенни ческих операций или попыток проникновения в системы. Результаты профилирования служат входными данными для многих компонентов, работающих по принципу самообучения.
Сокращение избыточных данных позволяет заменять исходные, излишне детализирован
ные наборы данных обобщенными, где сохраняются лишь ключевые характеристики или ка тегории, что заметно ускоряет и упрощает обработку и анализ.
Ассоциирование часто встречающихся в связке друг с другом элементов — еще один стан дартный алгоритм выявления взаимосвязей, применяемый в интеллектуальном анализе дан ных. Ассоциативные связи могут использоваться, например, для накопления статистики ча сто встречающихся наборов элементов, выявления скрытых правил, анализа конъюнктуры локальных рынков. Ну и рекомендательные системы в интернете без использования подоб ных алгоритмов, понятно, не обходятся.
Кластеризация: группировка элементов в кластеры по признаку близкого сродства или общно сти неких характеристик упрощает и ускоряет статистический анализ типичных схем и стерео типов поведения. Классический пример кластеризации — сегментация потребительского рынка.
Самоорганизующиеся карты метод кластерного анализа нейронных сетей, известный также под названием самоорганизующихся карт Кохонена1 или топологически упорядочен ных карт. Их использование позволяет снизить размерность пространства оценки без ущерба для результатов аппроксимации. Устранение избыточных пространственных измерений, от метим, по эффективности не уступает изъятию вырожденных переменных из алгебраических уравнений — и решать проще, и результат нагляднее.
1.3.11 Предиктивная аналитика
Предиктивной аналитикой называют подраздел обучения с учителем, в рамках которого поль зователи пытаются смоделировать элементы данных и предсказать будущие исходы по оцени ваемым вероятностям событий. В методах теории вероятностей и математической статистики прогнозная аналитика, однако, имеет много общего с обучением без учителя в части прописыва ния, например, предельно допустимых отклонений полученных результатов от предполагаемых, после чего требуется пересмотр гипотез.
1 Теуво Калеви Кохонен (фин. Teuvo Kalevi Kohonen, р. 1934) — финский теоретик искусственных нейронных сетей и алгоритмов машинного обучения. Самоорганизующиеся карты — частный случай векторного квантования сети ней ронов в так называемом слое Кохонена, где закрепляются алгоритмы, приводящие к успеху. — Примеч. пер.
638 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
Таким образом, предиктивная аналитика основана на использовании обычных вероятност ных (стохастических) моделей обработки вводных данных (включая исторические) для определения вероятности будущих событий (покупок, ценовых изменений и т. п.). При получении ин формации, выходящей за рамки текущей модели, сама же модель и запрашивает у организации порядок дальнейших действий. Фактором запуска может служить любое событие: заказ в ин тернет-магазине, текст в новостной ленте, образ в системе распознавания лиц, непредвиденный всплеск спроса на услуги. Пусковым моментом могут являться и внешние факторы. Например, появление негативных материалов о компании в СМИ — верный признак скорого снижения бир жевых котировок ее акций. А способность прогнозировать динамику биржевых котировок по но востям — отличное функциональное свойство средств аналитики данных с точки зрения игроков на фондовых рынках.
Зачастую превышение критического порога потока каких-либо характерных данных в режи ме реального времени (например, биржевых сделок или обращений в экстренную службу) служит причиной для запуска цепи всевозможных последствий в динамично меняющейся и нестабиль ной среде. Мониторинг потока событийных данных позволяет устанавливать пороги счетчиков критических событий, определяемых в рамках модели и служащих сигналом для выдачи преду преждения или запуска каких-либо действий.
Запас времени, которое остается в распоряжении у получателей сигнала о прогнозируемом событии до фактического наступления этого события, нередко бывает мизерным (вплоть до долей секунды). Поэтому инвестиции в технологии быстрого реагирования (в частности, рези дентные базы данных, широкополосные каналы связи и даже физический перенос ЦОД в непо средственную близость к объекту — источнику данных) оправдываются, если позволяют реально повысить способность к прогнозированию и оперативному реагированию на прогноз.
Простейшая модель прогнозирования — статистическая. Существует множество методик статистического прогнозирования, основанных на выявлении тенденций с экстраполяцией, ре грессионном анализе и т. п., но в любом случае требуется сглаживание. Простейший вариант сглаживания данных реализуется путем расчета скользящего среднего или средневзвешенного значения. В специфических случаях могут применяться более сложные техники сглаживания, такие как расчет экспоненциального скользящего среднего, что позволяет управлять коэффи циентом сглаживания (фильтрации флуктуаций). Для начала можно применить один из методов регрессионного анализа — метод наименьших квадратов, но в любом случае требуется несколько пробных прогонов для подбора оптимального коэффициента сглаживания. Существуют модели с двумя и более фильтрами экспоненциального сглаживания, позволяющие учитывать, напри мер, недельные колебания на фоне сезонных.
1.3.12 Предписывающая аналитика
Предписывающим анализом называют прогнозный анализ, дополненный определениями коррек тирующих воздействий на ситуацию с целью изменения конечных результатов, а не ограничиваю щийся простым их прогнозированием. Таким образом, предписывающая аналитика позволяет
Большие данные и наука о данных |
639 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
предсказывать, что случится, когда это случится и — главное — по совокупности каких факторов это случится. Будучи способным демонстрировать последствия различных сочетаний решений, предписывающий анализ позволяет моделировать их комбинации с целью максимизации выиг рыша или минимизации риска. Методы предписывающего анализа удобны тем, что предусма тривают возможность непрерывной подачи на вход скорректированных вводных и перерасчета прогнозов с выдачей скорректированных предписаний. Это повышает и точность прогноза, и ре зультативность предписаний.
1.3.13 Методы анализа неструктурированных данных
Анализ неструктурированных данных основан на сочетании различных методов анализа тек стов, ассоциаций, кластеров и прочих вышеописанных методов обучения без учителя, помогаю щих кодифицировать большие наборы слабо структурированных данных. Могут использоваться и методы обучения с учителем: например, для того чтобы задать направление, ориентацию и на ставления машинному мышлению на правильный подход к кодированию выявляемых структур ных зависимостей, — и часто лишь человеческое вмешательство позволяет избежать невнятно сти формулировок или разрешить неоднозначности.
Значение анализа неструктурированных данных возрастает пропорционально нарастанию их доли в мировом информационном пространстве. Бывает, что анализ какого-либо явления просто невозможен без включения в аналитическую модель неструктурированных данных. Однако ана лиз неструктурированных данных осложняется необходимостью предварительного отделения интересующих исследователей данных от лишних элементов.
Сканирование и тегирование — единственный способ «выуживания» полезных неструктури рованных данных из озера, позволяющий отфильтровать их от «воды» и привязать к структури рованным данным. Тем не менее тут возникает следующая проблема: какими тегами маркировать данные, не зная заранее их содержания, и как определить условия тегирования? Ответ может быть получен только итерационным путем: по мере выявления реальных условий тегирования уточняются и начинают присваиваться теги, а по мере поглощения и освоения тегированных дан ных аналитики проверяют правильность условий тегирования, анализируют выловленные дан ные — и постепенно уточняются и согласуются все условия тегирования и структура тегов, а по мере надобности могут добавляться и новые теги.
1.3.14 Операционная аналитика
Концепция операционной аналитики (она же операционная BI, бизнес-аналитика, потоковая аналитика данных и т. п.) появилась в результате интеграции в операционную деятельность функций анализа данных в режиме реального времени. Средства операционного анализа вклю чают сегментацию пользователей, анализ эмоциональной окраски, геокодирование и другие приемы потоковой обработки данных в целях анализа эффективности маркетинговых кам паний, охвата рынков, популярности продуктов, оптимизации ресурсов, управления рисками и т. д. и т. п.
640 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
Операционная аналитика предусматривает встраивание средств слежения в потоки опера тивной информации в режиме реального времени, обработку сигналов алгоритмами моделей прогнозирования поведения и запуск автоматических откликов или сигналов тревоги. Разработ ка модели, триггеров и откликов требует предварительного анализа данных. Проект операци онно-аналитического решения должен включать подготовку исторических данных для предва рительного задания начальных значений в моделях поведения. Например, в модели розничной торговли требуется оценить типичные наборы взаимодополняющих продуктов в покупательских корзинах. В моделях прогнозирования фондового рынка обычно используются исторические данные о котировках и динамике их изменения. Расчеты пороговых значений запуска отклика на основании предварительно заполненных полей также обычно производятся заранее.
После подтверждения полезности и окупаемости прогностических моделей ретроспективные данные в них начинают дополняться и замещаться текущими (включая поступающие в режиме реального времени и потоковые, структурированные и неструктурированные). Решение должно гарантировать корректную обработку потоков оперативных данных согласно правилам модели, безошибочное срабатывание сигнализаций о выходах измеряемых параметров за пределы допу сков и защиту от ложных срабатываний автоматики.
1.3.15 Визуализация данных1
Визуализация данных — процесс интерпретации концепций, идей и фактов через наглядные пред ставления, включая фотографии, рисунки, коллажи и всевозможные графики и схемы. Визуали зация упрощает понимание иллюстрируемых данных, обеспечивая наглядность и лаконичность их сводного (например, графического) представления. Визуализация позволяет предельно сжато и доходчиво отображать наиболее характерные данные с целью навести зрителей на полезные выводы о скрытых возможностях, рисках или смыслах.
Визуальные представления могут быть как статичными (например, в формате иллюстриро ванного отчета), так и анимированными, динамично обновляемыми и даже интерактивными, то есть позволяющими конечному пользователю переходить на различные уровни детализации, накладывать фильтры и иным образом упрощать себе визуальный анализ данных. В качестве варианта может предусматриваться и переключение пользователем режима отображения данных в инновационные форматы, такие как интерактивные географические карты и динамические ландшафтные пейзажи данных.
Анализ данных уже давно немыслим без средств визуализации. Все традиционные инструмен ты бизнес-анализа обязательно включают широкий выбор средств визуального представления
1 Визуализация данных — динамично развивающаяся область прикладной науки. Принципы визуального представ ления данных, в целом, основываются на принципах инженерного проектирования (см.: Tufte, 2001; McCandless, 2012). В интернете можно найти множество ресурсов с примерами, как подтверждающими, так и опровергающими справедливость такого представления. См. также «Периодическую таблицу методов визуализации» (http://bit.ly/IX1bvI) и другие ресурсы, опубликованные на сайте швейцарского межуниверситетского проекта визуального ликбеза visualliteracy.org.
Большие данные и наука о данных |
641 |