Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
8707.pdf
Скачиваний:
3
Добавлен:
25.11.2023
Размер:
1.83 Mб
Скачать

<

>

задач ML. Инженерия данных связана с данными, а именно с их получением, доставкой, хранением и обработкой. Соответственно, основная задача инженеров — обеспечить надежную инфраструктуру для данных. Если мы посмотрим на иерархию потребностей (рис.2), инженерия данных занимает первые 2–3 этапа: сбор, перемещение и хранение, подготовка данных (см. [7], [8]).

Дата-аналитик - это человек, который проводит первичный анализ данных, статистический анализ данных, оценивает возможность решения разных задач, умеет визуализировать важные свойства данных. В иерархии потребностей (рис.2), анализ данных занимает 3–4 этажи: первичная обработка и анализ данных, подготовка данных, агрегирование, разметка данных или подготовка данных для разметки.

Дата-сайентист - Data Scientist (ученый по данным) — это специалист по интеллектуальной обработке данных, который может и то, что делает аналитик данных. И плюс к этому он имеет какое-то особенное умение или особо узкую специализацию (занимается распознаванием изображений или создает рекомендательные системы). В иерархии потребностей (рис.2), он занимает самые высокие 4–6 этажи. Его отличает хорошая математическая подготовка, навыки подготовки данных, знание и умение применять алгоритмы машинного обучения.

——

Сточки зрения рассмотренных выше задач и профессий, авторы видят основную роль курса

втом, чтобы:

дать понимание спектра задач, которые можно решить с помощью алгоритмов машинного обучения;

дать понимание подходов к решению этих задач, этапов решения, критериев успешности решения, принципов работы алгоритмов машинного обучения и анализа данных;

научить применять современные пакеты программ для решения некоторого ряда задач машинного обучения и анализа данных.

В конце курса слушатель будет понимать как и уметь применять готовые инструменты для решения некоторых задач машинного обучения и анализа данных. Более подробный материал вы можете найти в открытых онлайн-курсах [9,10]

5Вопросы для самоконтроля и контроля

1.Какую задачу можно назвать задачей машинного обучения?

2.Каким требованиям должна отвечать программная система, чтобы ее можно было отнести к реализации машинного обучения?

«

7

»

<

>

3.Чем отличается сильный ИИ от слабого ИИ?

4.Как можно протестировать сильный ИИ?

5.Перечислите иерархию задач машинного обучения

6.Приведите примеры задач, которые приходится решать прежде чем можно будет применить алгоритмы машинного обучения.

7.Какие задачи решает дата-инженер?

8.Какие задачи решает аналитик данных?

9.Кто такой дата-сайентист?

6Практические задания

Задача 6.1 (Постановка задачи ML). Сформулируйте постановку задачи ML для концепции

"Умный Дом". Постановка задачи должна содержать описание:

цели/задачи Task (например, улучшить продажи какого-то интернет-магазина);

критерия качества решения задачи Productivity (например, количество заходов на продающий сайт, количество продаж, суммарная прибыль за месяц и.т.п.);

используемых для решения задачи данных Experience, их происхождение, откуда они берутся и как размечаются

Список источников

[1]Технологии и концепции Industry 4.0 [Электронный ресурс]. URL: https://www.it.ua/ru/knowledge-base/technology-innovation (Дата обращения: 09.02.2022)

[2]Википедия. [Электронный ресурс] Тест Тьюринга (Дата обращения: 09.02.2022)

[3]Блог РБК-Тренды. Что такое машинное обучение и как оно работает. [Электронный ресурс] https://trends.rbc.ru/trends/industry (Дата обращения: 09.02.2022)

[4]Vas3k blog. Машинное обучение для людей [Электронный ресурс] https://vas3k.ru/blog/machine-learning/ (Дата обращения: 09.02.2022)

[5]Whilejean. The AI Hierarchy of Needs. [Электронный ресурс]. URL: https://medium.com/@whilejean0/the-ai-hierarchy-of-needs-270a5caa74c (Дата обращения: 09.02.2022)

«

8

»

<

>

[6]Jeremy Jordan. Building machine learning products: a problem well-defined is a problem halfsolved. [Электронный ресурс] https://www.jeremyjordan.me/ml-requirements/ (Дата обращения: 09.02.2022)

[7]MaxRokatansky. OTUS corporate blog. Кто такие дата-инженеры, и как ими становятся? [Электронный ресурс] https://habr.com/en/company/otus/blog/452670/ (Дата обращения: 09.02.2022)

[8]amokryshev. Основные функции ETL-систем [Электронный ресурс] https://habr.com/en/post/248231/ (Дата обращения: 09.02.2022)

[9]Открытый курс машинного обучения [Электронный ресурс] https://ods.ai/tracks/open-ml- course (Дата обращения: 09.02.2022)

[10]Машинное обучение и нейросетевой анализ данных в Python [Электронный ресурс] https://mooped.net/course/view.php?id=393 (Дата обращения: 09.02.2022)

«

9

»

< — >

Содержание

1

Принцип машинного обучения

2

2

Модели машинного обучения

3

3

Классы задач машинного обучения

5

4

Принцип решения задач обучения с учителем (supervised learning)

7

5

Регрессионный анализ

8

6

Классификация объектов

9

7

Вопросы для самоконтроля и контроля

11

8

Практические задания

11

Список источников

12

1Принцип машинного обучения

Машинное обучение похоже на обучение человека (см. [1], [2]).

Человек учится на своем опыте. Программа обучается на данных, которые она может сама загружать из онлайн-источников и специальных репозиториев.

Чем больше опыт человека, тем лучше он решает новые задачи. Чем больше накоплено данных и больше их используется для обучения параметров выбранной модели, тем лучше модель описывает реальность и может быть использована для более точного решения соответствующих задач.

обучение у человека происходит методом проб и ошибок, корректировок своих представлений после получения результатов своих решений и действий, обобщением накопленного опыта; обучение модели происходит аналогично - модели предъявляют новые данные, описывающие объект/ситуацию/процесс и модель пробует дать ответ на вопрос, если он не совпадает с реальностью, модель корректируется так, чтобы в следующий раз на этих данных дать правильный ответ; так происходит накопление опыта.

Идея применения машинного обучения состоит в организации двух циклов (см. рис. 1):

цикл построения или обучения модели состоит из шагов: собираем и загружаем данные (Collect and load data), готовим данные для обучения модели (Create pipeline), обучаем модель (Train model), оцениваем и улучшаем модель.

«

2

»

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]