Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
40_алгоритмов_Python.pdf
Скачиваний:
9
Добавлен:
07.04.2024
Размер:
13.02 Mб
Скачать

Алгоритмы обнаружения выбросов (аномалий)

185

1.Разбить твиты на лексемы.

2.Произвести предварительную обработку данных. Удалить стоп-слова, циф­ ры, символы и выполнить стемминг (поиск основы слова).

3.Создать терм-документальную матрицу (Term-Document-Matrix, TDM) для твитов. Отобрать 200 слов, которые чаще всего появляются в уникальных твитах.

4.Отобрать 10 слов, которые прямо или косвенно обозначают концепцию или тему. Например, «мода», «Нью-Йорк», «программирование», «происшествие». Эти 10 слов теперь являются темами, которые мы успешно обнаружили и которые в дальнейшем станут центрами кластеров для твитов.

Теперь перейдем к следующему шагу — кластеризации.

Кластеризация

Как только мы определили темы, назначим их центрами кластеров. Теперь мы можем запустить алгоритм кластеризации методом k-средних, который при­ вяжет каждый твит к одному из центров.

Так выглядит практический пример того, как набор твитов может быть сгруп­ пирован по темам.

АЛГОРИТМЫ ОБНАРУЖЕНИЯ ВЫБРОСОВ (АНОМАЛИЙ)

Согласно словарному определению, аномалия — это нечто отличающееся, не­ нормальное, странное или с трудом классифицируемое. Это отклонение от обще­ принятого правила. В науке о данных аномалия — это точка данных, которая сильно отклоняется от ожидаемой модели. Методы поиска таких точек данных называются методами обнаружения аномалий, или выбросов.

Рассмотрим некоторые сферы применения алгоритмов обнаружения аномалий:

zz мошенничество с кредитными картами;

zz обнаружение злокачественной опухоли при магнитно-резонансной томогра­ фии (МРТ);

zz предотвращение сбоев в кластерах; zz выдача себя за другого на экзаменах; zzнесчастные случаи на шоссе.