Добавил:

dipro Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

МИРЭА - Российский технологический университет

Предмет:

Программирование на Python

Файл:

Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf

Скачиваний:

Добавлен:

07.04.2024

Размер:

7.21 Mб

Скачать

☆

<<< < Предыдущая 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 7273 / 7673 74 75 76 > Следующая >>>

Пример анализа тональности: классификация отзывов о товарах 263

	5	0.76	0.95	0.84	57
accuracy				0.68	81
macro	avg	0.17	0.22	0.19	81
weighted	avg	0.54	0.68	0.60	81

Этот отчет содержит сводку основных метрик классификации для каждого класса отзывов. Здесь нам важны метрики поддержки (support) и полноты (recall); дополнительную информацию о других метриках отчета можно найти в документации1.

Метрика поддержки отображает количество отзывов для каждого класса оценок. В частности, она демонстрирует, что отзывы распределены по рейтинговым группам крайне неравномерно, причем тестовый набор данных выявляет ту же тенденцию, что и весь датасет. 57 отзывов из 81 имеет рейтинг из пяти звезд, и только 2 — из двух звезд.

Метрика полноты показывает отношение отзывов, для которых правильно предсказан рейтинг, ко всем отзывам с таким же рейтингом. Например, метрика полноты отзывов с пятью звездами равна 0.95, что означает, что модель с 95-процентной точностью делает прогнозы для отзывов с таким рейтингом, в то время как полнота для отзывов с четырьмя звездами составляет всего 0.14. Поскольку для отзывов с другими оценками правильных предсказаний нет, средневзвешенная полнота для всего тестового набора, которая отображена внизу в отчете, равна 0.68. Это та же оценка точности, которую мы получили в начале этого раздела.

Принимая во внимание все эти моменты, можно прийти к выводу, что проблема заключается в том, что в используемом наборе примеров отзывы крайне неравномерно распределены по рейтинговым группам.

УПРАЖНЕНИЕ № 19: РАСШИРЕНИЕ НАБОРА ПРИМЕРОВ

Как мы только что выяснили, общая точность модели классификации может быть обманчивой, если в наборе данных количество экземпляров каждого класса неравномерно. Попробуйте расширить набор данных, загрузив больше отзывов с Amazon. Постарайтесь получить примерно одинаковое (и достаточно большое) количество экземпляров для каждого показателя рейтинга (скажем, по 500 примеров на группу). Затем повторно обучите модель и снова протестируйте ее, чтобы узнать, повысилась ли точность.

1https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report. html#sklearn.metrics.classification_report

<<< < Предыдущая 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 7273 / 7673 74 75 76 > Следующая >>>

Соседние файлы в предмете Программирование на Python

#
07.04.20247.83 Mб2Elementary Mechanics Using Python- 2015.pdf
#
07.04.20246.11 Mб2Parvez Ahmed - The Ultimate Python Quiz Book - 2024.pdf
#
07.04.202411.31 Mб2primer_on_scientific_programming_with_python.pdf
#
07.04.202414.71 Mб6Python. Полное руководство [2022] Кольцов Д.М..pdf
#
07.04.202420.51 Mб3Бэрри П. - Изучаем программирование на Python (Мировой компьютерный бестселлер) - 2022.pdf
#
07.04.20247.21 Mб7Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf
#
07.04.20248.59 Mб4Внутри CPython гид по интерпретатору Python.pdf
#
07.04.202414.76 Mб4Воган Ли - Python для хакеров (Библиотека программиста) - 2023.pdf
#
07.04.202412.74 Mб4Марченко А. Л. - Python, большая книга примеров - 2023.pdf
#
07.04.20242.73 Mб5Мокеев В.В. - WEB-аналитика на Python - 2020.pdf
#
07.04.20246.73 Mб5Практическое введение в основные библиотеки и фреймворки Python 2023.pdf