Добавил:

dipro Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

МИРЭА - Российский технологический университет

Предмет:

Программирование на Python

Файл:

Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf

Скачиваний:

Добавлен:

07.04.2024

Размер:

7.21 Mб

Скачать

☆

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 1920 / 7620 21 22 23 24 25 26 27 28 29 30 31 32 > Следующая >>>

86 Глава 3. Библиотеки Python для data science

Вот как можно преобразовать отзывы в векторы признаков:

from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer()

vectorizer.fit(reviews)

X_train = vectorizer.transform(reviews_train) X_test = vectorizer.transform(reviews_test)

Прежде всего, создаем объект vectorizer. Затем применяем метод векторизатора fit() для построения словаря из лексем (tokens), найденных в датасете reviews, содержащем все отзывы из обучающего и тестового наборов. После этого используем метод transform() объекта vectorizer для преобразования текстовых данных в обучающем и тестовом наборах в числовые векторы признаков.

Обучение и оценка модели

Теперь, когда у нас есть обучающий и тестовый наборы в виде числовых векторов, можно приступать к обучению и тестированию модели. Сначала обучим классификатор scikit-learn LogisticRegression()для прогнозирования тональности отзыва. Логистическая регрессия — это простой, но популярный алгоритм для решения задач классификации.

Во фрагменте кода ниже мы создаем классификатор LogisticRegression(), затем используем его метод fit() для обучения модели на обучающих данных:

from sklearn.linear_model import LogisticRegression classifier = LogisticRegression() classifier.fit(X_train, sentiment_train)

Теперь нужно оценить, насколько точно модель делает прогнозы, на новых данных. Именно поэтому обычно набор маркированных данных разделяют на обучающий и тестовый, как мы сделали это выше. Так можно оценить модель с помощью тестового набора:

accuracy = classifier.score(X_test, sentiment_test) print("Accuracy:", accuracy)

Оценка точности обычно выглядит следующим образом:

Accuracy: 0.81

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 1920 / 7620 21 22 23 24 25 26 27 28 29 30 31 32 > Следующая >>>

Соседние файлы в предмете Программирование на Python

#
07.04.20247.83 Mб2Elementary Mechanics Using Python- 2015.pdf
#
07.04.20246.11 Mб2Parvez Ahmed - The Ultimate Python Quiz Book - 2024.pdf
#
07.04.202411.31 Mб2primer_on_scientific_programming_with_python.pdf
#
07.04.202414.71 Mб6Python. Полное руководство [2022] Кольцов Д.М..pdf
#
07.04.202420.51 Mб3Бэрри П. - Изучаем программирование на Python (Мировой компьютерный бестселлер) - 2022.pdf
#
07.04.20247.21 Mб7Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf
#
07.04.20248.59 Mб4Внутри CPython гид по интерпретатору Python.pdf
#
07.04.202414.76 Mб4Воган Ли - Python для хакеров (Библиотека программиста) - 2023.pdf
#
07.04.202412.74 Mб4Марченко А. Л. - Python, большая книга примеров - 2023.pdf
#
07.04.20242.73 Mб5Мокеев В.В. - WEB-аналитика на Python - 2020.pdf
#
07.04.20246.73 Mб5Практическое введение в основные библиотеки и фреймворки Python 2023.pdf