Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf
Скачиваний:
7
Добавлен:
07.04.2024
Размер:
7.21 Mб
Скачать

7

Объединение датасетов

Обычно данные распределяются по нескольким кон-

тейнерам, поэтому часто возникает необходимость

объединить различные датасеты в один. В предыду-

щих главах мы уже выполняли некоторые действия по объединению, а в этой рассмотрим методы объединения

датасетов более подробно.

В некоторых случаях такое объединение представляет собой просто добавление одного датасета в конец другого. Например, финансовый аналитик может каждую неделю получать новые биржевые данные, которые необходимо добавить к уже существующей коллекции подобных данных. В других случаях требуется более избирательное объединение нескольких датасетов, имеющих общий столбец, в один сводный набор данных. Например, ритейлеру нужно объединить общие данные об онлайн-заказах с конкретной информацией о товарах, как мы делали в главе 6. В любом случае после объединения данные готовы к дальнейшему анализу — с объединенным датасетом можно выполнять операции фильтрации, группировки или агрегирования.

Как вы узнали из предыдущих глав, датасеты в Python могут храниться в виде встроенных структур данных, таких как списки, кортежи и словари, или быть организованы в виде сторонних структур данных — массивов NumPy или pandas DataFrame. В последнем случае у вас будет более богатый набор инструментов для объединения данных и, следовательно, больше возможностей для удовлетворения определенных условий объединения. Однако это не означает, что успешно объединить встроенные структуры данных Python невозможно. В данной главе