Главная
Блог разработчиков phpBB
 
+ 17 предустановленных модов
+ SEO-оптимизация форума
+ авторизация через соц. сети
+ защита от спама

Вступление в обзор данных с поддержкой Pandas

Anna | 16.06.2014 | нет комментариев
Сегодня речь пойдет о пакете Pandas. Данный пакет делает Python сильным инструментом для обзора данных. Пакет дает вероятность строить сводные таблицы, исполнять группировки, предоставляет комфортный доступ к табличным данным, а при наличии пакета matplotlib дает вероятность рисовать графики на полученных комплектах данных. Дальше будут показаны основы работы с пакетом, такие как загрузка данных, обращение к полям, фильтрация и построение сводных.

Основные конструкции данных и их загрузка

Для начала, скажем, пару слов о конструкциях хранения данных в Pandas. Основными являются Series и DataFrame.
Series – это проиндексированный одномерный массив значений. Он схож на примитивный словарь типа dict, где имя элемента будет соответствовать индексу, а значение – значению записи.
DataFrame — это проиндексированный многомерный массив значений, соответственно всякий столбец DataFrame, является конструкцией Series.
Выходит, со конструкциями чуток разобрались. Перейдем непринужденно к работе с пакетом. Для начала обзора каких-либо данных их нужно загрузить. Pandas предоставляет широкий выбор источников данных, скажем:

  • SQL
  • Текстовые файлы
  • Excel файлы
  • HTML

Подробней о них дозволено прочитать в документации.
Для пример загрузим 2 текстовых файла. Это дозволено сделать функцией read_csv():

from pandas import read_csv
df1 = read_csv("df1.txt")
df2 = read_csv("df2.txt",";")  #второй довод задает разграничитель

Сейчас у нас есть 2 комплекта данных df1, содержащий магазины и число отгрузок:

shop qty
427 3
707 4
957 2
437 1

И df2, содержащий магазин и его город:

shop name
347 Киев
427 Самара
707 Минск
957 Иркутск
437 Москва

Базовые операции с комплектами данных

Над комплектами данных дозволено исполнять разные действия, скажем объединение, добавление столбцов, добавление записей, фильтрация, построение сводных и другие. Давайте сейчас, Дабы продемонстрировать все описанные выше вероятности, следующие задачи:

  1. в комплект с городами магазинов добавим поле `country` и заполним соответствующими странами
  2. предпочтем украинский магазин и поменяем его номер
  3. добавим магазин, полученный на предыдущем шаге, к всеобщему списку
  4. добавим число из df1 к комплекту df2
  5. возведем сводную таблицу по странам и числу отгрузок

Выходит, для добавления нового столбца в комплект данных существует команда insert():

country = [u'Украина',u'РФ',u'Беларусь',u'РФ',u'РФ']
df2.insert(1,'country',country) 

В нашем случае функции передается 3 довод:

  1. номер позиции, куда будет вставлен новейший столбец
  2. имя

Источник: programmingmaster.ru

Оставить комментарий
Форум phpBB, русская поддержка форума phpBB
Рейтинг@Mail.ru 2008 - 2017 © BB3x.ru - русская поддержка форума phpBB