pandasНачало работы с пандами

замечания

Pandas - это пакет Python, обеспечивающий быструю, гибкую и выразительную структуру данных, предназначенную для работы с «реляционными» или «помеченными» данными как простой, так и интуитивно понятной. Он призван стать фундаментальным строительным блоком высокого уровня для практического анализа данных реального мира в Python.

Официальную документацию Pandas можно найти здесь .

Версии

Панды

Версия Дата выхода
0.19.1 2016-11-03
0.19.0 2016-10-02
0.18.1 2016-05-03
0.18.0 2016-03-13
0.17.1 2015-11-21
0.17.0 2015-10-09
0.16.2 2015-06-12
0.16.1 2015-05-11
0.16.0 2015-03-22
0.15.2 2014-12-12
0.15.1 2014-11-09
0.15.0 2014-10-18
0.14.1 2014-07-11
0.14.0 2014-05-31
0.13.1 2014-02-03
0.13.0 2014-01-03
0.12.0 2013-07-23

Установка или настройка

Подробные инструкции по установке или установке панд можно найти здесь, в официальной документации .

Установка панд с помощью Anaconda

Установка pandas и остальной части стека NumPy и SciPy может быть немного сложной для неопытных пользователей.

Самый простой способ установить не только pandas, но и Python и самые популярные пакеты, составляющие стек SciPy (IPython, NumPy, Matplotlib, ...), - это Anaconda , кросс-платформенная (Linux, Mac OS X, Windows) Распределение Python для анализа данных и научных вычислений.

После запуска простого установщика пользователь получит доступ к pandas и остальной части стека SciPy без необходимости устанавливать что-либо еще и без необходимости компилировать какое-либо программное обеспечение.

Инструкции по установке для Anaconda можно найти здесь .

Полный список пакетов, доступных в составе дистрибутива Anaconda, можно найти здесь .

Дополнительным преимуществом установки с Anaconda является то, что вам не требуются права администратора для его установки, она будет установлена ​​в домашнем каталоге пользователя, и это также упростит удаление Anaconda на более позднюю дату (просто удалите эту папку).

Установка панд с помощью Miniconda

В предыдущем разделе описано, как установить pandas как часть дистрибутива Anaconda. Однако этот подход означает, что вы установите более ста пакетов и загрузите установщик размером в несколько сотен мегабайт.

Если вы хотите иметь больше контроля над пакетами или иметь ограниченную пропускную способность Интернета, то установка pandas с помощью Miniconda может быть лучшим решением.

Конда - это менеджер пакетов, на котором основан дистрибутив Anaconda. Это менеджер пакетов, который является как межплатформенным, так и языковым агностиком (он может играть аналогичную роль в сочетании с pip и virtualenv).

Miniconda позволяет создавать минимальную автономную установку Python, а затем использовать команду Conda для установки дополнительных пакетов.

Сначала вам понадобится Conda для установки, и загрузка и запуск Miniconda сделает это за вас. Установщик можно найти здесь .

Следующий шаг - создать новую среду conda (они аналогичны виртуальным, но они также позволяют точно указать, какую версию Python также установить). Выполните следующие команды из окна терминала:

conda create -n name_of_my_env python

Это создаст минимальную среду, в которой будет установлен только Python. Чтобы запустить себя в эту среду, выполните следующие действия:

source activate name_of_my_env

В Windows команда:

activate name_of_my_env

Последний шаг - установка панд. Это можно сделать с помощью следующей команды:

conda install pandas

Чтобы установить конкретную версию pandas:

conda install pandas=0.13.1

Чтобы установить другие пакеты, IPython, например:

conda install ipython

Чтобы установить полный дистрибутив Anaconda:

conda install anaconda

Если вам нужны пакеты, доступные для pip, но не conda, просто установите pip и используйте pip для установки этих пакетов:

conda install pip
pip install django

Обычно вы устанавливаете панды с одним из менеджеров пакетов.

Пример примера:

pip install pandas

Это, скорее всего, потребует установки ряда зависимостей, в том числе NumPy, потребует от компилятора компиляции необходимых битов кода и может занять несколько минут.

Установить через anaconda

Сначала загрузите anaconda с сайта Continuum. Либо через графический установщик (Windows / OSX), либо запустите сценарий оболочки (OSX / Linux). Сюда входят панды!


Если вы не хотите, чтобы 150 пакетов были в комплекте в анаконде, вы можете установить миниконду . Либо через графический установщик (Windows), либо скрипт оболочки (OSX / Linux).

Установите pandas на miniconda, используя:

conda install pandas

Чтобы обновить pandas до последней версии в anaconda или miniconda, используйте:

conda update pandas

Привет, мир

Как только Pandas будет установлен, вы можете проверить, работает ли он правильно, создав набор данных случайным образом распределенных значений и построив его гистограмму.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

введите описание изображения здесь

Проверьте некоторые данные статистики (среднее значение, стандартное отклонение и т. Д.).

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Описательная статистика

Описательная статистика (среднее, стандартное отклонение, количество наблюдений, минимальное, максимальное и квартили) числовых столбцов может быть рассчитана с использованием .describe() , который возвращает .describe() pandas описательной статистики.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Заметим, что поскольку C не является числовым столбцом, он исключается из вывода.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

В этом случае метод суммирует категориальные данные по количеству наблюдений, количеству уникальных элементов, режиму и частоте режима.