pandasパンダを始める

備考

Pandasは、「リレーショナル」や「ラベル付け」されたデータを簡単かつ直感的に扱えるように設計された、高速、柔軟性、表現力豊かなデータ構造を提供するPythonパッケージです。 Pythonで実用的で実世界のデータ分析を行うための基本的な高水準ビルディングブロックを目指しています。

公式のパンダのドキュメントはここにあります

バージョン

パンダ

バージョン発売日
0.19.1 2016年11月03日
0.19.0 2016-10-02
0.18.1 2016-05-03
0.18.0 2016-03-13
0.17.1 2015-11-21
0.17.0 2015-10-09
0.16.2 2015-06-12
0.16.1 2015-05-11
0.16.0 2015-03-22
0.15.2 2014-12-12
0.15.1 2014-11-09
0.15.0 2014-10-18
0.14.1 2014-07-11
0.14.0 2014-05-31
0.13.1 2014-02-03
0.13.0 2014-01-03
0.12.0 2013-07-23

インストールまたはセットアップ

パンダをセットアップまたはインストールする詳しい手順は、公式文書に記載されています

Anacondaでパンダをインストールする

pandasNumPySciPyスタックの残りの部分は、経験の浅いユーザーにとっては少し難しいかもしれません。

pandasだけでなく、PythonやSciPyスタック(IPython、NumPy、Matplotlibなど)を構成する最も人気のあるパッケージをインストールする最も簡単な方法は、クロスプラットフォーム(Linux、Mac OS X、Windows)のAnacondaです。データ解析と科学計算のためのPython配布。

シンプルなインストーラを実行すると、ユーザは他のソフトウェアをインストールすることなく、ソフトウェアのコンパイルを待つことなく、パンダやその他のSciPyスタックにアクセスできます。

Anacondaのインストール手順はこちらをご覧ください

Anacondaディストリビューションの一部として利用可能なパッケージの完全なリストがここにあります

Anacondaをインストールすることのもう一つの利点は、インストールするための管理者権限を必要とせず、ユーザーのホームディレクトリにインストールされ、後でAnacondaを削除するだけです(そのフォルダを削除するだけです)。

ミニコンダでパンダをインストールする

前のセクションでは、Panaをアナコンダ配布の一部としてインストールする方法について説明しました。ただし、この方法では、100以上のパッケージをインストールし、数百メガバイトのサイズのインストーラをダウンロードすることになります。

あなたがより多くのパッケージを制御したい、またはインターネット帯域幅が限られている場合は、 Minicondaでパンダをインストールする方が良い解決法かもしれません。

Condaは、Anacondaディストリビューションが構築しているパッケージマネージャです。これは、クロスプラットフォームと言語に依存しないパッケージマネージャーです(pipとvirtualenvの組み合わせに似た役割を果たすことができます)。

Minicondaはあなたが最小限の自己完結型のPythonのインストールを作成し、使用することができますCondaの追加パッケージをインストールするコマンドを。

まずCondaをインストールし、ダウンロードして実行する必要があります。Minicondaがこれを実行します。インストーラはここにあります

次のステップは、新しいconda環境を作成することです(これらはvirtualenvに似ていますが、インストールするPythonのバージョンも正確に指定できます)。ターミナルウィンドウから次のコマンドを実行します。

conda create -n name_of_my_env python

これによりPythonのみがインストールされた最小限の環境が作成されます。あなた自身をこの環境の中に置くには:

source activate name_of_my_env

Windowsの場合、コマンドは次のようになります。

activate name_of_my_env

必要な最後のステップは、パンダをインストールすることです。これは次のコマンドで行うことができます:

conda install pandas

特定のパンダバージョンをインストールするには:

conda install pandas=0.13.1

他のパッケージをインストールするには、例えばIPythonをインストールします:

conda install ipython

Anacondaディストリビューションを完全にインストールするには:

conda install anaconda

pipすることができますが、condaは使用できないパッケージが必要な場合は、単にpipをインストールし、pipを使用してこれらのパッケージをインストールします。

conda install pip
pip install django

通常は、パケットマネージャの1つを使ってパンダをインストールします。

pipの例:

pip install pandas

NumPyを含む多くの依存関係をインストールする必要があり、必要なコードをコンパイルするためにコンパイラーが必要になり、完了に数分かかることがあります。

anaconda経由でインストールする

最初にContinuumサイトからanacondaダウンロードしてください。グラフィカルインストーラ(Windows / OSX)またはシェルスクリプト(OSX / Linux)を実行してください。これにはパンダも含まれます!


150個のパッケージを便利にanacondaにバンドルしたくない場合は、 minicondaをインストールすることができます。グラフィカルインストーラ(Windows)またはシェルスクリプト(OSX / Linux)のいずれかを使用します。

minicondaにpandasをインストールするには:

conda install pandas

anacondaまたはminicondaでパンダを最新バージョンに更新するには:

conda update pandas

こんにちは世界

Pandasがインストールされたら、ランダムに分散した値のデータセットを作成し、そのヒストグラムをプロットすることで、正しく動作しているかどうかを確認できます。

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

ここに画像の説明を入力

データの統計情報(平均値、標準偏差など)を確認してください。

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

記述統計

数値列の記述統計量(平均、標準偏差、観測数、最小値、最大値、および4分位数)は、記述統計のpandasデータフレームを返す.describe()メソッドを使用して計算できます。

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Cは数値列ではないため、出力から除外されていることに注意してください。

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

この場合、この方法は、観察回数、固有の要素の数、モード、およびモードの頻度によって分類データを要約する。