pandas팬더 시작하기

비고

Pandas는 "관계형"또는 "레이블이있는"데이터 작업을 쉽고 직관적으로 처리 할 수 ​​있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지입니다. Python에서 실질적인 실제 데이터 분석을 수행하기위한 기본 고수준 빌딩 블록을 목표로합니다.

공식 팬더 문서 는 여기에서 찾을 수 있습니다 .

버전

판다

번역 출시일
0.19.1 2016-11-03
0.19.0 2016-10-02
0.18.1 2016-05-03
0.18.0 2016-03-13
0.17.1 2015-11-21
0.17.0 2015-10-09
0.16.2 2015-06-12
0.16.1 2015-05-11
0.16.0 2015-03-22
0.15.2 2014-12-12
0.15.1 2014-11-09
0.15.0 2014-10-18
0.14.1 2014-07-11
0.14.0 2014-05-31
0.13.1 2014-02-03
0.13.0 2014-01-03
0.12.0 2013-07-23

설치 또는 설정

판다 설치 또는 설치에 대한 자세한 지침 은 공식 문서에서 확인할 수 있습니다.

아나콘다와 팬더 설치하기

판다와 NumPySciPy 스택의 나머지 부분을 설치하는 것은 경험이 거의없는 사용자에게는 조금 어려울 수 있습니다.

pandas뿐만 아니라 Python과 SciPy 스택 (IPython, NumPy, Matplotlib 등)을 구성하는 가장 인기있는 패키지를 설치하는 가장 간단한 방법은 Anaconda , 크로스 플랫폼 (Linux, Mac OS X, Windows) 데이터 분석 및 과학 컴퓨팅을위한 Python 배포.

간단한 설치 프로그램을 실행 한 후에는 사용자가 팬더와 나머지 SciPy 스택에 액세스 할 수 있으며 소프트웨어를 컴파일 할 때까지 기다리지 않고도 다른 것을 설치할 필요가 없습니다.

아나콘다 설치 지침은 여기에서 찾을 수 있습니다 .

아나콘다 배포판의 일부로 제공되는 패키지의 전체 목록은 여기에서 찾을 수 있습니다 .

Anaconda를 설치하는 또 다른 이점은 설치하는 데 관리자 권한이 필요하지 않으며 사용자의 홈 디렉토리에 설치되므로 나중에 Anaconda를 삭제하는 것이 쉽습니다 (해당 폴더 삭제).

Miniconda로 판다 설치하기

이전 섹션에서는 팬더를 아나콘다 배포판의 일부로 설치하는 방법에 대해 설명했습니다. 그러나이 방법은 100 개가 넘는 패키지를 설치하고 몇 백 메가 바이트 크기의 설치 프로그램을 다운로드하는 것을 의미합니다.

어떤 패키지를 더 잘 제어하고 인터넷 대역폭이 제한적 이라면 Miniconda로 판다를 설치하는 것이 더 나은 해결책 일 수 있습니다.

Conda 는 Anaconda 배포판이 구축 된 패키지 관리자입니다. 이것은 크로스 플랫폼 및 언어에 구애받지 않는 패키지 관리자입니다 (pip 및 virtualenv 조합과 유사한 역할을 수행 할 수 있음).

Miniconda은 당신이 최소한의 아파트형 파이썬 설치를 만든 다음 사용할 수 있습니다 CONDA의 추가 패키지를 설치하는 명령을 사용합니다.

먼저 Conda를 설치하고 다운로드하여 실행하면 Miniconda가이를 수행합니다. 설치 프로그램 은 여기에서 찾을 수 있습니다 .

다음 단계는 새로운 conda 환경을 생성하는 것입니다 (virtualenv와 유사하지만 설치할 Python 버전을 정확하게 지정할 수도 있습니다). 터미널 창에서 다음 명령을 실행하십시오.

conda create -n name_of_my_env python

이렇게하면 파이썬 만 설치된 최소한의 환경이 생성됩니다. 이 환경에 자신을 넣으려면 다음을 실행하십시오.

source activate name_of_my_env

Windows에서 명령은 다음과 같습니다.

activate name_of_my_env

필요한 마지막 단계는 팬더를 설치하는 것입니다. 이 작업은 다음 명령을 사용하여 수행 할 수 있습니다.

conda install pandas

특정 팬더 버전을 설치하려면,

conda install pandas=0.13.1

다른 패키지를 설치하려면, 예를 들어 IPython을 설치하십시오 :

conda install ipython

아나콘다 전체 배포판을 설치하려면,

conda install anaconda

pip 할 수 있지만 conda가없는 패키지가 필요한 경우 pip를 설치하고 pip를 사용하여 다음 패키지를 설치하십시오.

conda install pip
pip install django

일반적으로 패킷 관리자 중 한 명과 함께 팬더를 설치합니다.

pip 예제 :

pip install pandas

NumPy를 포함하여 많은 의존성을 설치해야 할 필요가있을 것입니다. 컴파일러가 필요한 코드를 컴파일해야하고, 완료하는 데 몇 분이 걸릴 수 있습니다.

아나콘다를 통해 설치

먼저 Continuum 사이트에서 아나콘다다운로드 하십시오. 그래픽 설치 프로그램 (Windows / OSX) 또는 쉘 스크립트 (OSX / Linux) 실행 중 하나를 사용하십시오. 여기에는 판다가 포함됩니다!


아나콘다에 편리하게 번들 된 150 개의 패키지를 원하지 않는다면 미니콘다를 설치할 수 있습니다. 그래픽 설치 프로그램 (Windows) 또는 쉘 스크립트 (OSX / Linux).

miniconda에 판다를 설치하려면 :

conda install pandas

anaconda 또는 miniconda에서 pandas를 최신 버전으로 업데이트하려면 다음을 사용하십시오.

conda update pandas

안녕하세요 세계

Pandas가 설치되면 임의로 분산 된 값의 데이터 세트를 만들고 히스토그램을 그려서 올바르게 작동하는지 확인할 수 있습니다.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

여기에 이미지 설명을 입력하십시오.

데이터 통계 (평균, 표준 편차 등) 중 일부를 확인하십시오.

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

기술 통계

숫자 열의 설명 통계 (평균, 표준 편차, 관측 수, 최소, 최대 및 4 분위수)는 기술 통계의 판다 데이터 프레임을 반환하는 .describe() 메서드를 사용하여 계산할 수 있습니다.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

C 는 숫자 열이 아니므로 출력에서 ​​제외됩니다.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

이 경우이 방법은 관측 수, 고유 요소 수, 모드 및 모드 빈도에 따라 범주 데이터를 요약합니다.