Post

파이썬 라이브러리 Numpy, Pandas

Numpy 라이브러리

파이썬 프로그래밍에서 수치 계산을 효율적으로 처리하기 위해 사용되는 라이브러리이다.

Numpy 코드

1
2
3
4
5
6
7
8
9
import numpy as np 

arr = np.array([['1','2','3'], ['4','5','6']])

arr.ndim # 2차원 
arr.shape # 2행 3열
arr.dtype # int64

arr.astype(np.float64) # 타입변경

넘파이를 이용한 행렬 생성 및 차원, 구조, 타입 파악에 대한 코드이다.

1
2
3
4
5
6
7
8
arr = np.arange(10)

arr[0:4]

# 6보다 큰 값만 표현하시오.
arr > 6 # Boolean Indexing: True, False

arr[arr > 6]

불리언 인덱싱을 통한 원하는 데이터 추출 방법이다.

1
2
3
4
5
6
7
8
9
10
11
arr = np.arange(10)

arr.reshape(2,5)
arr.reshape(5,2)
# arr1.reshape(3,5)

arr = np.array([30, 100, 90, 50, 10])

new_arr = np.sort(arr)[::-1]

new_arr

배열의 구조 변경과 정렬에 대한 코드이다. 데이터 형식이 수치형이 아니더라도 정렬은 가능하다.

Pandas 라이브러리

데이터 분석과 조작을 용이하게 해주는 파이썬 라이브러리이다.

Pandas 코드

1
2
3
4
5
6
7
8
9
10
11
12
data = ['A', 'B', 'C', 'D', 'E']

se = pd.Series(data)

se.index
se.values

se[0:3]

se.name = 'alphabet'
se.index.name = 'No.'
se

Series는 1개의 컬럼으로 구성된 1차원 데이터 셋이다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
data = {
    'country' : ['kor', 'usa', 'china', 'japan'],
    'rank' : [1,2,3,4],
    'grade' : ['A', 'B', 'C', 'D']
}

df = pd.DataFrame(data)

type(df)
df

# df.loc(인덱스값, 컬럼명) => 좌표값 입력
df.loc[2, ['country', 'grade']]
df.loc[:, ['country', 'grade']] 


# boolean indexing
# | 또는, & 그리고
df[(df['rank'] >= 2) & (df['grade'] == 'B')]

# filter()
df.filter(like='a', axis=1) # 컬럼명을 기준으로 c가 포함된 컬럼을 출력해줘
df.filter(like='a', axis=0) # 인덱스값을 기준으로 c가 포함된 행데이터를 출력해줘

데이터프레임은 데이터를 다루기 가장 편리한 형태로 CRUD 작업을 진행할 수 있다.

This post is licensed under CC BY 4.0 by the author.