๐ ๋ฐ์ดํฐ ๋ถ์ ํ์ต ์ ์ฅ์ (NumPy & Pandas)
Python ๋ฐ์ดํฐ ๋ถ์์ ์ํ ํต์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ NumPy์ Pandas๋ฅผ ์ ๋ฆฌํ ํ์ต ์๋ฃ์
๋๋ค.
ํด๋
๋ผ์ด๋ธ๋ฌ๋ฆฌ
๋ด์ฉ
ํต์ฌ ํค์๋
Numpy
import numpy as np
์์น ์ฐ์ฐ, ๋ค์ฐจ์ ๋ฐฐ์ด
ndarray, reshape, ๋ธ๋ก๋์บ์คํ
Pandas
import pandas as pd
์ ํ ๋ฐ์ดํฐ ๋ถ์
Series, DataFrame, loc, iloc
์ NumPy๋ฅผ ์ฌ์ฉํ๋๊ฐ?
์ฑ๋ฅ : C์ธ์ด๋ก ๊ตฌํ๋์ด Python ๋ฆฌ์คํธ๋ณด๋ค ํจ์ฌ ๋น ๋ฆ
๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ : ๋ ์ ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ
ํ๋ถํ ํจ์ : ์ ํ๋์, ํต๊ณ ๊ด๋ จ ์์น ํจ์ ์ ๊ณต
๋ชจ๋ ํธํ์ฑ : Pandas, SciPy ๋ฑ ๋ค๋ฅธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ธฐ๋ฐ
์ฐจ์
์ด๋ฆ
์ค๋ช
0์ฐจ์
Scalar
๋จ์ผ๊ฐ
1์ฐจ์
Vector
1D ๋ฐฐ์ด
2์ฐจ์
Matrix
2D ๋ฐฐ์ด
3์ฐจ์+
Tensor
๋ค์ฐจ์ ๋ฐฐ์ด
๐ Pandas ์ฃผ์ ๋ด์ฉ
๊ฐ์ฒด
์ฐจ์
์ค๋ช
Series
1D
index + value (๋ผ๋ฒจ์ด ๋ถ์ 1์ฐจ์ ๋ฐฐ์ด)
DataFrame
2D
Excel/DB ํ
์ด๋ธ๊ณผ ์ ์ฌํ 2์ฐจ์ ๊ตฌ์กฐ
# Series (1D)
s = pd .Series ([10 , 20 , 30 ], index = ['a' , 'b' , 'c' ])
# DataFrame (2D)
df = pd .DataFrame ({
'name' : ['Alice' , 'Bob' ],
'age' : [25 , 30 ]
})
๐ ๏ธ ์์ฃผ ์ฌ์ฉํ๋ import
import numpy as np
import pandas as pd
import matplotlib .pyplot as plt
# ๋ฐ์ดํฐ ์ฝ๊ธฐ
df = pd .read_csv ('data.csv' )
df = pd .read_excel ('data.xlsx' )
# ๊ธฐ๋ณธ ํ์ธ
df .head () # ์์ 5ํ
df .info () # ๋ฐ์ดํฐ ํ์
์ ๋ณด
df .describe () # ํต๊ณ ์์ฝ
NumPy : ์ฝ 800์ค ์์ธ ์ค๋ช
Pandas Series : ์ฝ 940์ค ์์ธ ์ค๋ช
Pandas DataFrame : ์ฝ 950์ค ์์ธ ์ค๋ช
์ด 3,000+ ์ค์ ์ค์ ์์ ํฌํจ