빅데이터 파이썬 기반

파이썬(Python) 빅데이터 인공지능 돈많이버는 개발자가 꿈이라면 꼭알아야 할 라이브러리

도꺠비 개발자 2022. 8. 25. 20:22
728x90

안녕하세요 오늘은 데이터 분석가 인공지능 입문자 또는 파이썬 입문 자라면 꼭 알아야 할 pandas

 

 

저는 지금  네이버에서 티스토리로 이사 중이라 중간에 내용이 좀 빠져 있을 수도 있습니다

이제 파이썬 빅데이터 인공지능  알려면 꼭 알아야 할 파이썬 판 다스 라이브러리에 대해서 알아

보겠습니다

 

 

 

그전에 파이썬 아나콘다에 주피터 노트북을 사용해 라이브러리를 저는 다운로드하지 않고 할 것인데요 

만약 비주얼 스튜디오나 뭐 다른 에디터를 사용하고 계시다면

pip install pandas라고 파이썬 콘솔에 적으신 후에 다운로드하고 사용하시면 되겠습니다 자 이제

시작하겠습니다 

 

 

1 파이썬(Python) pandas import와 Series

 

웨이와 같이 파이썬 pandas 라이브러리를 import 해야 하는데요 Pandas에서

Series는 index와 값으로 이루어진 자료구조입니다

Series는  맵 또는 딕셔너리랑 비슷한 구조인데요 하지만  Series는

앞에 키의 중복을 허용합니다 그래서 KEY 라고 부지도 않고 ID라고 부르지도 않으며

통상 라벨( label)이라고 많이 부릅니다

 

 

 

2 파이썬(Python) Pandas Series에 도 번호나 이름 붙여주기

s = pd.Series([12,-4,7,9], index=['a', 'b', 'c', 'd'])

이렇게 index = ''하여 순서에 맞게 이름을 줄 수 있습니다 (중복 가능 0) 

 

 

 

 

3 파이썬(Python) pandas indexing 판 단스 인덱스 나 lable로 이름 찾기

 

# pandas  index 안에 키와 값으로 나오는 값을 시리즈라고 한다
# 라벨을 가지고 찾을 수도 있고 인덱스로 가지고 찿을수도 있다 슬라이싱 가능 
s ['a'] , s [0:2]  , s[['a', 'b']] #  옆과 같이 여러 개를 선택하면 시리즈 값을 리턴함

 

 

 

4 파이썬(Python) Pandas 값 바꾸기

파이썬의 판 다스 라이브러리는 index를 해줬어도 번호에 맞게 인덱스를 찾으면 안 온다

즉 index는 우리가 편하게 보기 바꿔놓아도 컴퓨터는 각 자리에 맞게 숫자로 기억하고 있다

# 여러 개를  선택해서 값을 넣을 수 있다
s[[0,1]] = -4
s

 

 

 

5 파이썬(Python) 키와 벨류인 딕셔너리를 Series 로바꿔주기

pd.Series({'a':12, 'b':-4, 'c':7, 'd':9})

 

 

 

6 파이썬(Python) 판 다스 자료구조

s.values 는 전부 안에 구조가 ndarray입니다 

1. 시리즈. values (파이썬 판 다스 값만 전부 다 가져오는 방법)

2. 시리즈. index.values (파이썬 판 다스 인덱스 값만 전부 다 가져오는 방법)

 

 

 

7 파이썬 (Python) list로 판 다스 Serles 만드는 법

nums = [12,-4,7,9]
s = pd.Series(nums)
s [1] = 4
s , nums  이렇게 만들어줄 수 있다 판 다스의 벨류는 list 딕셔너리 nparrray 전부 다 들어갑니다

 

 

8 파이썬(Python)  loc와 iloc 

 

1 iloc : int 값으로 인덱싱

# iloc [] : Position integer , Boolean
# 여기서 labels을 주면 에러가 난다
s.iloc[[1,2,3]], type(s.iloc [1]), s.iloc[[True, False, False, False]]

2 loc : label로 인덱싱

# loc [] : Labels, Boolean
# position integer 값을 주면 에러가 난다
s.index = ['a', 'b', 'c', 'd']
s.loc ['a']
s.loc [s==0]
s.loc[['a', 'b']][0]

 

 

 

9 파이썬 pandas에서 numpy 중 null 값 걸러내기

s2 = pd.Series([5,-3, np.NAN,14])

s2.isnull(), s2.isna(), s2.notnull()

728x90