Python 빅 데이터 머신 러닝 sklearn linear

빅데이터 파이썬 기반

도꺠비 개발자 2022. 9. 7. 17:22

728x90

저번 글부터는 Python에서 빅데이터를 시각화하는 방법에 대해서 말헀었는데요

빅데이터 가 엄청 많고 거기에 공식화할 수 있는 방법이 없다면 굉장히 힘든 데요 어떤 것이 어떤 것에

대해서 영향을 미치는지 알기 힘들고 분석하기 힘듭니다 그래서 오늘은

sklearn 모듈에 대해서 소개해보겠습니다

sklearn 은 서부 언어로 배웠다 라는 뜻입니다 sklearn의 뜻과 머신러닝 뜻은 일치합니다 즉 컴퓨터도

자기 자신이 학습하는 것을 머신 러닝이라고 하는데요 사실 학습한다는 게 거창한 것이 아닙니다

우리가 알 수 없는 내부 블랙박스로 컴퓨터가 이것에 맞는 식을 만드는 것입니다 오늘은 sklearn 중에

즉 머신 러닝 중에 linear_model (선형 모델) 을배워보겠습니다

선형 모델이 뭐지?라고 생각하면 그냥 데이터 들로 함수 식을 만드는 것이라고 생각하시면 됩니다 지금

이렇게 말로 하면 더 어려우니 아주 간단하게 설명하겠습니다

from sklearn import linear_model

sleanrn에서 linear_model 모듈을 improt 해줍니다

linreg = linear_model.LinearRegression()

이렇게 선형 회귀 모델 객체를 만들어줍니다

데이터를 linreg.fit(문제(x), 문제에 대한 정답 (y ))이라고 하면 다 만든 것입니다 아주 머신러닝의 기초인데요

자제가 밑에다가 예를 하나 들어보겠습니다

x = np.arrange(100)
a = 0.5
b = 20
y = a * x + b

위와 같이 중학교 때 배웠던 1차 함수 식을 만들어줬습니다 a는 기울기 b는 y 절편인데요

no = np.random.randint(-10,10,100) ( 데이터가 골고루 분산될 수 있게끔 하는 데이터 )를 만들어

x = x+ no / y = y+ no x와 y 값의 적당한 데이터를 분산시킵니다

plt.scatter(x, y, s= 10) 그리고 점으로 산점도를 나타내면

이렇게 기울기가 0.5 인 45 도로 기울어진 1차 함수의 값이 나타나는데요

자 여기서 기억해야 할 것은 기울기가 0.5 그리고 y 절편이 20 인 일차함수라는 것을 기억해주세요

자 이제 이 데이터를 학습싴켜보겠습니다

linreg = linear_model.LinearRegression() 이렇게 선형 화귀 객체를 만들어준 후에

linear.fit(x.reshape(-1,1), y ) x와 y 데이터 값을 준비합니다

그 후에 linear.coef_(기울기) / linear.inrercept_(Y절편) 을찍어보면 마술과 같이 저희 위에서 기울기와 y

절편을 정했던 것과 아주 유사한 값이 나옵니다

이렇게 선형 회귀모델은 문제와 문제에 대한 값을 넣어주면 식을 만들어 주는 것입니다 그러면 나중에는

다른 데이터를 넣었을 때도 그식에 맞게 계산합니다 이렇게 위처럼 엄청 쉬운 식이면 그냥 저희가

만들면 되는데 만약 엄청 구하기 힘든 1차 함수 또는 엄청 어려운 기울기를 구하는 식이라고 생각하시면

그거 하다가 아마 1년이 뚝딱 갈수도 있습니다 하지만 컴퓨터는 이러한 값을 몇 초 만에 구해내죠

머신러닝 어려운 것 아니니 꼭 배우시길 바랍니다 이것은 아주 머신러닝의 기초한 식 이자 값들입니다

텐서 플로우 구글에서 만든 머신러닝 엄청 대단하고 유명한 것이 있는데 그걸 하기 전에 꼭 알아야 할 기초

지식입니다 꼭 한번 글 끝가지 읽어봐 주시면 도움될 것입니다 감사합니다

728x90