Study/A.I

AI스터디를 위한 수학 공부 - [선형회기 사전학습] Day 3: 통계 기초 (Statistics) 이해하기

knowledge hunter 2025. 5. 6. 22:06
728x90
반응형

1. 학습 목표

  • 평균, 분산, 표준편차 등의 기초 통계 개념을 이해한다.
  • 공분산과 상관계수를 통해 변수 간 관계를 분석한다.
  • 선형 회귀에서 통계 개념이 어떻게 활용되는지 이해한다.

2. 데이터의 중심: 평균과 중앙값

(1) 평균 (Mean)

  • 모든 값을 더한 뒤 개수로 나눈 값
  • 공식:

✅ 예제:

(2) 중앙값 (Median)

  • 데이터를 크기순으로 정렬했을 때 중앙에 위치한 값
  • 홀수 개 → 가운데 값, 짝수 개 → 가운데 두 수의 평균

✅ 예제:


3. 데이터의 흩어짐: 분산과 표준편차

(1) 분산 (Variance)

  • 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 지표
  • 공식:

(2) 표준편차 (Standard Deviation)

  • 분산의 제곱근 → 단위가 원래 데이터와 같아짐
  • 공식:

✅ 예제:


4. 두 변수의 관계: 공분산과 상관계수

(1) 공분산 (Covariance)

  • 두 변수의 상관 관계를 측정 (함께 커지거나 작아지는 경향)
  • 공식:

 

(2) 상관계수 (Correlation Coefficient, r)

  • 공분산을 각 변수의 표준편차로 나눈 값 → -1 ~ 1 사이
  • 공식:

✅ 해석:

  • r = 1: 완전 양의 상관
  • r = 0: 상관 없음
  • r = -1: 완전 음의 상관

5. 통계 개념과 선형 회귀의 연결

  • 선형 회귀는 X와 Y의 선형 관계를 찾는 것이므로
  • 상관계수 r 이 높으면 선형 회귀 모델이 잘 맞음
  • 분산과 표준편차는 오차를 측정하는 데 사용됨 (예: 평균제곱오차)
  • 공분산은 회귀계수 계산에 직접적으로 사용됨 (예: 최소제곱법 공식)

6. 연습 문제

  1. 데이터 X = [2, 4, 6, 8]의 평균과 분산, 표준편차를 구하세요.
  2. 데이터 X = [1, 3, 5], Y = [2, 6, 10]의 공분산과 상관계수를 구하세요.
  3. 공분산이 0이면 두 변수는 어떤 관계인가요?
  4. X의 분산이 클수록 회귀선의 기울기는 어떻게 변할까요?
  5. 상관계수가 1에 가까울수록 선형 회귀는 어떤 의미를 갖게 될까요?

 


6. 연습 문제 정답

728x90
반응형
LIST