독서(Reading)/오늘의 책(Today's book)
인공지능을 위한 수학 - 5. 선형회귀
Chann._.y
2025. 6. 7. 22:02
728x90
5.1 회귀 모델로 주택 가격 추정하기
선형회귀모델
입력 변수와 출력 변수 사이의 선형적인 관계를 모델링하는 기법입니다.
단순회귀분석 (Simple Regression Analysis)
설명변수가 하나인 경우에 사용하는 선형회귀 분석입니다.
다중회귀분석 (Multiple Regression Analysis)
설명변수가 여러 개인 경우의 회귀분석입니다.
목적변수 / 종속변수
예측하고자 하는 대상 변수입니다. 예: 주택 가격
설명변수 / 독립변수
결과에 영향을 주는 입력 변수들입니다.
선형성 (Linearity)
입력과 출력 사이의 관계가 직선(선형)으로 표현될 수 있음을 뜻합니다.
바이어스 (Bias)
예측값과 실제값 간의 차이를 의미합니다. 높은 바이어스는 부정확한 예측을 나타냅니다.
5.2 데이터 세트 'Boston Housing Dataset'
데이터 세트
모델 학습과 테스트에 사용하는 구조화된 데이터입니다.
학습 데이터 / 테스트 데이터
- 학습 데이터: 모델을 학습하는 데 사용하는 데이터
- 테스트 데이터: 학습 후 성능 평가에 사용하는 데이터
질적 데이터
- 명목척도 (Nominal Scale): 순서 없이 분류만 하는 데이터
- 서열척도 (Ordinal Scale): 순서가 있지만 간격은 의미 없는 데이터
양적 데이터
- 등간척도 (Interval Scale): 간격이 일정하나 절대적 0이 없는 데이터
- 비율척도 (Ratio Scale): 절대적 0이 존재하며 비율 계산이 가능한 데이터
5.3 선형회귀 모델
가중치 벡터 (Weight Vector)
각 설명변수의 중요도를 나타내는 계수입니다.
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
5.4 최소제곱법으로 파라미터 도출하기
최소제곱법 (Least Squares Method)
모든 예측 오차의 제곱을 더한 값을 최소화하는 방식입니다.
L = Σ(yᵢ - ẑᵢ)²
5.5 정규화로 과학습 줄이기
과학습 (Overfitting)
모델이 학습 데이터에 너무 맞춰져서 새로운 데이터에 일반화되지 않는 현상입니다.
일반화 능력 (Generalization Ability)
새로운 데이터에서도 잘 작동하는 모델의 능력입니다.
정규화 (Regularization)
복잡한 모델의 가중치를 조절해 과학습을 방지하는 기법입니다.
L1 / L2 정규화
- L1 정규화 (Lasso): 가중치를 0으로 만들어 변수 선택 가능
- L2 정규화 (Ridge): 가중치를 줄여 과적합 방지
노름 (Norm)
벡터의 크기를 측정하는 방법으로, 정규화에서 사용됩니다.
손실 함수 (Loss Function)
모델이 얼마나 잘못 예측했는지를 수치화한 함수입니다.
Elastic Net
L1과 L2를 결합한 정규화 기법입니다.
5.6 완성된 모델 평가하기
튜닝 (Tuning)
모델 성능을 높이기 위해 하이퍼파라미터를 조정하는 과정입니다.
홀드아웃 / k-분할 교차 검증법
- 홀드아웃: 데이터를 학습과 테스트로 고정 분리
- k-분할: 데이터를 k개로 나눠 교차 검증 반복
잔차 (Residual)
예측값과 실제값의 차이입니다.
평균제곱오차 (Mean Squared Error, MSE)
MSE = (1/n) Σ(yᵢ - ẑᵢ)²
결정계수 (R²)
모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표로, 1에 가까울수록 좋습니다.
통계 vs 머신러닝
- 통계: 데이터의 구조와 의미 해석에 중점
- 머신러닝: 예측 정확도 향상에 중점
728x90