[기초쌓기] Statistics & Mathematics에 대한 고찰! #1
한창 ML/DL 관련 공부를 할 때 우연히 발견하게 된 깃허브 주소가 있다.
그 곳에서 데이터 엔지니어로써 알고 있어야 할?? 꼭 한 번씩은 스스로 질문을 던져보고 그 답을 찾아보고 싶은 질문들을 던져주고 있었다.
모든 질문을 직접 던져서 그 답을 생각하진 않았었는데 이번 참에 다시 한 번 기초를 되돌아볼 겸 파트별로 질문을 던지고 그 답을 정리해보려고 한다.
그럼 우선 첫 번째, 통계와 수학적인 부분부터!!
## 수시로 업데이트 하는 중~
* 물론 이 답이 '정답'이 아닐 수 있고 내 개인적인 생각 + 공부 내용이다.
* 참고 깃허브 링크: https://github.com/zzsza/Datascience-Interview-Questions
zzsza/Datascience-Interview-Questions
Datascience-Interview-Questions for Korean. Contribute to zzsza/Datascience-Interview-Questions development by creating an account on GitHub.
github.com
1. 고유값(eigen value)와 고유 벡터(eigen vector)란 무엇인가?
- n차 정방행렬 A에 대해서 Ax = λx (상수 λ)가 성립하는 0이 아닌 벡터 x가 존재한다고 가정했을 때
> 행렬 A의 고유값(eigen value)은 상수 λ
> 여기에 해당하는 고유 벡터(eigen vector)는 x
- 연립일차방정식 Ax = λx의 해인 열벡터 x가 고유벡터이다.
1-2. 고유값과 고유 벡터가 중요한 이유는?
- 열벡터 x에 대해 n차 정방행렬 A를 곱하는 결과와 상수 λ를 곱하는 결과가 같다는 의미로 행렬의 곱의 결과가 원래 벡터와 '방향'은 같고 '배율'만 상수 λ배만큼 비례한다는 것!!
- (행렬 x 벡터)를 했더니 벡터의 방향은 그대로인데 크기만 바뀌는 연산이다.
: 선형변환을 하면 벡터의 크기, 방향이 모두 바뀌는데 그 방향을 보존 시켜주는!! 동일한 특징(방향)으로 나아가는 다른 친구들을 찾는 느낌인가
: 선형성을 유지할 수 있음!
- 데이터 분석할 때, SVD / PCA 등에서 자주 볼 수 있다.
2. 샘플링(Sampling)과 리샘플링(Resampling)이란 무엇인가?
1) 샘플링(Sampling)
: 모집단에서 임의의 샘플을 뽑아내는 것 = 표본추출
: 모집단 전체에 대한 조사는 불가능하기 때문에 샘플링을 통해 모집단을 추론하고자 함
: 샘플(표본)은 모집단 자체가 아니기 때문에 모집단의 원래 패턴에서 놓친 부분인 Noise가 존재할 수 밖에 없다.
-> 이런 Noise 때문에 모델링 진행 시, 샘플들(Train Dataset)에 익숙해지는 Overfitting이 발생한다고 하는 것!
2) 리샘플링(Resampling)
: '우리가 가지고 있는 샘플(표본)이 과연 모집단을 얼마나 대표할 수 있을까?' 라는 질문에서 리샘플링이 시작됨
: 샘플에서 다시 샘플의 부분집합을 추출한 후 통계량의 '변동성'(variability of statistics)을 확인하는 것
: 같은 샘플을 여러 번 사용해서 성능 측정하는 방식 (K-fold, bootstrapping 등)
: 대신 그만큼 실제 모델링 시 CPU가 혹사되는....ㅎㅎ
2-2. 리샘플링의 장점은 무엇인가?
- 여러 샘플로부터 통계적인 신뢰 구간을 추론할 수 있음
- 통계학적 표본 분포에 대한 지식이 필요없음
- 모집단 파라미터(모집단 평균)나 모집단 데이터에 대한 가정이나 정보 없이도 표본에 대한 분포 성질을 분석할 수 있음
> 리샘플링을 하면 샘플을 여러 번 추출하면서 원래 데이터셋(모집단)을 최대한 복원하려고 하기 때문.
> 모집단의 어떤 가정도 필요없이 샘플(표본)만으로 추론이 가능!!
3. 확률 변수와 확률 모형이란 무엇인가?
1) 확률 변수
: 확률로 표현하기 위한 이벤트를 정의하는 것
: 어떤 것을 확률로 표현할 것인지에 대한 다양한 정의가 가능하기 때문에 '변수'라는 말을 사용!
2) 확률 모형
: 확률은 불확실성을 표현하는 수단인데 이를 확률로써 계량화하기 위해 확률함수로써 수학적으로 만든 모형을 의미
* 확률함수?
> 확률이 정의된 Sample space에서 확률 변수를 0과 1 사이의 확률로 mapping하는 함수를 의미
> P(X='event') = 'Probability' : 이벤트 X는 확률 변수, P(X)는 확률 함수
4. 누적 분포 함수와 확률 밀도 함수는 무엇인가?
1) 누적 분포 함수(Cumulative Distribution Function)
: cdf는 랜덤 변수 X에 대한 확률 P(X)가 정의 됐을 때, X가 특정 값보다 작거나 같을 확률을 나타내는 함수
: 누적이란 이름은 작은 값들의 확률을 모두 누적해서 구한다는 의미에서 붙여진 것이다.
: 확률 밀도 함수를 적분하면 누적 분포 함수

2) 확률 밀도 함수(Probability Density Function)
: pdf는 연속적인 랜덤 변수 X가 가질 확률을 나타내는 함수 (불연속적인 랜덤 변수일 때는 확률 질량 함수로!)
: 누적 분포 함수가 연속적으로 미분이 가능할 때 pdf가 존재할 수 있다.

: 랜덤 변수에 대해서 cdf는 항상 존재하지만 pdf는 없을 수도 있음! (연속적인 변수일 때만 존재 가능!)
5. 여러 가지 분포에 대한 설명
1) 베르누이 분포