서론

베이즈정리는 컴퓨터 연산능력의 향상과 빅데이터의 발전과 함께 재조명되었다.

통계학은 베이즈 통계학 이전과 이후로 나뉜다고도 일컬어진다

베이즈정리가 갑자기 왜 중요해졌고, 어떻게 쓰이길래 통계학의 역사를 구분한다고 할까? 

 

목표

베이즈정리를 이해한다.

베이즈정리의 활용사례를 이해한다.

 

정의

베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.

쉬운 말로 풀면 지금 일어난 사건을 활용하여 그 사건의 확률을 구하거나, 이미 알려진 사건의 확률을 활용하여 지금 그 사건이 일어났는가 구할 수 있는 정리이다.

 

배경

과거 통계학은 전수조사의 어려움으로 추측통계와 검증을 메인로 하여 발전하였다.

하지만 컴퓨터 연산능력의 증가로 빅데이터가 쌓이고, 그 빅데이터를 분석할 수 있게 되면서 모수에 아주 근접한 확률을 얻을 수 있게 되었다.

그로 인하여 실험과 경험을 통하여 전체를 추측하는 과거 통계에서, 역으로 전체에서 구체적인 사건의 확률을 구하는 일이 가능해지고 이는 빅데이터분석과 인공지능의 주춧돌이 되었다.

 

예시

코로나에 걸릴 확률과, 검사를 통해 양성이 나올 확률을 생각해보자.

사람들이 코로나에 걸렸을 수도, 안걸렸을 수도 있으며

검사결과 양성이 나왔을 때, 진짜 코로나에 걸려서 양성이 나왔을 수도 있지만, 걸리지 않았는데 검사오류로 양성이 나올 수도 있다.

이때 베이즈정리를 활용하면 `코로나 검사 양성일 때', 내가 코로나에 걸렸을 확률을 알 수 있다.

diagram

위 다이어그램으로 예를 들면, A1은 코로나에 걸렸을 사건, A2는 코로나에 걸리지 않았을 사건이고 B는 검사키트가 양성일 사건이다. 얼핏 생각하면 양성키트의 진단율이 내가 양성이므로 코로나에 걸렸을 확률이라 착각하기 쉽지만, 실제 계산을 통하여 수치를 구하게 되면 생각한 확률과 큰 차이가 난다는 것을 볼 수 있다.

ex)

질병에 걸릴 확률 0.01 / 질병에 걸렸을 때, 테스트 결과가 양성일 확률 0.96 이라 하면

베이즈정리를 통하여 계산하였을 때 테스트 결과가 양성일 때 질병에 걸렸을 확률은 0.24가 나오게 된다.

 

정리

베이즈정리의 재발견은 통계학을 바라보는 시각을 변화시켰으며, 인지과학등 다른 학문에도 영향을 주며 그 중요도가 커지고 있다. 대부분의 계산은 컴퓨터가 하며, 수식 또한 라이브러리를 통하여 손쉽게 호출하여 계산할 수 있는 세상이니 개념만 잘 이해하면 빅데이터의 세계를 더 잘 이해할 수 있게 될 것이다.

 

 

용어

사전확률 : 특정 사상이 일어나기 전의 확률

사후확률 : 특정 사상이 일어난 후의 확률

 

출처

이미지

diagram -  wiki.com

위키-베이즈정리, https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC

 

베이즈 정리 - 위키백과, 우리 모두의 백과사전

확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터

ko.wikipedia.org

 

'통계학 > 확률론' 카테고리의 다른 글

[5분확률] 확률변수와 확률분포  (0) 2022.06.12
[5분확률]조건부확률  (0) 2021.10.15
[5분확률]확률의 정의와 성질  (0) 2021.10.13

서론

빅데이터나 머신러닝 등 데이터를 분석할 때 사용되는 이론이나 프로그램 함수들은 많은 수가 확률에 기반하고 있다.

확률을 공부함으로써 단순히 분석 프로그램을 돌리고 결과를 받아보는 것보다 깊은 통찰력을 얻을 수 있을 것이다.

 

dice

 

목표

확률이란 무엇인가?

확률을 어떻게 계산하는가?

 

 

정의

확률은 크게 고전적 정의와, 공리적 정의로 나뉜다.

고전적 정의(수학적 정의)는 일상생활에서 흔히 쓰이는 개념으로 전체사건과 발생사건의 비율로 계산한다.

공리적 정의는 고전적 정의의 숨은 전제인 모든 사건의 발생 가능성이 같다는 가정에 의문을 제시하여 나온 정의이다.

공리적 정의는 3가지 명제로 정의되는데, 간단히 요약하면

 

1) 확률은 0에서 1 사이의 값이다.

2) 전체 표본공간의 확률은 1이다.

3) 표본공간 내의 각각의 사건들의 확률을 다 더하면 1이된다.

 

 

예시

예를 들면, 주사위를 던져서 1부터 6까지의 숫자 중 한가지가 나올 확률은 고전적 정의에선 1/6이다.

공리적 정의에서도 모든 사건의 발생 가능성이 같기 때문에 1/6으로 동일하다.

 

하지만 현실세계의 문제는 사건의 발생 가능성이 다른 경우가 훨씬 많다.

 

포장된 과자를 샀을 때, 안에 들어있는 과자의 수의 확률같은 경우

과자의 개수가 100개에서 150개 사이라고 할때, 구매한 과자의 수가 125개일 확률과 150개일 확률이 같을까?

자동화된 공장에서 정해진 공정에 따라 포장되는 과자의 수는 평균값에 가까울 확률이 크고, 많이 들었거나 적게 들은 경우는 평균값의 확률보다 더 낮을 것이다.

 

opened snack

 

정리

확률은 모든 사건의 발생가능성이 같은경우 부분/전체로 구하거나 다른경우 각각의 확률을 측정해서 계산한다.

 

용어

표본공간 : 통계적 실험의 모든 가능한 결과의 집합

사건 : 표본공간의 부분집합

고전적 확률 : 사건의 원소수를 표본공간의 원소수로 나누어서 구한 확률

공리적 확률 : 고전적 확률을 일반화시킨 확률

 

출처

위키백과, https://ko.wikipedia.org/

 

위키백과, 우리 모두의 백과사전

위키백과:대문 위키백과, 우리 모두의 백과사전. 위키백과 우리 모두가 만들어가는 자유 백과사전문서 555,093개와 최근 기여자 2,121명 사랑방 다른 분들과 의견을 교환해봐요! 질문방 지침으로

ko.wikipedia.org

이긍희,박진호,확률의 개념과 응용(KNOUPRESS)

'통계학 > 확률론' 카테고리의 다른 글

[5분확률] 확률변수와 확률분포  (0) 2022.06.12
[5분확률]베이즈 정리  (0) 2021.10.25
[5분확률]조건부확률  (0) 2021.10.15

+ Recent posts