서론

베이즈정리는 컴퓨터 연산능력의 향상과 빅데이터의 발전과 함께 재조명되었다.

통계학은 베이즈 통계학 이전과 이후로 나뉜다고도 일컬어진다

베이즈정리가 갑자기 왜 중요해졌고, 어떻게 쓰이길래 통계학의 역사를 구분한다고 할까? 

 

목표

베이즈정리를 이해한다.

베이즈정리의 활용사례를 이해한다.

 

정의

베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.

쉬운 말로 풀면 지금 일어난 사건을 활용하여 그 사건의 확률을 구하거나, 이미 알려진 사건의 확률을 활용하여 지금 그 사건이 일어났는가 구할 수 있는 정리이다.

 

배경

과거 통계학은 전수조사의 어려움으로 추측통계와 검증을 메인로 하여 발전하였다.

하지만 컴퓨터 연산능력의 증가로 빅데이터가 쌓이고, 그 빅데이터를 분석할 수 있게 되면서 모수에 아주 근접한 확률을 얻을 수 있게 되었다.

그로 인하여 실험과 경험을 통하여 전체를 추측하는 과거 통계에서, 역으로 전체에서 구체적인 사건의 확률을 구하는 일이 가능해지고 이는 빅데이터분석과 인공지능의 주춧돌이 되었다.

 

예시

코로나에 걸릴 확률과, 검사를 통해 양성이 나올 확률을 생각해보자.

사람들이 코로나에 걸렸을 수도, 안걸렸을 수도 있으며

검사결과 양성이 나왔을 때, 진짜 코로나에 걸려서 양성이 나왔을 수도 있지만, 걸리지 않았는데 검사오류로 양성이 나올 수도 있다.

이때 베이즈정리를 활용하면 `코로나 검사 양성일 때', 내가 코로나에 걸렸을 확률을 알 수 있다.

diagram

위 다이어그램으로 예를 들면, A1은 코로나에 걸렸을 사건, A2는 코로나에 걸리지 않았을 사건이고 B는 검사키트가 양성일 사건이다. 얼핏 생각하면 양성키트의 진단율이 내가 양성이므로 코로나에 걸렸을 확률이라 착각하기 쉽지만, 실제 계산을 통하여 수치를 구하게 되면 생각한 확률과 큰 차이가 난다는 것을 볼 수 있다.

ex)

질병에 걸릴 확률 0.01 / 질병에 걸렸을 때, 테스트 결과가 양성일 확률 0.96 이라 하면

베이즈정리를 통하여 계산하였을 때 테스트 결과가 양성일 때 질병에 걸렸을 확률은 0.24가 나오게 된다.

 

정리

베이즈정리의 재발견은 통계학을 바라보는 시각을 변화시켰으며, 인지과학등 다른 학문에도 영향을 주며 그 중요도가 커지고 있다. 대부분의 계산은 컴퓨터가 하며, 수식 또한 라이브러리를 통하여 손쉽게 호출하여 계산할 수 있는 세상이니 개념만 잘 이해하면 빅데이터의 세계를 더 잘 이해할 수 있게 될 것이다.

 

 

용어

사전확률 : 특정 사상이 일어나기 전의 확률

사후확률 : 특정 사상이 일어난 후의 확률

 

출처

이미지

diagram -  wiki.com

위키-베이즈정리, https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC

 

베이즈 정리 - 위키백과, 우리 모두의 백과사전

확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터

ko.wikipedia.org

 

'통계학 > 확률론' 카테고리의 다른 글

[5분확률] 확률변수와 확률분포  (0) 2022.06.12
[5분확률]조건부확률  (0) 2021.10.15
[5분확률]확률의 정의와 성질  (0) 2021.10.13

+ Recent posts