서론

확률변수와 확률분포는 현실세계의 확률사건들을 명료하게 표현하고 이를 활용하여 쉽게 나타나지 않는 것들을 보고 더 현명한 의사결정을 하기 위한 확률론의 가장 기초가 되는 개념이다.

 

목표

확률변수를 이해한다.

확률분포를 이해한다.

 

 

정의

확률변수란 확률적 실험에서 실험결과를 숫자로 표현한 변수이다.

 

확률분포는 임의로 설정한 실험의 결과 수치인 확률변수가 나타날 확률을 의미한다.

 

 

 

예시

주사위

 

예를 들어 위 이미지와 같은 다양한 면을 가진 주사위를 던지는 확률 실험을 실시한다고 하자.

그럼 어떤 면은 바닥을 보고, 어떤 면은 위를 바라보는 결과가 나타날 것이다.

이런 실험에서 실험의 결과를 수치로 표현한 것을 확률변수라고 한다.

주사위의 눈의 숫자를 실험의 결과로 볼 수도 있고, 떨어진 위치를 실험의 결과로 볼 수도 있다. 중요한 점은 어떤 확률사건이 일어났을 때, 그 사건에서 관심있는 부분을 임의의 수치로 표현하고 이를 측정한다는 점이다.

룰렛

 

아래 룰렛 테이블은 룰렛에 공을 던졌을 때 해당 숫자에 들어갈 사건에 배팅할 때 사용하는 테이블이다.

하나의 사건은 모두 같은 확률이라고 가정하지만, 숫자들을 테이블에 배치하여서 행과 열의 교집합으로

전체 사건에서 새로운 부분집합들을 만들어 내고, 서로 다른 확률을 가진 확률변수들을 추가하여 게임성을 더 높인 것이다.

 

룰렛 테이블

단순히 확률이 1/36인 사건을 고르는 게임에서, 교집합과 부분집합이라는 새로운 시각의 사건의 결과 - 확률 변수 - 를 만들어 내고, 확률 분포를 다양하게 만들어, 사람들이 전략적으로 선택할 수도 있게 만들었다.

 

 

정리

현실세계에서 발생한 하나의 사건은 다양한 관점에서 바라볼 수 있다.

예를들어 주사위를 던지는 사건은 보통 주사위의 눈이 위를 바라본 숫자를 확률변수로 설정하지만, 주사위가 날아간 거리를 측정할 수도 있고, 주사위가 던지가다 부서질 때까지의 시행횟수를 측정할 수도 있을 것이다.

개인적으로 굉장히 헷갈려서 항상 다시 찾아보던 용어였는데, 지금 실행하는 실험의 관심있는 부분의 결과수치라는 점을 기억하면 좋을 것 같다.

 

용어

확률 변수 : 확률적 실험에서 실험결과를 숫자로 표현한 변수

확률분포표 : 확률변숫값에 확률을 대응시킨 표

 

출처

이미지

diagram -  wiki.com

위키-확률 변수, https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EB%B3%80%EC%88%98

 

 

 

 

'통계학 > 확률론' 카테고리의 다른 글

[5분확률]베이즈 정리  (0) 2021.10.25
[5분확률]조건부확률  (0) 2021.10.15
[5분확률]확률의 정의와 성질  (0) 2021.10.13

서론

베이즈정리는 컴퓨터 연산능력의 향상과 빅데이터의 발전과 함께 재조명되었다.

통계학은 베이즈 통계학 이전과 이후로 나뉜다고도 일컬어진다

베이즈정리가 갑자기 왜 중요해졌고, 어떻게 쓰이길래 통계학의 역사를 구분한다고 할까? 

 

목표

베이즈정리를 이해한다.

베이즈정리의 활용사례를 이해한다.

 

정의

베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.

쉬운 말로 풀면 지금 일어난 사건을 활용하여 그 사건의 확률을 구하거나, 이미 알려진 사건의 확률을 활용하여 지금 그 사건이 일어났는가 구할 수 있는 정리이다.

 

배경

과거 통계학은 전수조사의 어려움으로 추측통계와 검증을 메인로 하여 발전하였다.

하지만 컴퓨터 연산능력의 증가로 빅데이터가 쌓이고, 그 빅데이터를 분석할 수 있게 되면서 모수에 아주 근접한 확률을 얻을 수 있게 되었다.

그로 인하여 실험과 경험을 통하여 전체를 추측하는 과거 통계에서, 역으로 전체에서 구체적인 사건의 확률을 구하는 일이 가능해지고 이는 빅데이터분석과 인공지능의 주춧돌이 되었다.

 

예시

코로나에 걸릴 확률과, 검사를 통해 양성이 나올 확률을 생각해보자.

사람들이 코로나에 걸렸을 수도, 안걸렸을 수도 있으며

검사결과 양성이 나왔을 때, 진짜 코로나에 걸려서 양성이 나왔을 수도 있지만, 걸리지 않았는데 검사오류로 양성이 나올 수도 있다.

이때 베이즈정리를 활용하면 `코로나 검사 양성일 때', 내가 코로나에 걸렸을 확률을 알 수 있다.

diagram

위 다이어그램으로 예를 들면, A1은 코로나에 걸렸을 사건, A2는 코로나에 걸리지 않았을 사건이고 B는 검사키트가 양성일 사건이다. 얼핏 생각하면 양성키트의 진단율이 내가 양성이므로 코로나에 걸렸을 확률이라 착각하기 쉽지만, 실제 계산을 통하여 수치를 구하게 되면 생각한 확률과 큰 차이가 난다는 것을 볼 수 있다.

ex)

질병에 걸릴 확률 0.01 / 질병에 걸렸을 때, 테스트 결과가 양성일 확률 0.96 이라 하면

베이즈정리를 통하여 계산하였을 때 테스트 결과가 양성일 때 질병에 걸렸을 확률은 0.24가 나오게 된다.

 

정리

베이즈정리의 재발견은 통계학을 바라보는 시각을 변화시켰으며, 인지과학등 다른 학문에도 영향을 주며 그 중요도가 커지고 있다. 대부분의 계산은 컴퓨터가 하며, 수식 또한 라이브러리를 통하여 손쉽게 호출하여 계산할 수 있는 세상이니 개념만 잘 이해하면 빅데이터의 세계를 더 잘 이해할 수 있게 될 것이다.

 

 

용어

사전확률 : 특정 사상이 일어나기 전의 확률

사후확률 : 특정 사상이 일어난 후의 확률

 

출처

이미지

diagram -  wiki.com

위키-베이즈정리, https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC

 

베이즈 정리 - 위키백과, 우리 모두의 백과사전

확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터

ko.wikipedia.org

 

'통계학 > 확률론' 카테고리의 다른 글

[5분확률] 확률변수와 확률분포  (0) 2022.06.12
[5분확률]조건부확률  (0) 2021.10.15
[5분확률]확률의 정의와 성질  (0) 2021.10.13

서론

조건부확률은 복잡하고 서로 얽혀있는 현실세계의 확률을 계산하기 위해 필수적인 개념이다.

또한 현대통계학, 머신러닝에서 가장 중요한 베이즈정리를 이해하는데 꼭 필요한 개념이다.

조건부확률은 무엇이고, 사건이 서로 독립이고, 종속이라는 뜻인 무엇일까?

boxs

 

 

목표

조건부 확률을 이해하고 구할 수 있다.

사건의 독립을 이해한다.

 

정의

조건부 확률은 어떤 사건이 일어난 가정하에 다른 사건이 발생할때의 다른사건의 확률이다.

사건의 독립은 각 사건들에서 다른 사건에 대한 정보를 얻을 수 없는 관계를 의미한다.

diagram

 

예시

조건부확률:

위 다이어그램에서 B1의 확률은 0.1(B1/전체)이지만,

A가 발생했을 때 B1이 발생할 확률은 0.1/0.52(B1/A) =0.19..가 된다.

사건의 독립:

independent case diagram

위 다이어그램은 전체에서 A 사건의 발생확률이 1/3인데 절묘한 비율로 B가 일어났을때 A가 발생할 확률도 1/3이다

B도 마찬가지로 전체에서의 확률과, A가 발생했을 때 B가 발생할 확률이 같다. 이런 관계를 독립이라 한다.

 

정리

독립의 경우 정의를 보면 조금 복잡하게 느껴지지만, 주사위를 던지면서 동시에 동전도 던지는 경우 각각의 사건이 서로에게 영향을 미치지 않는 경우, 대다수 현실세계의 사건들의 관계를 생각하면 된다.

조건부확률과 독립은, 확률을 식으로 표현할 때 간단히 정리하고 이해하기 쉽게 도움을 준다.

https://blog.naver.com/mykepzzang/220834900088

 

[확률과 통계] 11. 확률의 곱셈정리(1), Multiplicative Rule of Probability

앞서 조건부 확률에 대해 알아봤습니다. [확률과 통계] 10. 조ᄾ...

blog.naver.com

 

용어

조건부 확률: 어떤 사건이 발생했다는 조건하에서 다른 사건이 발생하는 확률

독립 : 주어진 정보하에서 조건부 확률과 주어진 정보 없이 구한 확률이 같을 때 두 사건 간의 관계

종속 : 사건 A의 발생이 사건B의 확률에 영향을 미치는 관계

 

출처

이미지

boxs - mockuptree.com

diagram -  wiki.com

위키-조건부확률, https://ko.wikipedia.org/wiki/%EC%A1%B0%EA%B1%B4%EB%B6%80_%ED%99%95%EB%A5%A0

 

조건부 확률 - 위키백과, 우리 모두의 백과사전

확률론에서 조건부 확률(條件附確率, 영어: conditional probability)은 주어진 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 뜻한다. 원래의 확률 함수를 Pr {\displaystyle \operatorname {Pr} }

ko.wikipedia.org

 

'통계학 > 확률론' 카테고리의 다른 글

[5분확률] 확률변수와 확률분포  (0) 2022.06.12
[5분확률]베이즈 정리  (0) 2021.10.25
[5분확률]확률의 정의와 성질  (0) 2021.10.13

서론

빅데이터나 머신러닝 등 데이터를 분석할 때 사용되는 이론이나 프로그램 함수들은 많은 수가 확률에 기반하고 있다.

확률을 공부함으로써 단순히 분석 프로그램을 돌리고 결과를 받아보는 것보다 깊은 통찰력을 얻을 수 있을 것이다.

 

dice

 

목표

확률이란 무엇인가?

확률을 어떻게 계산하는가?

 

 

정의

확률은 크게 고전적 정의와, 공리적 정의로 나뉜다.

고전적 정의(수학적 정의)는 일상생활에서 흔히 쓰이는 개념으로 전체사건과 발생사건의 비율로 계산한다.

공리적 정의는 고전적 정의의 숨은 전제인 모든 사건의 발생 가능성이 같다는 가정에 의문을 제시하여 나온 정의이다.

공리적 정의는 3가지 명제로 정의되는데, 간단히 요약하면

 

1) 확률은 0에서 1 사이의 값이다.

2) 전체 표본공간의 확률은 1이다.

3) 표본공간 내의 각각의 사건들의 확률을 다 더하면 1이된다.

 

 

예시

예를 들면, 주사위를 던져서 1부터 6까지의 숫자 중 한가지가 나올 확률은 고전적 정의에선 1/6이다.

공리적 정의에서도 모든 사건의 발생 가능성이 같기 때문에 1/6으로 동일하다.

 

하지만 현실세계의 문제는 사건의 발생 가능성이 다른 경우가 훨씬 많다.

 

포장된 과자를 샀을 때, 안에 들어있는 과자의 수의 확률같은 경우

과자의 개수가 100개에서 150개 사이라고 할때, 구매한 과자의 수가 125개일 확률과 150개일 확률이 같을까?

자동화된 공장에서 정해진 공정에 따라 포장되는 과자의 수는 평균값에 가까울 확률이 크고, 많이 들었거나 적게 들은 경우는 평균값의 확률보다 더 낮을 것이다.

 

opened snack

 

정리

확률은 모든 사건의 발생가능성이 같은경우 부분/전체로 구하거나 다른경우 각각의 확률을 측정해서 계산한다.

 

용어

표본공간 : 통계적 실험의 모든 가능한 결과의 집합

사건 : 표본공간의 부분집합

고전적 확률 : 사건의 원소수를 표본공간의 원소수로 나누어서 구한 확률

공리적 확률 : 고전적 확률을 일반화시킨 확률

 

출처

위키백과, https://ko.wikipedia.org/

 

위키백과, 우리 모두의 백과사전

위키백과:대문 위키백과, 우리 모두의 백과사전. 위키백과 우리 모두가 만들어가는 자유 백과사전문서 555,093개와 최근 기여자 2,121명 사랑방 다른 분들과 의견을 교환해봐요! 질문방 지침으로

ko.wikipedia.org

이긍희,박진호,확률의 개념과 응용(KNOUPRESS)

'통계학 > 확률론' 카테고리의 다른 글

[5분확률] 확률변수와 확률분포  (0) 2022.06.12
[5분확률]베이즈 정리  (0) 2021.10.25
[5분확률]조건부확률  (0) 2021.10.15

+ Recent posts