PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2015/06/21 12:57:30
Name 삭제됨
Subject [일반] 베이지언이 되자~!
작성자가 본문을 삭제한 글입니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
광개토태왕
15/06/21 12:59
수정 아이콘
엇 베이즈 정리네요...
조건부확률을 구할때 쓴다던 바로 그 것...
은때까치
15/06/21 13:03
수정 아이콘
애초에 예로 들어주신 엉터리 과학연구는 학계에서 과학으로 쳐주지도 않죠. 정확한 통계는 엄청나게 중요하니까요.
Move Shake Hide
15/06/21 13:04
수정 아이콘
뭔말인지 모르겠으니까 그냥 가만히 있어야겠다
SugarRay
15/06/21 13:21
수정 아이콘
앗 베이즈 정리네요. 저도 베이지언 통계학에 대한 수업을 한 번 듣고 난 다음 p-value같은 것보다는 베이지언의 odds ratio 가 더 맘에 들더라구요.
심술쟁이
15/06/21 21:25
수정 아이콘
일단 p-value가 frequentist(고전적 통계론자들, 베이지언과는 견원지간)들의 물건은 맞습니다만,
odds ratio는 베이지언의 것이 아니라, 우도 이론(likelihood theory)에서 나온 것입니다.
말씀하신 내용은 베이지언들이 사용하는 우도(likelihood)였던 것으로 생각되는데요,,

우도이론이 베이지언 이론과 독립적으로 발전된 방법론이라, 우도를 쓰는 사람이 베이지언인 경우도 있지만
아닌 경우도 많아요. 그리고 보통은 그 둘이 서로 박터지게 싸웁니다.
탐사정의위엄
15/06/21 14:05
수정 아이콘
100+950 = 1030이 아니라 80+950 = 1030 겠죠? 크크
어쨌든 항상 좋은 글 감사합니다.
cottonstone
15/06/21 14:07
수정 아이콘
매눈! 매눈!
여왕의심복
15/06/21 14:10
수정 아이콘
수정완료~
cottonstone
15/06/21 14:15
수정 아이콘
오 그건 전혀 몰랐어요. 엇 쪽팔린 크크
가서 고칠게요=3
여왕의심복
15/06/21 14:09
수정 아이콘
의학통계를 주로 보는 사람 입장에서 베이지안과 프리퀸시 베이스는 본질적으로 같은 생각이란 느낌이 드네요.

서로 다른 것을 보여주는 것 같지만 결국 하나의 사실을 보여주거든요.

베이지안 계산이 가능하기 위해서는 프리퀸시 베이스가 필요하고, 프리퀸시가 못채워주는 것은 베이지안이 채워주니

역시 둘다 할줄 알아야합니다.....!!!!
SugarRay
15/06/21 16:39
수정 아이콘
계산에 있어서는 서로의 도움을 받고 있고, 충분히 표본크기를 크게 하면 둘은 서로 수렴하니 같다고 볼 수도 있지만 확률론이나 기법 등에 있어서 다르다고 생각합니다.

제일 큰 게 사전확률의 존재인데, 어느 정도 프라이어를 설정하고 추가데이터에 따라 사후확률을 수정하니까요. 제일 단적인 게 최대우도법maximum likelihood이 아닌가 합니다.

피셔-네이만-피어슨이 배이지안을 싫어한 것도 있구요... 애초에 pvalue 나 critical region 같은 건 베이지안 통계라고 하진 않습니다. P=0.05 라고 해도 p=0.30만 나와도 사후확률은 크게 요동칩니다.
여왕의심복
15/06/21 16:47
수정 아이콘
네 저도 충분히 동의합니다!!!
심술쟁이
15/06/21 21:42
수정 아이콘
둘 다 할 줄 알아야 한다는 데에는 깊이 공감합니다만,
베이지언들과 프리퀀티스트들은 사상적으로 큰 차이가 있습니다.

베이지언들은 모수(parameter)를 변수라고 여기지만, 프리퀀티스트들은 상수로 여기죠.
그래서 베이지언들을 주관주의적(subjective) 확률론자로 부르기도 합니다.

그런만큼 양자가 서로 다른 결과를 내놓기도 하죠.
간단한 동전던지기 문제에서도 둘의 결과가 다를 수 있습니다.
15/06/22 01:25
수정 아이콘
심술쟁이님이 잘 말씀해 주셨는데, 베이지안과 프리퀀티스트들의 결론에는 큰 차이가 있을 수 있죠.
대표적으로 Lindley's paradox(Jeffrey's paradox)가 있고요.
여담으로 여왕의심복님이 써주신 메르스 관련 글들 많은 도움이 됐습니다 흐흐
히로카나카지마
15/06/21 14:27
수정 아이콘
베이지언이라 하나도 알아듣지 못 할 말이에요
15/06/21 15:31
수정 아이콘
정말 이해가 안되네요.
분명히 1%가 양성판정을 받는다고 정의했는데
뒤에가면 "예에서 실제 유방암에 걸렸는지 아직 알 수는 없으나 양성판정을 받은 여성은 100명 중 80명과 9900명 중 950명입니다. 80+950 = 1030(오타긴급수정)명이죠."
cottonstone
15/06/21 15:49
수정 아이콘
이건 의학정보에 빠삭하신 분이 대답을 해주실 수 있으실 것 같아요. 예를 들면 피검사를 했는데 뭔가가 positive하다고 나왔다. 이게 정말 문제가 있는지 알려면 조직검사를 해봐야 한다든지 그런 경우가 있잖아요. 메모그램을 한다는 게 정확하게 뭔지 저도 잘 모르겠어요. 그걸 했는데 결과가 positive라고 해서 유방암이 확정되는 건 아니고 추가로 뭔가를 확인해야 정말 암인지 아닌지 알 수 있는 건가 봐요.
15/06/21 16:04
수정 아이콘
빠삭하게 알려달라는건 아니고 조건자체가 좀 이상해서 그래요. 최소한 말자체가 혼동되는일은 없어야 문제를 이해하죠. 9.6%에도 정의가 두번 되는데 내용이 다르고 문장도 좀 뭔가 이상하고 글을 이해하기가 굉장히 힘듭니다. 차라리 수식만 보고 이해하는게 더 쉽게 느껴져요. 분명히 글에 오류가 있습니다.
연필깎이
15/06/21 16:12
수정 아이콘
이해가 안되시는 부분이 정확히 어떤 부분인지는 잘 모르겠지만 답변 달아보겠습니다.
일단 완벽한 테스트란 존재할 수 없습니다.
테스트가 본 테스트에 대해 1%의 양성판정을 보장하고 있어도,
통계적으로 양성이 아닌 사람을 양성으로 판정할 확률, 양성인 사람을 양성이 아닌 사람으로 판정할 확률이 존재할 수 밖에 없습니다.
본문에서는 전자는 9.6%인데 이를 보통 알파, 제 1종오류라고 부릅니다.
후자는 20%인데 이를 보통 베타, 검정력에 관여하는 제 2종 오류 입니다. 본문의 테스트의 검정력은 80%가 되는 것이지요.
1종 오류가 더 위험한 오류라고 여겨집니다. 살인자가 아닌 사람을 살인자로 몰고갈 수 있는 오류기 때문이지요.
그래서 보통 알파를 더 엄격히 통제하려고 합니다. 보통 알파를 5% 내로 통제하려고 한다는 점을 생각해봤을 때,
본문의 9.6%는 꽤 높은 수치라고 할 수 있습니다. 그래서 유방암이 아닌 사람 중에 유방암으로 판정받는 사람이 많아졌고,
그 때문에 표본이 늘어나서 직관적으로 생각하기보다 훨씬 낮은 확률인 7.8%가 나오는 것이지요.

본문에 [(양성율1%) x (그 유방암이 진짜인 확률 80%) + (음성율 99%) x (음성인데 실제는 진짜 유방암일 확률 9.6%)]
부분에 음성인데 실제는 진짜 유방암일 확률 9.6%는 [유방암이 아닌데도 양성을 판정받았을 확률 9.6%]
수정하시긴 해야겠네요.

의문이 생기신 부분이 이게 아니라면 민망한 설명이 되겠네요 허허
cottonstone
15/06/21 16:21
수정 아이콘
오 고맙습니다. 왜 저렇게 써놨을까. 수정하도록 하겠습니다.
15/06/21 16:32
수정 아이콘
1종오류에 대한 정의를 "양성이 아닌사람을 양성으로 판단한 확률" 이라고 하셨습니다.
본문에서는 양성 판단된 확률이 1%로 정의되어 있습니다. 그렇다면 그 1%에 대한 9.6%가 바로 1종 오류 아닙니까?
즉 10000명중 100명이 양성판단이 내려졌고, 여기서 9.6명이 1종오류가 난 사람들이라는 결론이 나옵니다.
하지만 본문에서는 950명으로 표현되죠.
연필깎이
15/06/21 17:15
수정 아이콘
950명으로 표현되는게 맞습니다.
1종 오류는 전체 테스트에 대해서 발생하는 오류이고,
양성 판단이 된 1%를 제외하고
나머지 테스트에 대상이 된 9900명에 대해서
9.6%로 양성이라고 오류로 판단하게 되는거죠.
이게 사실 제대로 배우려고 할 때에도 직관적으로 이해되는 파트가 아니라
저도 아주 명확하게는 설명을 못드리겠네요 ㅠㅠ 능력이 부족해서

양성 판단이 될 확률이 1%라는건 일종의 가설이에요. 진실이 아니고.
애초에 통계에 진실이란건 있을 수가 없거든요. 유의미한지 무의미한지만 나눌 수 있을뿐.
그 가설이 참인데도 불구하고 거짓이라고 판단할 확률과
그 가설이 거짓인데도 불구하고 참이라고 판단될 확률이 있는거죠.
전자가 1종오류고 후자가 2종오류가 되겠네요.

본문에 적용하자면 가설은 [환자가 유방암이 아니다] 라는 가설이 되는데
이 가설이 참인데도 불구하고 거짓이라고 판단해버리면 이게 1종 오류고
유방암이 아닌데도 유방암으로 판단하게 되는 것이구요.
이 가설이 거짓인데도 불구하고 참이라고 판단해버리면 이게 2종 오류고
유방암인데도 불구하고 유방암이 아니라고 판단하게 되는 것이지요.
여기에 확률이 적용되면 환자가 유방암이 아니다가 참이면 확률이 99%가 되는데,
이걸 거짓으로 판단해버릴 1종 오류의 확률이 9.6%인 것이고
환자가 유방암이 아니다가 거짓이면 확률이 1%인데,
이걸 참이라고 판단해버릴 2종 오류의 확률이 20%인 것이죠.
이래서 1종 오류는 9900명에 적용되는 것이고, 2종 오류는 100명에 대해 적용되는 것이죠.
15/06/21 17:25
수정 아이콘
이미 1%(100명)를 양성이라고 판단이 내려졌습니다. 그렇다면 그 950명에 대한 판단은 뭘로 행해지는거죠?
15/06/21 17:27
수정 아이콘
그냥 텍스트 오류 같아요. 양성판단이 10.3% 실제 유방암인 퍼센테이지가 1% 같은데... 그런데 보통 이런 내용은 실제 통계에서 숫자를 따오는데 유방암 검진 확률이 10.3%에 양성으로 나와도 음성일 확률이 90%가 넘는 이딴 검사가 있을리가 없는데... 참 요상하네요.
연필깎이
15/06/21 17:31
수정 아이콘
베이즈 정리를 적용하기 위해 만든 가상의 예시라고 생각됩니다.
실제 유방암인 사람이 1%인지는 아무도 모르죠.
다만 테스트 상에서 오류가 없는 상황을 가정하면 1%로 찾아낼 수 있다라고 주장하는 것이구요.
하지만 오류가 없는 테스트는 존재하지 않는다는 것이 포인트고,
그 오류의 영향을 받는 사람이 이 예시 같은 경우에는 굉장히 많은 거지요.
15/06/21 17:33
수정 아이콘
텍스트 오류라는 건 주어진 값이 현실과 맞지 않아서 하는 얘기가 아니고 글 자체가 앞뒤가 안 맞아서 하는 얘기구요, 어지간한 경우 어떤 예시 문제를 만들 땐 실제 값과 비슷하면서 계산하기 불편하지 않도록 만들잖아요. 지나치게 작아서 계산하기 불편한 값이 아닌 이상은 보통 그렇죠.
연필깎이
15/06/21 17:36
수정 아이콘
공부할 당시에는 사실 이것과 비슷한 예시를 꽤 많이 봤던 것 같기도 한데,
사실 정확히 기억이 안나네요. 허허.
자잘자잘한 오류가 많은 글이지만 맥락적으로는 큰 문제가 없는 글이라고 생각합니다.
15/06/21 17:38
수정 아이콘
연필깎이 님//

전 베이지언이 뭔지도 모르고 베이즈 정리가 뭔지도 잘 모르겠는데 글 내용 자체만 보면 그냥 고교 교육과정 내에 나오는 조건부 확률이랑 별 차이 없는 것 같거든요? 근데 그렇게 어렵지 않은 내용을 여러가지 오류와 함께 굉장히 복잡하게 써놓으셨는데 이게 큰 문제가 없는 글인지 잘 모르겠어요...
연필깎이
15/06/21 17:41
수정 아이콘
rnsr 님//

네 베이즈 정리가 조건부 확률의 확장일 뿐이에요.
다만 여기에 기초통계학에서 배우는 오류의 개념이 들어가는 것인데,
사실 통계학의 오류 자체가 직관적으로 이해하기가 쉽지 않아요.
작성자 분도 강의만 들은 상태에서 정리하시다보니까 자잘한 오류는 확실히 많이 보였는데,
베이즈 정리가 이런 것이다, 라는 점에 대해서는 맥락적으로 큰 문제는 없어 보입니다.
15/06/21 17:44
수정 아이콘
연필깎이 님//

제가 학부 수업에서 기초적인 통계도 배우고 SPSS로 ANOVA 같은 것도 해보면서 수박 겉핥기 정도로는 통계학의 오류에 대해서 교육을 받았는데... 텍스트 자체에 앞뒤가 안맞는 모순이 분명히 있었는데(단순히 오탈자가 아닌) 맥락적으로 큰 문제가 없다고 하시니...;;
연필깎이
15/06/21 17:46
수정 아이콘
rnsr 님//

제가 배경지식이 있는 상태에서 텍스트를 엄밀히 읽어보지 않아서 생긴 문제인 것 같습니다.
엄밀한 부분에서 텍스트적인 오류가 있을 순 있지만,
베이즈 정리가 이런 느낌이다 라고 소개하는 글로써는 큰 문제가 없어 보인다는 얘기였습니다.
연필깎이
15/06/21 17:29
수정 아이콘
1%에 대한 건 오류가 없는 상황을 가정했을 때 양성이라고 판단이 되어진 사람을 뜻하는 거구요.
이거와는 별개로 모든 테스트에 오류가 수반된다는 것이지요.
그게 99%에 대한 9.6%의 1종오류와, 1%에 대한 20%의 2종오류로 나타나는 것이구요.
15/06/21 17:41
수정 아이콘
우선 첫댓글에는 분명히 1종오류에 대한 정의를 "양성이 아닌사람을 양성으로 판단한 확률" 이라고 했습니다.
그리고 이번댓글에는 "2종 오류는 100명에 대해 적용되는 것이죠. "라고 했습니다.
둘중에 어느게 참인가요?
연필깎이
15/06/21 17:45
수정 아이콘
둘다 맞는 말이긴 한데 유방암과 양성 판단에 대한 어휘를 처음부터 명확하게 사용하지 못했네요.
1종 오류는 유방암이 아닌데 유방암이라고 양성으로 판단할 확률이고,
2종 오류는 유방암인 사람인데 양성판단을 받지 않을 확률이죠.
가설에 의해서 유방암인 사람이 1%라고 하면,
유방암인 사람은 100명이고 양성판단을 받지 않을 확률은 20%기에 20명이 되구요.
유방암이 아닌 사람이 99%라고 하면,
그 사람은 9900명이고 양성으로 오류로 판단할 확률이 9.6%니까 950명이 됩니다.
15/06/21 18:01
수정 아이콘
논리상 둘다 참일수가 없죠.
1종이 "양성이 아닌사람을 양성으로 판단한 확률"이라고 정의했을때 이미 양성으로 판단된 100명에 대한 확률로 귀결됩니다. 그리고 "2종 오류는 100명에 대해 적용되는 것이죠. "라는건 1종과 겹치는 내용입니다.
연필깎이
15/06/21 18:03
수정 아이콘
char 님//

이미 양성으로 판단된 100명이라는 건 오류가 없는 상황을 가정했을 때 100명이다, 라고 주장하는 것이구요.
여기에 테스트에 오류가 동반됩니다.
그래서 실질적으로는 1종 오류에 의해 9900명 중에 9.6%로 950명이 추가로 양성반응이 나타날 것이고,
2종 오류에 의해 100명중에 20명은 양성반응을 받지 못할 거에요.
그러면 결과적으로는 양성반응을 950+80=1030명이 받게 되겠죠. 총 만명 중에서요.
15/06/21 18:17
수정 아이콘
연필깎이 님// 그냥 전제가 뒤집히는군요. 그만물어보겠습니다. 답변감사합니다.
연필깎이
15/06/21 18:20
수정 아이콘
char 님// 네 ㅠㅠ 전체적인 텍스트 오류 때문에 복잡해지는 것 같아요.
15/06/22 00:40
수정 아이콘
1종 오류가 유방암이 아닌데 유방암이라고 양성으로 판단되는 '경우'를 뜻하기는 하는데, 그럴 '확률'을 뜻하는건 아닙니다.
유방암이 아닌 환자에서 검사결과상 유방암으로 판단할 `확률`은 1-specificity 입니다. (specificity=질환이 없을때 검사에서도 없다고 판정할 확률. 즉, 1-specificity는 질환이 없는데 검사상으로는 있다고 할 확률)

1종오류라는게 기본적으로 `확률`을 뜻하는게 아니라 그런 경우를 지칭하는 겁니다.
위의 예에서는 1-specificity가 9.6%라는 거고요.
cottonstone
15/06/21 17:35
수정 아이콘
아아. 가설이라고 하시니까 조금 이해가 됐어요. 그럼 일단 1%는 유방암에 걸린다고 한다가 아니라 양성판정을 받는다고 한다로 다시 고쳐놓을게요.
(아 헛갈려...)
저도 이렇다라고 하는 통계가 있는데 그 안에 이런 저런 오류가 있다 이렇게 추가설명한 것이라고 이해했어요.
그래서 10000명 중 실제 유방암에 걸리는 숫자는 100명이다가 아니고 양성반응을 보이는 숫자가 100이라고 해석을 했어요.
그럼 연필깎이님의 말씀을 참고로 다시 1%에 대해서 양성판정을 받는 비율이라고 수정하도록 하겠습니다.
9.6%는 유방암이 맞는데 유방암이 아니라고 나오는 확률이잖아요. 큰일날 일이죠. 유방암이 맞는데 아니구나...란 깨달음이 있으려면 테스트 결과 음성반응이 나와야 하고 그 음성반응 나온 사람들 중에서 9.6%가 실은 양성이었어야 하니까 950/9900 이거 계산하면 9.6% 나와요.
맞나요? 아 머리를 쥐어뜯고 싶음.
연필깎이
15/06/21 17:39
수정 아이콘
네 이해하신 부분들이 맞습니다.
다만 9.6%는 유방암이 아닌데 유방암이라고 오진하는 경우고,
실제 유방암이어서 테스트에 양성판정을 받았어야할 사람인데 유방암이 아니라고 오진받는 경우가 20%에요.
cottonstone
15/06/21 17:46
수정 아이콘
어오 헛갈려-_-...
또 바꿔치기 했군요.
그러니까 유방암이 아닌데 유방암이넷! 라는 경을 칠 오류가 나타나려면 일단 유방암 양성이 안 나타나야 하고, 양성이 안 타나난 9900명 중에서 950명이 유방암이라는 엉터리결과가 나오면 9.6%라는 오류값이 나오는 건가 봐요.
연필깎이
15/06/21 17:48
수정 아이콘
네 맞습니다.
이게 가설 자체가 부정형이다 보니 헷갈릴 수 밖에 없어요 ㅠㅠ
15/06/21 15:38
수정 아이콘
0.00776인데 7.8퍼센트인가요...?
차근차근 따져보진 않았는데 본문 내용이 이해가 안되는것이 뭔가 요상한...
본문에 뭔가 오류가 좀 있는 거 같은데...
cottonstone
15/06/21 15:45
수정 아이콘
푸하핫 제가 바붕. 고쳤습니다.
매눈! 매눈!
15/06/21 15:47
수정 아이콘
혹시 유방암OX 양/음성 네칸으로 나눠서 합치면 1이 되도록 표현해주실 수 있나요? 대충 적어보면 본문 내용하고 뭔가 모순이 생기는거 같은데...
cottonstone
15/06/21 16:07
수정 아이콘
질문을 하셔서 제가 좀 더 알아봤어요.
메모그램이란 게 일종의 사진촬영기술이군요.

메모그램 결과 유방암 가능성을 분류하면 이렇습니다.

Group A: 80명은 유방암에 걸린 여성이고 이들은 메모그램 촬영 결과 유방암일 가능성이 농후하다고 나오기도 했어요. (조직검사? 뭐 이런 걸 추가적으로 하면 유방암이 확정되는 걸까요?)
Group B: 20명은 유방암에 걸린 여성들임에도 불구하고 메모그램 촬영 결과 유방암이 아니라는 이미지결과가 나왔어요.
Group C: 950명은 유방암에 걸리지도 않았는데 메모그램 촬영 결과 유방암에 걸렸을 확률이 높은 이미지결과가 나왔어요.
Group D: 8,950명은 유방암에 걸리지도 않았고 메모그램 촬영 결과 유방암의 전조를 보이지도 않았어요.

Group A(0.008) + Group B(0.002) + Group C(0.095) + Group D(0.0895) = 1
모두 합하면 10000명이 됩니다.
15/06/21 16:17
수정 아이콘
메모그램이 mammography라면 맘모그래피라고 읽을텐데... 유방을 꾹 눌러서 사진을 찍는 기술이죠. 상당히 아프다던데 여튼 그게 중요한 건 아니고,

[정기적으로 유방암 검사인 메모그램검사를 받는 나이 40의 여성이 유방암 양성판정을 받는 비율이 1%라고 하는 통계가 있다고 합시다.]

이 문장에서 양성판정을 받는 비율이 1%라고 하셨는데 내용상 '정말로 유방암 환자인 비율'이 1%인 거 같네요. 양성판정을 받는 비율은 1030/10000=10.3%겠죠. 이것땜에 자꾸 글이 이해가 안됐던 것 같네요.
탐사정의위엄
15/06/21 16:41
수정 아이콘
처음 읽을때는 그냥 자연스럽게 넘어갔는데 확실히 rnsr님 말씀처럼 '실제로 유방암 환자인 비율'이 1%가 되야 말이 되는거 같네요.
유방암 O(1%) X(99%)
양성 80% 9.6%
음성 20% 90.4%
표로 그리면 이렇게 되는데, 1%가 양성판정을 받는 비율이라면 말이 안되긴 하네요..
15/06/21 16:43
수정 아이콘
글쓴분께서는 자꾸 실수라고 하고 수정하지만 보는 입장에서는 사실 좀 답답하네요.
cottonstone
15/06/21 16:57
수정 아이콘
지금 계속 생각 중인데 결국은 제가 이해를 잘 못하고 있는 거란 걸 알겠어요.
저도 저보다 더 많이 아는 분들에 의해 오류가 수정되길 고대하고 있어요. char님 아니었음 저도 제가 모르고 있다는 사실을 깨닫지 못했을 거예요.
베이즈 정리가 원래 이렇게 이해하기 힘든 건가요?
15/06/21 18:04
수정 아이콘
베이즈 정리 자체가 쉽지는 않지만 본문처럼 복잡하게 꼬이진 않았어요. 오류가 오류를 낳는 악순환이 아닌가 싶습니다.
cottonstone
15/06/21 17:14
수정 아이콘
그래도 속으로 '아니 저게 무슨 바보같은 소리야' 하시는 분들보다 char님 같은 분이 오류 짚어 주시는 것이 훨씬 나아요~!
15/06/21 16:56
수정 아이콘
조만간 이 쪽을 공부해야 되는데 독학을 해야 될 처지라.. 베이지안 통계 및 추론에 관해 추천해주실 만한 책이나 인강 같은거 알려주실 분 계신가요?
심술쟁이
15/06/21 21:46
수정 아이콘
독학용이라면 제일 쉬운 책으로
이화여대 오만숙 교수가 쓴 <R 몬테칼로와 함께하는 베이지안 통계추론>, 2012년, 자유아카데미를 추천합니다.

오자가 있긴 있습니다만, 통계프로그램인 R로 직접 실습해보면서
베이지언 추론을 해 볼 수 있는 교재에요.

참고로 R은 꽁짜입니다. www.r-project.org에서 다운 받으세요.
15/06/21 17:58
수정 아이콘
모든 게 어휘가 불분명해서 생긴 문제 같습니다. 처음으로 비율에 대해서 언급되는 문장이 [정기적으로 유방암 검사인 메모그램검사를 받는 나이 40의 여성이 (조직검사 시) 유방암 양성반응일 비율이 1%라고 하는 통계가 있다고 합시다.]인데, 여기에서 괄호 안의 단어가 생략되서 이 모든 오해가 생기지 않았나 싶네요.
회색사과
15/06/21 18:01
수정 아이콘
유방암 양성반응일 비율이 1%라고 하는 통계가 있다고 합시다 << 이 상황에서는 양성일 확률이 아니라 실제 유방암 환자의 통계인 것 같은데 잘못 쓰신 것 같습니다.


흔히 베이즈 적용예시에서 보여주는 것은 .....

암 환자의 발생 비율 (환자/인구)
테스트가 유방암 환자에게 양성으로 나타날 확률
테스트가 정상인에게 양성으로 나타날 확률

을 보여주고....

"테스트가 양성으로 나타났을 때 정말 암에 걸려있을 확률은 얼마인가?" 를 묻는 거죠
cottonstone
15/06/21 18:04
수정 아이콘
가설에서 유방암이 확실한 비율이 1%니까 양성판정 확률이 아닌 유방암에 걸리는 확률로 바꿀게요. 영어 문장에도 실은 breast cancer의 비율이 1%라고 하거든요.
회색사과
15/06/21 18:09
수정 아이콘
넹 고게 더 정확한 표현인 것 같네요.
cottonstone
15/06/21 18:15
수정 아이콘
아 또 생각해 보니까 위에서 연필깎이님께서 오류가 없을 경우 양성판정이 나는 확률이 1%라고 말씀하셨는데 그건 곧 유방암이 있는 확률 1%와 같은 말이군요.
글쿠나..
회색사과
15/06/21 18:08
수정 아이콘
테스트가 양성일 때 실제 암 환자일 확률 은 [p(환자|양성)]

암환자가 테스트에서 양성으로 나타난 확률 / 테스트가 양성으로 나타나는 모든 확률 로 표현할 수 있고

이는

(암환자확률x암환자 테스트 양성 확률)/(암환자x암환자테스트 양성 + "정상인확률x테스트가 실수로 양성일확률")

이어서....
정상인일 확률이 압도적으로 높다면
테스트가 아무리 정확하다 하더라도...
양성 결과로 암에 걸렸다는 판단을 내리는 것은 성급할 수 있다는 겁니다.
cottonstone
15/06/21 18:07
수정 아이콘
댓글들 고맙습니다. 많은 도움이 되었습니다.
15/06/22 07:51
수정 아이콘
전 채식을 하자는 글인줄...하하
붕어가시
15/06/22 15:10
수정 아이콘
이야 멋집니다. 이게 제가 PGR을 못 끊는 이유죠. 어학계열 출신은 이렇게 쉽게 풀어쓴 수학/통계글이 유레카로 다가옵니다. 오후 내내 이글로 열공해야겠겠습니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
59240 [일반] [해축] 콘도그비아, 잭슨 마르티네즈 밀란 이적 무산 [15] Sviatoslav4476 15/06/21 4476 0
59239 [일반] '너무' 의 쓰임이 확장되었습니다 [115] 이명박10145 15/06/21 10145 4
59238 [일반] 인터넷은 당신의 모든것을 기록하고 알린다. [30] 뀨뀨8031 15/06/21 8031 0
59237 [일반] 베이지언이 되자~! [64] 삭제됨7161 15/06/21 7161 5
59236 [일반] [공지예고] 늦어져서 죄송합니다. [146] 항즐이12052 15/06/21 12052 23
59235 [일반] [재능기부] 운동과 건강에 대한 시간 두번째확정 알림. [29] 동네형4097 15/06/21 4097 1
59234 [일반] [해축] 어제의 bbc 이적가십 [51] pioren4311 15/06/21 4311 1
59232 [일반] [동영상 강의] 미국에서 금리가 오르면 한국 집값이 하락? [35] 하쿠오로8022 15/06/21 8022 23
59231 [일반] [J-POP IDOL] 최근 많이 듣는 2곡. 그리고 같이 떠오른 2곡 [8] Story3820 15/06/21 3820 0
59230 [일반] 피지알에 계시는 시나리오 작가님 혹은 지망생 여러분! [37] 표절작곡가7067 15/06/20 7067 1
59229 [일반] 어떤 고등학생 이야기 [8] 말랑5625 15/06/20 5625 15
59227 [일반] 제가 좋아하는 목소리 - 어쿠스틱콜라보 안다은 양이에요. [32] 소신있는팔랑귀4387 15/06/20 4387 4
59226 [일반] (잡담) 요즘 관심사.... [22] estrolls5021 15/06/20 5021 2
59225 [일반] [스압,데이터 주의] 텍스트 정리 #2 [38] 삭제됨6389 15/06/20 6389 7
59222 [일반] [스압,데이터 주의] 텍스트 읽기 #1 [10] 삭제됨8380 15/06/20 8380 2
59221 [일반] 한윤형씨의 데이트 폭력 [311] Norm22228 15/06/20 22228 0
59220 [일반] 그래도 또 믿어봅니다. [10] 오크7624 15/06/20 7624 2
59219 [일반] 아직은 끝이 아닌가 봅니다. [23] The xian10266 15/06/20 10266 7
59218 [일반] 범키/마마무의 MV와 AOA/채연의 티저, 나인뮤지스의 재킷이미지가 공개되었습니다. [7] 효연광팬세우실11422 15/06/20 11422 2
59217 [일반] 우리 사회의 헤이트 스피치, 어떻게 받아들여야 하는가? [77] Cliffhanger11496 15/06/20 11496 6
59215 [일반] 욕심부리지 않을테니 제돈 좀 받으세요 [38] 아수라발발타14034 15/06/20 14034 4
59214 [일반] 외국인은 모를 수 있는 황당한 미국 남부의 인종차별의 레벨 [57] 페마나도19779 15/06/20 19779 3
59213 [일반] 6월 20일, 메르스 신규 환자 0명 & 단비.... 희망이 보이는가? [27] Alan_Baxter10820 15/06/20 10820 1
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로