2022년 2월 26일 치러진 제32회 ADsP 시험을 92점으로 합격했습니다.
이후 도전한 빅데이터분석기사와 ADP도 모두 합격을 하였습니다.
혼동 행렬에 나오는 각종 용어들은 시험공부하던 시절에도 지금도 항상 혼동스럽고 어렵습니다.
요새는 정보처리기사 실기 시험을 준비하고 있는데요, 이곳에도 혼동이라는 용어가 등장합니다.
Claude Shannon 선생님께서 일찌기 암호학 관련하여 혼동과 확산을 설파하셨다고 합니다. 혼동행렬을 한 번 정리하고 넘어가야지 안 되겠습니다.
In cryptography, confusion and diffusion are two properties of the operation of a secure cipher identified by Claude Shannon in his 1945 classified report A Mathematical Theory of Cryptography
ADsP를 준비하려면 혼동행렬은 반드시 알아야 하는 개념입니다. 오직 시험 합격이 목적이라면 억지로 외우셔도 됩니다만 그 과정이 머리를 꽤나 아프게 할 것이고, 억지로 외운 개념의 유효 기간은 정말로 짧을 것입니다. 그러므로 이해를 할 수만 있다면 그것이 머리도 즐겁고 유통 기간도 길게 되는 좋은 방법이므로 도전해 보겠습니다.
전체를 다 이야기하려면 꽤나 많은 용어들이 나옵니다. 오늘은 위양성, 민감도, 정밀도 3가지 용어에만 집중해 보겠습니다.
위양성
혼동행렬 관련 개념과 용어 중 저에게는 명쾌한 첫 번째 단어가 위양성입니다. 제가 한자를 좋아해서인지 모르겠습니다. 코로나 진단 키트 이야기할 때 방송이나 뉴스에도 종종 나왔던 용어입니다.
풀어서 설명하면 거짓 양성이라는 뜻이죠. 진단 키트로 검사했는데 양성(코로나에 걸림)이라고 나왔는데 그 결과가 잘못된 것이 위양성입니다.
PCR 검사보다 신속 항원 검사가 위양성이 높게 나온다고 하죠.
위양성은 한자 표현인데 영어로 하면 False Positive입니다.
한자를 그대로 영어로 바꾸면 됩니다. 간단합니다. 그러나 위양성 = False Positive 반드시 암기해야 합니다. 다른 개념들의 기초가 됩니다.
민감도
민감하다. sensitive 하다. 예민하다. 이런 말이죠.
여기서부터 살짝 저를 자극합니다. 많은 분들이 또 혼동하기 시작하는 부분이라고 생각합니다.
혼동 행렬 즉 Confusion Matrix의 TN TP로 구성된 수식을 보면 십중팔구 머리는 빙빙 돌면서 나락으로 갑니다.
표는 나중에 생각하고 개념에 먼저 집중해야 합니다.
코로나 환자 10명을 모아서 진단키트로 검사해 보니 9명이 양성이라고 나왔을 때 민감도가 90%입니다.
환자를 환자라고 맞추는 지표가 민감도라고 외워봅니다.
어떤 기계 부품이 있습니다. 불량품들의 경우에도 겉보기에는 정상으로 보입니다. 불량품들을 모아두고 검사하는 기계가 어지간히 감도가 좋지 않고서는 불량을 못 잡아 냅니다.
민감도가 좋아야 불량품을 잡아낼 수 있습니다. 그래서 민감도입니다.
불량품들을 불량품으로 판별하는 지표가 민감도입니다.
암튼 저는 이런 느낌으로 외웠습니다.
정밀도(precision)
영어로는 precision입니다.
어떤 책이나 자료에서는 precision을 정확도라고 번역한 곳이 있습니다. 한참을 헷갈리게 한 문제의 용어입니다.
precision 은 정밀도라고 외웁시다. 대부분 정밀도라고 번역하고 있습니다. 그냥 제 느낌에도 정밀도가 훨씬 더 자연스럽고 좋습니다.
시험공부하는 과정이라면 정확도라고 이상하게 표현하는 비주류도 있다는 점 참고하세요.
민감도와 정밀도 이런 개념들을 어떻게 이해하고 머릿속에 넣을지는 각자 자기 나름의 방식으로 잘 이해하고 정리해야 하는 부분이라고 생각됩니다. TN FP 이런 놈들의 덧셈 나눗셈으로 외우고 잊어버리고 외우고 헷갈리고를 반복한 저는 그것이 아닌 다른 방식을 찾아보았습니다.
정밀하다는 것은 무엇이고 어떤 느낌일까 집중해 보았습니다.
어떤 기구가 정밀하다.
아주 정밀한 기계가 있다면 어떤 기계일가.
그래서 저만의 방식으로 저를 세뇌시켰습니다.
어떤 도구로 검사를 했는데 그 결과가 굉장히 정확한 것이 정밀한 것이다.
즉 검사 결과가 환자라고 나온 사람들을 조사해 보니 9명이 진짜 환자라고 하면 그것은 90% 정밀한 것이다.
"환자라는 결과의 정확도가 정밀도다"
"불량품이라는 결과의 정확도가 정밀도다"
단순히 "검사 결과의 정확도가 정밀도다"라는 표현이 아닌 "불량품이라는 검사 결과의 정확도가 정밀도다"라는 점에 유의하세요.
암튼 오늘은 여기까지 하겠습니다.
다음에는 아래 내용들을 주제로 이야기를 진행하며 혼동행렬을 정리해 보겠습니다.
- 양성과 음성의 의미는 무엇일까?
- F1 스코어를 포함한 다른 지표들은 무엇인가?
- 혼동행렬표는 왜 이렇게 복잡할까?
'ADP (R) > ADsP' 카테고리의 다른 글
혼동행렬(3) (0) | 2023.03.05 |
---|---|
연관분석 이야기(4) (0) | 2023.02.07 |
[ADsP] 분석기획 암기노트 (0) | 2023.02.06 |
연관분석 이야기(3) (1) | 2023.02.03 |
연관분석 이야기(2) (0) | 2023.02.02 |