지난 포스팅에서 ADsP 단골 문제인 지지도,신뢰도,향상도 계산 문제 초간단 샘플을 공유했습니다.
두번째 포스팅에서는 신장암 레지스트리 구축하면서 재미삼아 해 보았던 RCC invasion 연관분석 경험담을 공유하려고 했습니다.
그런데 오픈채팅방에 연관분석 질문이 있어서, 답변하는 포스팅을 먼저 해보겠습니다.
네이버 카페 "데이터 전문가 포럼"에도 연관분석 지표 계산 문제 질문이 종종 올라옵니다.
신뢰도, 향상도 계산 문제가 머리 아픈 것은 저를 포함해서 많은 분들이 공통으로 느끼는 어려움인 듯 합니다.
1. 질문
2. 정답보기를 눌러 정답을 확인하세요
혹시 제가 틀린 걸까요? 그렇다면 댓글 부탁드립니다.
정답은 3번 입니다.
3. 지문 4번 설명
연관분석의 3가지 대표 지표는 지지도, 신뢰도, 향상도입니다.
지지도는 순서와 무관하게 a,b 두 개 제품의 조합으로 측정합니다.
그러나 신뢰도와 향상도는 if a the b 형태로 a,b 순서에 따라 계산하며 a->b 일 때와 b->a 의 값이 다릅니다.
4번 지문은 두 가지 케이스 각각에 대한 신뢰도를 구해서 서로 비교해보라는 내용입니다.
4. 필기 시험 경험담 및 전체 풀이
제가 작년 4월 (2022.04.09)에 시행된 제4회 빅데이터분석기사를 합격했는데 그 때 본 문제 같아요.
한달쯤 후인 5월 21일 응시한 ADP필기에서 보았을 수도 있습니다.
문제에서 주어진 표는 찬찬히 생각해 보면 설명할 것도 없이 쉬운 표인데요, 시험장에서 이 표를 본 순간에는 처음 접하는 포맷이라 당황했던 기억이 생생합니다. 마치 민감도나 정밀도를 계산하기 위한 혼동행렬 같은 표였는데, 장바구니 분석 지표 이야기가 나와서 이게 무슨 시츄에이션? 하면서 시간을 조금 소모했습니다.
문제에서 주어진 표를 연관분석 문제에서 일반적으로 사용하는 형태로 재구성하면 다음과 같습니다.
그림 | 설명 | 일반적인 표시 예 | 건수 |
Hamburgers,Pizza | 햄벅 피자 모두 포함된 거래 | Hamburgers,Pizza,콜라 | 2,000 |
Hamburgers,(Pizza) | 햄벅은 있고 피자 없는 거래 | Hamburgers,콜라 | 500 |
(Hamburgers),Pizza | 햄벅은 없고 피자만 있는 거래 | Pizza,사이다 | 1,000 |
(Hamburgers),(Pizza) | 둘다 없는 거래 | 콜라,사이다 | 1,500 |
이해를 위해 작성해본 표이고요, 지지도 신뢰도 향상도 계산은 문제에 주어진 매트릭스 형태가 오히려 더 편합니다.
총거래건수 = 5,000
지지도 = 2,000 / 5,000 = 0.4
신뢰도
- 햄버거 -> 피자 신뢰도 : 2,000 / 2,500
- 피자 -> 햄버거 신뢰도 : 2,000 / 3,000
향상도
- 햄버거 -> 피자 향상도 : (20/25) / (3000/5000) = 4/5 * 5/3 = 4/3
- 피자 -> 햄버거 향상도 : (2/3) / (2500/5000) = 4/3
1. 지지도는 0.4 인데 0.6이라고 하니 땡
2. 정확도?? 이거 혼동행렬도 아니고 그냥 땡입니다.
3. 향상도가 1보다 크므로...라니요. if then 을 안주고 덜렁 향상도? 실제 시험에서는 계산 안하고 4번으로 일단 통과했습니다. 1,2,4 가 틀리니 3번이 맞다고 그냥 해버렸습니다. 지금 와서 계산해보니 4/3 으로 둘다 똑같고 1보다 크군요
4. 햄버거 -> 피자 신뢰도 더 높다? 땡! 더 낮습니다. 이것은 계산하고 풀었습니다.
정답은 3번 입니다.
'ADP (R) > ADsP' 카테고리의 다른 글
[ADsP] 분석기획 암기노트 (0) | 2023.02.06 |
---|---|
연관분석 이야기(3) (1) | 2023.02.03 |
연관분석 이야기 (1) (0) | 2023.01.29 |
ADsP 준비 추천 영상 (0) | 2022.08.05 |
결정계수(R2) 계산 (0) | 2022.08.04 |