빅분기 14

빅분기 실기 6회에 즈음하여

4회 빅분기 실기 합격자입니다. 이번달 24일 6회 시험이 예정되어 있으니 실기 준비중이신 분들이 막바지 준비로 마음이 조급하실 것 같습니다. 저는 결과론적으로는 4회 시험을 만점으로 합격했습니다. https://it-freelancer.tistory.com/5 제4회 빅데이터분석기사 실기 만점 후기 3/3 (작업형 2형) 작업형 2는 일단 결론부터 말씀드리면, R을 이용하여 가장 기본적인 형태의 randomForest 로 작성했고 AUC 0.52 정도였는데 만점이 나왔어요. 시험을 준비하는 단계에서 작업형 2는 단답형 작업형1 작 it-freelancer.tistory.com 빅분기 실기는 저를 포함해서 많은 분들이 꽤나 쉬운 편에 속하는 것으로 평가합니다. https://it-freelancer.ti..

빅분기 2023.06.13

IT 자격증 난이도 비교(ADsP 빅분기 ADP 정처기)

ADsP, 빅분기, ADP, 정처기 중 어느 것이 더 어려운지라는 질문을 자주 접합니다. 도전하시는 분의 전공이나 경력 등에 따라 답은 달라질 것입니다. 어떻게 보면 답이 없는 질문일 수도 있지만 꾸준히 질문이 올라옵니다. 질문하시는 분들도 정답을 원해서가 아니라, 난이도에 대해 조금이라도 감을 잡아보려는 차원으로 하는 질문이겠지요. 제 경험을 토대로 정리를 해보겠습니다. 1. ADsP vs 빅분기(필기만) ADsP와 빅데이터분석기사 필기의 난이도 비교 질문이 제일 많은 것 같습니다. 저는 빅분기 필기가 훨씬 어려웠지만, 빅분기가 오히려 쉽다라는 의견도 가끔 보입니다. ADsP빅분기 필기저의 득점 (응시 연월)92 점 (2022년 2월)81.25 점 ( 2022년 4월)공부 기간1.1 ~ 2.25 약 3..

카테고리 없음 2023.03.08

4회 빅분기 실기 합격 후기

저는 2022년도 빅데이터분석기사 실기 4회를 100점으로 합격했습니다. 시험 결과를 확인한 직후에 시험 보는 과정에 초점을 맞추어 합격 후기를 포스팅했었습니다. 제4회 빅데이터분석기사 실기 만점 후기 (1/3) 제4회 빅데이터분석기사 실기 만점 후기 2/3 (작업형 1형) 제4회 빅데이터분석기사 실기 만점 후기 3/3 (작업형 2형) 시험 준비를 어떻게 할 것인지를 주제로 추가로 포스팅을 하려고 했었는데, 미루고 미루다 이제야 작성을 해봅니다. 4회 시험 당시에도 필기는 어렵지만 실기는 쉽다는 이야기를 많이 들었습니다. 그러나 R도 능숙하지 않고, 구름환경도 처음이며, 모든 것이 생소한데, 실기 시험 경험이 전무했었기 때문에 두려운 마음이 작지 않았습니다. 동차는 패스하고 여유있게 준비해서 다음 회차에..

빅분기 2023.03.07

지니지수와 엔트로피 비교 (2)

엔트로피란 무엇일까요? 엔트로피 하면 떠오르는 것은 "엔트로피 증가의 법칙"이며 무질서가 증가한다는 법칙이라고 알고 있습니다. 그런데 데이터분석에서 엔트로피가 튀어 나왔습니다. ADsP ~ ADP 준비하는 과정에서 무질서한 정도라고 대충 개념만 알고 넘어갔고 그것으로 충분했습니다. 기술사 기출 문제에 지니지수와 엔트로피 지수 비교 문제가 있었습니다. 기술사 시험은 1교시형 문제 기준으로도 한페이지 분량의 답안을 작성해야 합니다. 수식을 포함해서 작성 가능한 모든 것을 끌어내야 합니다. 동일하거나 유사한 문제가 또다시 출제되는 경우를 대비해서 엔트로피 수식을 떠올릴 수 있도록 의미를 부여해 보겠습니다. 엔트로피는 무질서입니다. 무질서한 정도를 어떻게 수식으로 나타낼 수 있을까요요? 엔트로피의 수식은 ∑기호..

카테고리 없음 2023.03.06

혼동행렬(2)

Clinical Data Warehouse 환경에서의 ETL 업무를 이달 말일자로 마무리합니다. 점심을 먹고 나서 동료 프리랜서인 선배 부장님과 예술의 전당 뒤편 우면산 둘레길을 다녀왔습니다.이곳을 떠나기 전에 한번은 다녀오려고 했던 둘레길입니다. 떠날 때가 다 되서야 간신히 다녀왔습니다. 우면산 둘레길을 걸으면서 데이터분석과 무관한 선배 부장님께 혼동행렬 관련 개념에 대해 물어보았습니다. 위양성 "부장님, 코로나 진단 키드 뉴스에도 나온 말인데 혹시 위양성이라고 들어보셨습니까?" "알지! 가짜 양성이잖아. 안 걸렸는데 걸렸다고 나온거" "정답입니다~" 위양성이라는 용어는 일반적인 용어에 해당하나 봅니다. 민감도와 특이도 "본격적인 질문을 위한 기초 테스트를 통과하셨습니다. 실전 문제 내보겠습니다. 환자..

카테고리 없음 2023.02.27

혼동행렬(1) 위양성 민감도 정밀도

2022년 2월 26일 치러진 제32회 ADsP 시험을 92점으로 합격했습니다. 이후 도전한 빅데이터분석기사와 ADP도 모두 합격을 하였습니다. 혼동 행렬에 나오는 각종 용어들은 시험공부하던 시절에도 지금도 항상 혼동스럽고 어렵습니다. 요새는 정보처리기사 실기 시험을 준비하고 있는데요, 이곳에도 혼동이라는 용어가 등장합니다. Claude Shannon 선생님께서 일찌기 암호학 관련하여 혼동과 확산을 설파하셨다고 합니다. 혼동행렬을 한 번 정리하고 넘어가야지 안 되겠습니다.In cryptography, confusion and diffusion are two properties of the operation of a secure cipher identified by Claude Shannon in his ..

ADP (R)/ADsP 2023.02.23

연관분석 이야기(2)

지난 포스팅에서 ADsP 단골 문제인 지지도,신뢰도,향상도 계산 문제 초간단 샘플을 공유했습니다. 두번째 포스팅에서는 신장암 레지스트리 구축하면서 재미삼아 해 보았던 RCC invasion 연관분석 경험담을 공유하려고 했습니다. 그런데 오픈채팅방에 연관분석 질문이 있어서, 답변하는 포스팅을 먼저 해보겠습니다. 네이버 카페 "데이터 전문가 포럼"에도 연관분석 지표 계산 문제 질문이 종종 올라옵니다. 신뢰도, 향상도 계산 문제가 머리 아픈 것은 저를 포함해서 많은 분들이 공통으로 느끼는 어려움인 듯 합니다. 1. 질문 2. 정답보기를 눌러 정답을 확인하세요 혹시 제가 틀린 걸까요? 그렇다면 댓글 부탁드립니다. 더보기 정답은 3번 입니다. 3. 지문 4번 설명 연관분석의 3가지 대표 지표는 지지도, 신뢰도, ..

ADP (R)/ADsP 2023.02.02

[R] 빅분기 작업형 1형 연습 문제 (칼럼명 구하기)

문제 mtcars 에서 최대값이 가장 큰 칼럼명은 무엇인가? 오답 # summary해보면 눈에 바로 보여요. 그런데 그것을 print 또는 cat 으로 찍으면 하드코딩입니다. summary(mtcars) max dd2 answer % row.names() -> answer cat(answer) trouble shooting 지금도 ADP 실기를 준비하며 R 을 공부하고 있지만, 빅분기 준비 당시에는 쌩쌩쌩초보 시기였습니다. 그래서 준비답안 1을 만들면서 한참을 헤매다 정확히 정리하지 못한 부분이 있었습니다. dd % #mutate( max = as.numeric(as.character(max))) %>% arrange(desc(max)) %>% as.data.frame() -> dd2 처음에 중간 mut..

빅분기 2022.11.15

[R]빅분기 실기 단답형(F1 스코어 구하기)

빅분기 실기 4회차 단답형으로 F1 스코어 계산 문제가 나왔습니다. F1 스코어 계산식이 기억이 안나는 경우에도 help 기능을 활용하면 도움이 될 수 있습니다. 기출과 유사한 문제를 생성하여 R help 기능을 참고하여 해결하는 과정을 만들어 보았습니다. 문제 분류 문제의 민감도가 0.652 정밀도는 0.345가 나왔다. F1 스코어를 소숫점3자리에서 반올림하여 구하라 정답 0.451 풀이 caret 패키지의 confusionMatrix 함수에 F1을 포함한 다양한 측정지표 계산식이 있다는 점은 알고 있어야 합니다. 작업형 쪽(https://dataq.goorm.io/exam/116674/체험하기/quiz/2)으로 이동하여 R 기능을 수행합니다. 체험하기 환경과 실제 시험환경은 완전 동일하다고 보시면 ..

빅분기 2022.07.27

빅분기 작업형 1유형 연습 문제[R]

빅분기 실기 1유형을 R 로 연습한 문제와 답안입니다. DataManim 싸이트 문제를 groom 에서 연습할수 있는 R 기본데이터로 변형하여 풀어보았습니다. 참고싸이트: https://www.datamanim.com/dataset/practice/q1.html 시험전에는 print(a) 방식으로 연습하였으나, 4회 실기시험 지시사항에 따라 cat(a) 로 작성하였습니다. 문제 1. airquality 데이터의 Ozone 수치를 10 단위로 변환 했을 때, 가장 많은 건수를 가진 구간은? (0~9 : 0 , 10~19 : 10,,,) library(dplyr) airquality %>% mutate(gugan=Ozone%/%10*10) %>% group_by(gugan) %>% summarize(cnt=..

빅분기 2022.07.15