일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 태블로 씹어먹기
- 태블로 신병 훈련소 10기
- 태블로 독학
- coursera
- CourseraSQL
- 태블로 신병 훈련소 11기
- 태블로독학
- SQL
- 태블로 신병 훈련소 후기
- 태블로 집합
- 태블로 자격시험
- 태블로 데스크탑
- 태블로신병훈련소
- python udemy
- tableau
- 태블로 자격시험 독학
- 태블로 자격증 독학
- 태블로
- 범프차트
- 빅데이터분석기사
- 태블로초보
- 태블로 신병훈련소 후기
- 태블로 신병훈련소
- TABLEAU Certificate
- 태블로 리뷰
- Python
- 태블로 무료 강의
- 알약 모양
- 데이터 시각화
- 태블로 신병 훈련소
- Today
- Total
하루에 하나씩
빅데이터분석기사 제1회 실전모의고사 오답노트 본문
PART 1. 빅데이터 분석 기획
02. 데이터 변환 기법
① 데이터의 노이즈를 구간화, 군집화 등으로 다듬는 평활화
② 다양한 차원으로 요약하는 집계
③ 특정 구간으로 값을 스케일링하는 일반화
④ 정해진 구간으로 전환하는 정규화
새로운 속성을 생성하는 기법
03. 빅데이터 조직 구조 중 분산 구조
빅데이터 조직 구조 : 집중 구조/ 기능구조/ 분산 구조
집중 구조 : 각 부서별로 분석을 진행하여 전사 분석 업 무를 별도의 분석 전담 조직에서 담당. 분석 업무가 이중화, 이원화 될 수 있다.
기능 구조 : 각 부서별로 분석을 진행, 별도의 분석 조직이 없어 전사적 핵심 분석이 어렵고, 과거 실적 분석에 국한될 가능성이 크다
분산 구조 : 분석 조직 인력들을 현업 부서로 직접 배치하여 분석 업무를 수행. 신속한 활동 가능, 베스트프렉티스 공유 가능, 분석 수준 상향 평준화
04. 조직 성과 평가 절차
목표 설정 - 모니터링 - 평가 실시 - 목표 조정 - 결과 피드백
목표 설정 - 모니터링 - 목표 조정 - 평가 실시 - 결과의 피드백
05. 데이터 레이크
- 정형, 비정형의 다양한 유형의 데이터를 저장, 관리하여 소스 데이터의 형태를 그대로 저장하기 떄문에 메타의 관리가 중요
- 분산 저장 프레임 워크, 분산 저장 언어, 메타 관리 솔루션의 구축이 필요하지만 상대적으로 데이터 웨어 하우스 구축 보다 비용이 낮음
- 데이터 레이크에 저장되는 방대한 데이터에서 효율적으로 유의미한 데이터를 활용하기 위해 레이크쇼어 마트를 구성하여 사용하기도 함
③ 분산 저장 프레임 웤, 분산 저장 언어, 메타 관리 솔루션 등이 필요해서 구축하는데 비용이 많이 들지만 데이터 분석으로 새로운 가치를 창출 할 수 있어, 투자 효용성이 높아 많은 기업에서 구축하고 있다. →데이터 웨어 하우수 구축보다 비용이 적다
답 : 데이터 레이크의 가공되지 않은 방대한 데이터에서 분석 컨텍스트에 맞는 레이크 소어 마트를 구성하여 활용하기도 한다.
08.
- 개인정보 보호법 : 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무등을 규정
- 정보 통신망법 : 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
- 개인정보보호 가이드라인 : 공개된 개인정보 또는 이용 내역정보의 수집, 저장, 분석 등에 있어 이용자의 프라이버시를 보호하고 안전한 이용환경을 조성하기 위한 가이드 라인
- 신용정보법 : 개인 신용정보의 취급 단계별 보호조치 및 의무 사항에 관한 규정
11. 데이터 수집 프로세스
수집 데이터 도출 - 데이터 소유 기관 확인 및 협의 - 데이터 유형 확인 및 분류 - 수집 데이터 목록화 - 데이터 수집 기술 선정 - 수집 주기 정의 - 수집 계획서 작성 - 데이터 수집
수집 데이터 도출 - 수집 데이터 목록화 - 데이터 소유 기관 확인 및 협의 - 데이터 유형 확인 및 분류 - 데이터 수집 기술 선정 - 수집 계획서 작성 - 수집 주기 정의 - 데이터 수집
12. 하둡 에코시스템의 분야별 기술로 올바른 것은?
비정형 데이터 수집 : Apache Chukwa, Apache Flume, Scribe
정형 데이터 수집 : Apache Sqoop
분산 데이터 저장 기술 : HDFS
분산데이터 베이스 : Apache HBase
ETL : 데이터 웨어하우스에서 주로 사용하는 데이터 전송 기술로 하둡 에코 시스템과 거리가 말다.
BigQuery는 Google Cloud의 서버리스 데이터 웨어하우스 서비스
14. NoSQL
고정된 스키마가 없어 데이터 베이스에 필드를 추가하는데 제약이 높다
고정된 스키마 없이 자유롭게 데이터 베이스에 필드를 추가할 수 있다.
<NoSQL 개념 정리>
데이터 저장 : 정형데이터 - 관계형 데이터 베이스(RDB), 반정형 - NoSQL, 비정형 - 분산 파일 시스템 (HDFS/GFS)
- RDB보다 상대적으로 제한이 덜한 데이터모델을 기반에 둔 분산 데이터 베이스
- NoSQL은 수평적 확장(Scale-out), 데이터 복제, 간편한 API 제공, 유연성 등의 장점
- MongoDB, Cassnadra, Hbase 등이 있다.
- 데이터 모델에 따라 Key Value Database, Document Database, Wide Column Database, Graph Databasefh rnqns
18. 분석 문제 해결 방안 선정
분석 대상을 알지만 분석 방안을 모를 경우 : 분석 주제에 대한 솔루션을 찾아 냄으로써 분석 과제를 기획할 수 있다.
20. 분석 문제를 정의하여 발굴하는 방법에 대한 설명
상향식 접근법, 하향식 접근법
하향식 접근법은 문제 탐색, 문제 정의, 해결 방안 탐색, 과제 선정의 단계로 진행
하향식 접근법의 문제 탐색은 비즈니스 모델 기반 탐색 방법과 외부 참조 모 기반 문제 탐색 방법을 사용.
PART 02. 빅데이터 탐색
23. 사분위수범위(Interquartile Range)는 제 Q3-Q1(8-2= 6) 으로 계산
하한값 : Q1-(IQRX1.5) = 2 - (6*1.5)
상한값 : Q3+(IQRX1.5) = 8 + (6*1.5)
25. 마할라노비스 거리
데이터의 분포를 고려한 거리측도, 데이터 관측지가 평균으로부터 벗어난 정도를 측정하여 이상값을 검출하는 통계 기법
27. 임베디드 기법
- 릿지 : L2- nor을 통해 제약을 주는 방법
28. 차원 죽소 기법
주성분 분석(Principal Component Analytis)
특이값분해(Singular Value Decomposition)
요인분석
독립성분 분석(Independent Component Analysis)
다차원 척도법(Multi - Dimensional Scaling)
29. 변수 변환 방법 : 단순 기능 변환, 비닝, 정규화, 표준화
30. 불균형 데이터 처리방법 : 과소표집(Under-Sampling), 과대표집(Over-Samp;ing), SMOTE(Synthetic Minority Oversampling Techniqued)
40. 가설검정에서 귀무가설이 참일 떄 귀무 가설을 기각하게 되는 제 1종 오류를 범할 확률은?
검정 통계량 및 이의 확률 분포에 근거하여 귀무 가설이 참일 떄 귀무 가설을 기각하게 되는 제 1종 오류를 범할 확률은 P-값(P-value)이다.
귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한 값으로 얻을 확률 값이다.
PART 03. 빅데이터 모델링
46. 회귀분석을 위한 기본적인 가정
회귀식은 선형성, 등분산성, 독립성, 정규성, 비상관성을 만족해야 한다.
다중공선성X
48. 로지스틱 회귀분석
로지스틱 회귀분석은 종속 변수가 범주형 데이터일 때 사용
+
- 선형 회귀분석은 정규분포를 따르지만, 로지스틱 회귀분석은 이항분포를 따른다.
- 독립변수의 선형 결합을 이용해 사건의 발생여부를 예측
- 종속 변수 범주가 2개이면 이항, 2개 이상이면 다항
- 일반적인 선형 회귀분석 - x값과 y값 모두 무한 사이의 값을 가진다. 하지만, 로지스틱 회귀분석의 경우 y 값을 0~1(확률 P)사이의 값을 갖게한다.
- 두가지로 분류하려고 하는 과정이므로 수식을 변환하는 과정이 필요
53. 서포트벡터머신 구성 요소 : 은닉층, 초평면, 결정경계
* 지니 지수 : 의사결정 나무의 불순도 지표, 엔트로피 지수도 있음.
55. K평균 군집 알고리즘
- 군집 형성 과정에서 군집에 속한 개체는 어느 군집에 속하더라도 이후에 다른 군집으로 바뀔 수 있다.
- 군집화 결과는 덴드로그램형태로 표현할 수 없다
- 알고리즘이 단순하고 학습이 빨라 대용량 데이터를 학습하기에 계층적 군집보다 적합하다.
- 한번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없다.
56. 시계열 데이터의 정상성
- 평균 일정
- 분산이 시점에 의존하지 않음
- 공분산은 시차에만 의존하고 시점에는 의존하지 않음
57. LSTM모형
- 순환신경망(RNN: Reccurent Neural Network)의 경사소멸 문제와 장기의존성 문제를 보완한다.
* 생성자와 구분자가 대립하여 서5로의 성능을 개선하며 학습한다 -> GAN
* 합성곱, 풀링, 완전연결신경망으로 구성된다. -> CNN
* 이미지 처리에 특화된 딥런이 알고리즘이다. -> CNN
58. 사회연결망 분석
다른 노드들 사이의 위치하는 정도를 측정하는 지표 : 매개중심성
59. 배깅(Bagging)
- 배깅은 부스팅에 비해 병렬처리가 쉬움
- 데이터 사이즈가 작거나 결측값이 있는 경우 유리
- 랜덤포레스트는 배깅을 사용한 대표적인 앙상블 부여
**부트스트랩 샘플링 수행시 오분류 데이터에 높은 가중치를 부여한다.
잘못분류한 데이터에 높은 가중치를 부여하는 앙상블 기법은 부스팅
60. 비모수 통계 검정
- 윌콕슨 순위 합 검정은 두 집단 간의 중위수를 비교하는 비모수적 통계방법
- 크루스칼-왈리스 검정은 순위 기반 일원분산분석(Once Way ANOVA)라고도 한다.
- 런 검정에서 런(RUN)은 표본의 부호가 바뀔 떄까지의 묶음을 의미한다.
부호검정은 부호(Sign)만을 기준으로 모집단의 중위수를 검정하는 비모수적 통계 방법이다.
PART04. 빅데이터 결과 해석
61. 혼동행렬을 이용해 계산할 수 있는 분류 모형의 평가지표중 재현율 산식
62. 혼동행렬에서 거짓 긍정률 계산
63. 혼동행렬에서 민감도 계산
64. 선형회귀 모형의 가정과 의미
선형회귀모형 가정 4가지
- 선현성
- 독립성
- 등분산성
- 정규성
65. 선형 회귀 모형의 어떤 가정을 확인하기 위한 방법인가?
더빈 왓슨 검정으로 선형 회귀 모형이 독립성을 확인 할 때
ex. Dubin Watson test
data : model
DW=1.6762 p-value= 0.09533
alternative hyphothesis : true autocorrelation is greater than 0
67. 전체 데이터를 동일한 크기의 k의 부분집합으로나누고, 하나를 검증 데이터로 사용하고 나머지 데이터를 핛브에 사용하는 검증 방법은?
= k-fold CV
이외 선택지
LOOCV : Leave-One-Out Cross Validation
LpOCV : Leave-p-Out Cross Validation
Holdout
k-fold CV : k-fold 교차 검증
71. 경사하강법에서 다음 지점으로 이동할 때 얼마나 이동할지를 나타내는 값
= 학습률 (학습률이 너무 작으면 최적의 가중치를 찾는데 시간이 오래걸리거나, 지역적 최솟값에서 학습이 멈출 수 있다. 반면 학습률이 너무 크면 최솟값을 벗어나 큰 값으로 발산하는 문제가 생길 수 있다.)
72. 다음중 확률적 경사 하강법의 매개 변수 변경 방향에 가속도를 부여해주는 방식에 해당하는 것은?
모멘텀
73. 분석 모형 융합 방법 중 여러 개의 분석 모형의 결과를 종합하여 많이 선택된 클래스를 최종 결과로 예측하는 방법
보팅은 여러개의 분석 모형 결과를 종합하는 방법
많이 선택된 클래스를 최종 결과로 예측하는 방법을 직접 투표(Hard Voting)방식이라고 한다.
각 모형의 클래스 확률값을 평균내어 확률이 가장 높은 클래스를 최종 결과로 예측하는 방법을 간접 투표(Soft voting)방식이라고 한다.
74. 분석 모형 융합방법인 부스팅
: 잘못 분류된 데이터에 가중치를 부여하여 분석 모형이 더 잘 분류 할 수 있도록
75. 최종 모형 선정 단계
예측 성능과 분석 모형을 실제 업무에 반영할 수 있는지 함께 고려해야 함.
76. 분석 결과 해석
설명력이 높은 분석 모형은 상대적으로 성능이 떨어진다는 단점
77. 데이터를 수집하고 정제하면서 시각화 목표가 될 만한 것을 발견하거나 설정하는 단계다. 데이터를 유사한 것끼리 묶거나 재배열함으로써 데이터의 패턴을 찾아낸다. : 정보 구조화
78. 관계 시각화 방법 : 산점도, 산점도 행렬, 버블차트
* 히트맵= 비교 시각화 방법
80. 분석 모형 리모델링 단계
- 기존 분석 모형 분석/ 데이터 수집 및 전처리/ 분석 모형 학습 및 검증
* 최종 분석 모형 선정 시에 사용했던 평가지표를 활용하기 때문에 분석 모형 평가 지표 선정은 수행하지 않는다.
'빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기편 Part1.빅데이터 분석 기획 (0) | 2021.09.29 |
---|