일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- tableau
- 태블로 집합
- 태블로 자격증 독학
- coursera
- 태블로 자격시험
- TABLEAU Certificate
- 태블로독학
- 태블로 리뷰
- 태블로 무료 강의
- 태블로 자격시험 독학
- 태블로 씹어먹기
- 태블로
- 태블로 데스크탑
- 태블로 독학
- 태블로 신병 훈련소 후기
- 태블로 신병훈련소
- 태블로 신병 훈련소 11기
- 태블로 신병 훈련소
- CourseraSQL
- python udemy
- 데이터 시각화
- SQL
- 태블로초보
- 태블로신병훈련소
- 알약 모양
- 범프차트
- 태블로 신병 훈련소 10기
- 빅데이터분석기사
- Python
- 태블로 신병훈련소 후기
- Today
- Total
하루에 하나씩
빅데이터분석기사 필기편 Part1.빅데이터 분석 기획 본문
목차
PART1_1. 빅데이터의 의해
PART1_2. 데이터 분석 계획
PART1_3. 데이터 수집 및 저장 계획
PART1_1. 빅데이터의 의해
02. 빅데이터 정의로 올바르지 않은 것은?
빅데이터란 다양하고 대규모의 데이터에서 고비용으로 가치를 추출할 수 있고, 데이터의 수집과 발굴을 초고속으로 처리할 수 있는 차세대 기술 및 아키텍처를 말한다.
->저비용
06. 빅데이터 플랫폼에 관한 설명으로 틀린 것은?
① 하둡 에코시스템은 특정 기술 및 프레임 워크를 의미한다.
② 빅데이터 플랫폼이란 데이터의 수집, 저장, 분석, 활용 등 분석 프로세스를 지원하는 규격화된 빅데이터 프로세스 기술을 의미한다.
③ 방대하고 복잡한 데이터를 처리하기 위해 다양한 빅데이터 플랫폼이 개발되었다.
④ 오픈 소스 기반의 분산 처리 환경에는 하둡 분석 플랫폼이 있다.
해설) 많은 기업에서 사용하는 하둡 에코 시스템은 확장성과 호환성이 높은 오픈 소스 솔루션으로 특정 기술이나 솔루션에 국한되지 않은 다양한 기술 및 솔루션 등을 이용해 플랫폼을 구성하고 있다.
08. 비식별 조치 방법은? - 김씨, 30대, 학생
데이터 범주화 : 식별값을 해당 그룹의 대푯값이나 구간값으로 변환하는 기법
09. 개인정보 비식별화의 세부 기술중 올바르지 않은 것은?
① 가명 처리 : 휴리스틱 가명화, 암호화, 교환방법
② 데이터 마스킹 : 랜덤 라운딩, 범위화, 감추기
③ 데이터 삭제 : 식별자 삭제, 부분 삭제, 레코드 삭제, 식별 요소 전체 삭제
④ 총계 처리 : 총합, 부분합, 라운딩, 재배열
해설) 랜덤라운딩, 범위화, 감추기는 데이터 범주화 기법이다.
11. 다음 데이터의 종류는?
{
"사업본부" "빅데이터 분석 본부",
"사업부" : " 제조 빅데이터 사업부",
"팀" : "분석 1팀"
....
}
① 정형데이터
② 비정형 데이터
③ 반정형 데이터
④ 부정형 데이터
해설) 데이터 구조 정보를 함께 제공하는 형식은 반정형 데이터
12. 다음중 빅데이터의 가치로 올바르지 않은 것은?
① 타 분야와의 융합으로 새로운 시장을 창출한다.
② 리스크 감소 효과를 가져온다
③ 기업의 경쟁력이 높아진다
④ 소비자의 수요를 증가시켜 이익을 높일 수 있다.
해설) 빅데이터를 활용하여 안전적인 기업 활동을 출구하며 소비자의 수요에 빠르게 대응 할 수 있지만 수요 자체를 증가시키기는 어렵다.
13. ***은 데이터 활용이 증가함에 따라 개인정보 보호 강화에 대한 요구가 지속되어 개인정보 보호를 보장하면서 데이터를 활용하기 위해 만들어졌으며, 개인정보를 이용 또는 제공할 때 준수해야할 조치 기준을 제시하고 있다.
① 정보통신망법
② 신용정보법
③ 개인정보 비식별 조치 가이드라인
④ 개인정보 보호제도
헤설) 개인정보 보호를 보장함녀서 데이터 활용을 촉진하기 위해 제한 제도는 개인정보 비식별 조치 가이드라인이다.
14. 다음 중 함묵지와 형식지에 관한 설명으로 옳지 않은 것은?
① 언어나 문서로 표출된 지식을 형식지라고 한다.
② 형식지는 여러 사람이 공유할 수 있도록 공통화가 필요하다.
③ 암묵지는 개인에게 축적된 내면 지식으로 언어나 문자를 통해 나타나지 않는 지식이다.
④ 암묵지가 고도화 되거나 형식지로 표출되어 공유되면 더 높은 가치를 만들 수 있다.
해설) 공통화와 내면화가 필요한 지식은 암묵지다.
16. 빅데이터의 위기 요인과 통제 방안에 대한 설명으로 가장 올바른 것은?
① 사생활 침해를 방지하기 위해 책임제도를 동의제도로 변경하는 것이 효과적이다.
② 명확한 결과에 대한 책임을 묻는 책임 원칙이 훼손될 가능성에 대비하여 빅데이터 사전 분석을 통한 통제의 강화가 필요하다.
③ 알고리즘을 통해 불이익을 당한 사람들이 앍소리즘에 대해 분석을 할 수 있도록 알고리즘에 대한 접근을 허용한다.
④ 데이터 비식별조치는 사생활 침해의 요인을 제거 할 수 있다.
해설) 데이터 비식별 조치는 개인 정보를 안전하게 사용하기 위한 기술적 가이드라인으로 사생활 침해의 요인을 제거하기 위해서는 동의제도를 책임제도로 변경하는 방법이 필요하다.
또한 사전 예측을 통한 통제 강화는 책임 원칙의 훼손을 유발 할 수 있다.
답) 3
PART1_2. 데이터 분석 계획
02. 빅데이터 분석 절차로 올바른 것은?
문제 인식 - 현황 분석 - 모형화 - 데이터 수집 - 데이터 분석 - 분석 결과 활용
* 빅데이터를 분석할 때는 문제부터 인식하고, 현황을 보면서 모형화 한다.
04. 데이터 확보 계획 수립 절차로 올바른 것은?
목표 정의 - 요구 사항 도출 - 예산한 수립 - 계획 수립
* 예산 먼저 세우고 계획 세운다!
08. 분석 마스트 플랜 수립 시 적용 범위와 방식에서 고려할 요소로 옳지 않은 것은?
분석 데이터 적용 수준/ 기술 적용 수준/ 투자 비용 수준 / 업무 내재화 적용 수준
해석) 분석 마스터 플랜을 수립할 때에는 전략적 중요도, 비즈니스 성과, 실행 용이성을 고려하여운선 순위를 정한다. 우선 순위가 설정되면 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준을 고려하여 적용 범위 및 방식을 정한뒤 분석 로드맵을 수집한다.
09. 문제가 정의되어 주어지고 이에 대한 해결방법을 차직 위해 단계적으로 업무를 수행하는 분석 과제 발굴 방식은?
상향식 접근법
10. CRISP-DM에 대한 설명으로 옳지 않은 것은?
① CRISP-DM방법론을 구성하는 최상위 레벨은 단계이다.
② CRISP-DM은 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행으로 구성된다.
③ 단계 간 피드백을 통하여 완성도를 높인다.
④ 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적인 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론이다.
해설) 1996년 Fayyad가 프로파일링 기수을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론은 KDD이다.
13. CRISP-DM 분석 방법론의 분석 절차로 올바른 것은?
업무 이해 - 데이터 이해 - 데이터 준비- 모델링 - 평가 - 전개
* 데이터를 먼저 이해하고 준비한다
14. 문제를 정의할 때 상향식 접근법의 확산적 사고로 문제를 인식하고 도출된 문제를 분석하고 검증하는 하향식 접근법의 수렴적 사고를 반복 수행하는 방식은?
디자인 사고
19. 빅데이터 분석 방법론의 분석 기획 단계에서 진행되는 업무가 아닌 것은?
프로젝트 범위 설정/ 프로젝트 정의/ 필요 데이터의 정의/ 프로젝트 위험 계획 수립
20. 빅데이터 분석 방법론의 절차로 올바른 것은?
분석 기획- 데이터 준비 - 데이터 분석 - 시스템 구현- 평가 및 전개
* 시스템을 구현하고 평가한다.
PART1_3. 데이터 수집 및 저장 계획
01. 데이터 수집 기술 중 특성이 다른 하나는?
Crawling/ ETL/ API/ RSS
해설) ETL은 정형 데이터 수집 기술. 나머지는 반정형 데이터 수집 기술
02. 수집된 데이터로의 노이즈를 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기술은?
평활화/ 일반화/ 집계/ 정규화
해설) 구간화, 군집화 등을 통해 데이터의 노이즈를 제거하여 데이터 집합을 매끄럽게 하는 기술은 평활화다.
05. 데이터 활용성의 특성으로 올바르지 않은 것은?
데이터 보안성/ 데이터 유용성/ 데이터 접근성/ 데이터 정확성
해설) 데이터 활용성 특성 : 데이터 유용성, 데이터 접근성, 데이터 보안성
07. 기업의 방대한 기간계 데이터를 통하 관리하여 의사 결정 도구의 기초 데이터로 사용되는 데이터의 집합체로 사용자 관점에서 주제별로 데이터를 기술이다.
: 데이터 웨어하우스
08. NoSQL 데이터베이스 유형
DB2/MsSQL/Oracle/HBase
해설) NoSQL은 데이터 모델에 기반을 둔 분산 데이터베이스로 HBase, MongoDb, Cassandra 등
14. 개인정보 비식별 조치 가이드라인의 적정성 평가의 단계로 올바른 것은?
기초 자료 작성 - 평가단 구성- 평가 수행- 추가 비식별 조치 - 데이터 활용
15. 데이터 수집 기술 중 데이터의 추출, 가공, 적재의 단계로 이루어진 기술은?
ETL
해설) Extract/ Transform/ Load
16. 정량적 유형의 데이터가 아닌 것은?
도형/기호/언어/수치
해설) 언어, 문자 등의 데이터는 젓엊거 데이터에 해당한다. 정량적 데이터느 ㄴ수치, 도형, 기호 등의 데이터다.
17. 데이터 유형에 대한 설명으로 올바르지 않은 것은?
① 데이터를 존재 형태로 분류하면 실시간 데이터, 비실시간 데이터로 구분할 수 있다.
② 스트림 데이터는 센서 데이터, HTTP 트랜잭션, 알람과 같이 네트워크를 통해서 실시간으로 전송되는 데이터이다.
③ 파일 데이터는 텍스트, 이미지, 오디오, 비디오 등 개별 객체로 구분되는 미디어 데이터이다.
④ 정형 데이터에는 관계형 데이터베이스(RDB), 스프레드시트 등이 있다.
해설) 텍스트, 이미지, 오디오, 비디오 등 개별 객체로 부분 되는 데이터는 콘텐츠 데이터이다.
18. 관측된 데이터를 분석에 사용할 떄 데이터 특성에 따라 분석 방법을 달리해야한다. 데이터를 측정할 떄 사용하는 척도에 대한 설명 중 올바르지 않은 것은?
① 서열 척도는 숫자의 크기에 의미를 가진다.
② 명목 척도는 단순히 숫자로 바꾸는 것으로 숫자의 크기에는 의미가 없다.
③ 등간 척도는 순서와 간격에 의미가 있다.
④ 비율 척도는 수치형 변수를 측정할 때 주로 사용된다.
해설) 등간 척도는 속성의 특징에 숫자를 부여한 것으로 구간 사이의 간격이 의미가 있는 자료이며 순서는 의미가 없다.
19. 반정형 데이터 수집 기술이 아닌 것은?
ETL/ Streaming/ Sensing/ Scribe
ETL 정형데이터
20. 반정형 데이터가 아닌것은?
JASON, 영상데이터, 센싱 데이터, XML
해설) 영상데이터는 비정형 데이터
①
②
③
④
'빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 제1회 실전모의고사 오답노트 (0) | 2021.10.01 |
---|