Tableau 리뷰 #6. Day1 과제 - 스타벅스 메뉴/지리적 데이터 활용해 분석
👩💻 태블로 신병훈련소 복습하기 DAY 1 👩💻
들어가기 전 요점 정리
1. 차원과 측정값
" 필드는 차원과 측정값으로 나뉜다."
- 차원 : 정성적 데이터(ex. 제품명, 날짜, 지리명), 분석의 기준이 되는 값, 불연속 데이터, 측정값을 쪼개 보는 관점
- 측정 값: 정량적 수치, 연속형 데이터로 집계가 되는 데이터
2. 집계
" 측정값은 차원을 기준으로 집계 되어 표현된다. "
집계란? 합계, 평균, 중앙값, 카운트, 카운트(고유), 최소값, 최대값, 백분위수, 표준 편차, 분산 등
조금더 자세히 들어가자면-----------------------------------------------------------------------------
집계는 측정값(숫자값)을 특정 기준(차원)으로 모으는 것을 의미한다.
근데 이때 집계 방법이 반드시 지정되어야 하는데, 이를 집계 함수라고 한다.
ex1) 핸드폰 판매량을 1월/2월/3월이라는 월 기준으로 나누어 볼때 월별 합계 값을 본다.
ex2) 핸드폰의 월별 판매량이 있을때 기종별로 평균으로 나누어 비교한다.
과제 실습하기
1. 카테고리 별 평균 칼로리와 평균 데이터 >> 막대차트
막대 차트의 특징
가장 기본적으로 알고 있는 막대 차트는 수치 데이터 값들 간의 작은 양적 차이를 비교하는데 유용하다.
그리고 특정 참조선(ex. 평균값, 중간값) 등을 표현해 해당 막대가 그 참조선 값에 도달했는지 도달하지 못했는지를 비교할 수도 있고, Bar in Bar 차트 등을 통해 목표값에 도달했는지 아닌지 등도 살펴 볼 수 있는 등 추가적인 시각화를 발전시켜 나가기도 좋다.
막대 차트를 사용할 때는 비슷한 값들의 비교를 명확하게 하기 위해서 데이터를 정렬하는 것을 권장한다.
※ 주의 ※
- 합계로 가져와진 측정값을 평균으로 바꾸어준다 -> 카테고리별 평균값을 비교하기 위해
- 데이터 크기를 잘 비교할 수 있도록 막대그래프를 정렬해준다. 칼로리별로 데이터를 정렬했으니, 카페인은 색상으로 그 차이를 비교해본다.
질문 : 칼로리가 낮으면서 카페인이 적은 카테고리는?
답 : 스타벅스주스(병음료)
2. 메뉴명 별 칼로리와 카페인 >> 트리맵
1번은 카테고리 단위로 비교했다면, 더 아래 수준인 칼로리와 카테고리를 비교해보자
트리맵의 특징
- 계층구조의 데이터를 표시하는데 적합한 시각화
- 전체 대비 비율이 얼마나 되는지 비교하는데 많이 사용
- 사각형의 크기와 색상에 따라 데이터 패턴을 확인할 수 있을 뿐만 아니라, 많은 데이터를 한번에 볼 수 있다는 장점
※ 주의 ※
1번 과제에서는 카테고리를 기준으로 칼로리와 평균 값을 계산했다면, 2번 과제에서는 메뉴명을 기준으로 칼로리와 카페인 값을 계산하는 것이다. 그런데, 현재 데이터의 가장 낮은 행 수준이 메뉴명이기 때문에 집계를 따로 변경해줄 필요가 없다.
3. 도구 설명 활용하기
1번 뷰에 2번에 만든 트리맵을 도구 설명으로 표시해보자
도구 설명에 디폴트 값을 다 지우고 삽입 -> 도구 설명으로 나타낼 시틀를 선택한다.
사이즈는 계속해서 400/300정도를 추천하는 것 같으니 사이즈도 수정해준다.
이제 마우스를 올리면 2번에서 만든 트리맵이 막대그래프 카테고리별로 편집되어 나타난다. (멋있군!)
4. 당분 함유량과 칼로리 상관 관계 >> 스캐터 플롯(산점도)
* 상수라인/평균 라인/ 사분위수 및 중앙값/ 추세선 등 참조라인을 추가해서 분포를 비교할 수 있다.
스캐터 플롯(산점도) 차트의 특징
- 2개의 연속형 데이터에 대한 상관관관계를 분석하는데 가장 많이 사용
- 두 개의 축으로 데이터가 얼마나 퍼져 있는지 분포를 살펴 볼 수 있다.
- 상수 라인/ 평균 라인 / 사분위수 및 중앙값/ 추세선 등과 같은 참조라인을 추가하여 값의 분포를 비교하기도 용이하다.
첫번째. 기본적인 산점도 형태를 만든다.
- 당/칼로리를 각각 열/행에 배치
- 메뉴명 기준으로 점을 분산시키기 위해 메뉴명을 마크로 가져오기
두번째. 칼로리-당분 함유량의 상관 관계를 보여주는 산점도에 카페인 측정값도 표현해보자.
세번째. 평균과 추세선을 추가해 비교할 수 있는 기준을 표현한다.
질문 : 칼로리와 당분함유량의 상관 관계
답 : 당분 함유량이 높을 수록 칼로리가 높을까요?
5. 시군구 별 매장 분포 현황 >> 분포&맵
질문 : 어떤 시군구에 스타벅스가 가장 많을까?
첫번째. 데이터를 스타벅스 매정 정보로 변경한다.
두번째. 시군구를 마크에 가져온다.
세번째. 매장코드를 카운트해서 크기의 변화를 준다.
네번째. 카운트(고유)로 만든 크기 마크를 컨트롤 드래그해서 색상으로도 표현한다.
6. 대시 보드 만들기
지금까지 만든 워크시트를 한눈에 볼 수 있도록 대시보드를 만들어보자.
범례는 shift+드래그하면 차트 안/밖을 이동할 수 있다.
보너스 과제
1. 칼로리가 낮으면서 카페인이 높지 않은 메뉴를 마시고 싶을때 어떤 시각화로 답을 찾아 볼 수 있을까?
칼로리와 카페인의 상관 관계를 보여주는 차트로 표현. 답은 민트 블렌드 티
2. "스타벅스 매장 정보" 데이터에 있는 경도/위도 데이터를 이용해서서울시의 실제 매장 위치를 표현해보자.
칼로리와 카페인의 상관 관계를 보여주는 차트로 표현. 답은 민트 블렌드 티