LITTLE BY LITTLE

데이콘 - 쇼핑몰 지점별 매출액 분석시각화 경진대회(22.08.05) 본문

시각화/공모전

데이콘 - 쇼핑몰 지점별 매출액 분석시각화 경진대회(22.08.05)

위나 2022. 8. 5. 22:54

이런것도 준다

* 완성 태블로 대시보드 링크
https://public.tableau.com/views/_16596130357610/sheet1?:language=ko-KR&:display_count=n&:origin=viz_share_link

 

[데이콘] 쇼핑몰 매출액 분석 시각화 경진대회

[데이콘] 쇼핑몰 매출액 분석 시각화 경진대회

public.tableau.com

* 참고 유튜브

더보기

대시보드 만들기 https://www.youtube.com/watch?v=v68eXCMpslU&t=475s

매개변수 https://www.youtube.com/watch?v=7VxiQI4gaq4

대시보드 기능 https://www.youtube.com/watch?v=HExh3sSw_N0

태블로 사용시 주의해야할 점 (Order Of Operation) https://www.youtube.com/watch?v=DsGnLd0oZOY&list=PLyipEw5AFv5QvjCCYw_ODFTSKVXhkDiQW&index=5

유튜브 월간 위비즈 : 대시보드 참고

실전 태블로 - 도넛 차트 만들기 (도구설명 편집) https://www.youtube.com/watch?v=ZoZqcHoEnek&feature=youtu.be

라인차트 (증감율 표시,이중축사용) https://www.youtube.com/watch?v=zMF6pyl_xco

* 대시보드 미리보기

시각화 시작하기

*인터넷 및 비저블22 런웨이 발표 참고

시각화 = 데이터 스토리텔링

  1. 첫번째 단계는 "어떤 데이터가 중요한지 결정하는 것"
  2. 목적을 위해서 (ex.고객을 파악하기위해서) 필요한 데이터와 불필요한 데이터를 구분
  3. 대시보드 이용자가 볼 때 어디서부터 시선이 이동할지 생각해보자. 본인이 전달하고자 하는 시각적 효과를 고려하여 이용자의 시선이 움직이는 경로를 사전에 설정해두기.
  4. 관습적 기호 사용하기 - 온도를 나타낼 때 차가운건 파란색, 뜨거운건 빨간색을 사용하는 것과 같은 관습적 지식을 고려하여 차트의 색상을 정해야한다. 또한, 서로 다른 이미지,개념을 한 화면에 나타내지 않도록 주의해야 한다.
  5. 시각화는 정확하고 자세하게 전달하고자 하는게 목적이 아님. 얼마나 중요한 것을 쉽게 전달할 수 있는가를 고려하자.
  6. 막대 그래프의 축은 반드시 0부터 시작해야 한다.
  7. 색상은 강조하고싶은 요소에만 사용하자.
  8. 이중축은 혼란의 여지를 주기 쉬워서 조심해서 사용하자.
  9. 선행지표와 후행지표
    1. 선행지표는 경향 발생 이전에 제공되는 지표이고
    2. 후행지표는 이미 발생한 경향에 기반한 지표이다
    3. 보통 산포도를 그릴 때, 가로축에는 선행지표(ex.매출), 세로축에는 후행지표(ex.이익)를 배치한다.
  10. 시각화에 사용할 변수는 주어진 데이터의 변수만 사용하는 것이 아니라, 주어진 변수를 합치거나, 계산하여 새로운 변수를 생성해서 활용할 수 있다.
    • ex. Retention Analysis
    • 1) User ID와 Event Time의 최솟값으로 "유저별 최초플레이 시점" 변수를 생성할 수 있고,\
    • 2) week와 최초플레이 시점, Event Time 3가지의 DATEDIFF로 "재방문까지 걸린 주"를 계산할 수 있으며
    • 3) 각각 'User ID의 수'를 '해당 주차 획득 User ID 수'로 나누어 "리텐션 재방문까지 걸린 주"변수도 생성할 수 있다.
  11. 순서
    1. 분석 목적 정하기
    2. 필요한 지표 정하기
    3. 각각의 지표에 필요한 데이터 정의
  12. ex) RFM Customer Segmentation을 하고자한다면, 비즈니스 목표는 '효율적인 개인화 마케팅을 통한 매출 증대', 요구사항은
    1. 고객 세그먼트 별 비중을 한눈에 볼 수 있도록
    2. 해당하는 고객 리스트와 정보를 보여줄 것
    3. 지역별 KPI 지표 트렌드 (매출,고객,수익) 표시 
  13. 스토리의 구성요소?
    1. 컨텍스트 설명 
    2. 핵심 메시지 (발견한 문제[데이터 수치로 표현] 및 기회)
    3. 추천하는 액션과 그 예상 효과, 비용(↔ 제안의 득과 실, 성과 나오기까지 걸리는 시간) (→이익과 손실을 양면적으로 모두 설명해야함)
  14. "제안"은 6가지 핵심 성과 지표 중 한 가지 영역을 개선해야한다.
    1. Revenue ↓
    2. Cost 
    3. Time to Market 
    4. Risk 
    5. Market Share 
    6. Retention 
  15. 데이터 시각화란 '차트 기반, 액션 가능한 인사이트를 찾고, 데이터 스토리를 전달하는 스토리 텔링'이라고 할 수 있다.
  16. 공모전 참가시
    1. 데이터 속 지표 중 어떤 지표를 선택하였는지 그에 대한 논리적 근거를 제시하기위하여 관련 논문을 참고하자.
    2. WHY→WHAT→HOW→IF 생각하기.


WHY→WHAT→HOW→IF

  1. WHY : 매출액에 영향을 주는 요소에 어떤 것이 있는지 상관관계를 알아보기 위해서
  2. WHAT : 매출액과 다양한 변수들과의 상관관계를 보여주는 대시보드를 만들기
  3. HOW : 태블로 이용 (막대 차트, 분산형 차트, 영역 차트, 라인 차트 ..)
  4. IF : 이것을 활용할 때 나타나는 효과는
    • 예상치못한 변수가 매출액에 영향을 줄 수 있음
    • 지점/기간 별로 상관관계가 다를 수 있음.
    • 더 정확한 예측을 하고자할 때 용이함

목차

  1. 전체적인 흐름을 보여주는 대시보드 설명
  2. 타겟 변수인 '매출액'과의 상관관계를 나타내는 대시보드 설명
  3. 연료가격 대시보드 설명
  4. 실업률 대시보드 설명
  5. 기온 대시보드 설명
  6. 프로모션 대시보드 설명
  7. 공휴일 여부 대시보드 설명
  8. 파이썬 데이터 전처리 코드
  9. 결론

시각화로 데이터 정보 확인

    • Store : 지점 개수는 총 45개. 각 지점마다 139개의 데이터가 수집됨
    • Date : 날짜는 10.02.05 ~ 12.09.28 사이의 데이터, 데이터 개수의 최대최솟값이 45개임 -> 지점마다 동일한 날짜에 데이터가 수집되었음을 알 수 있음 -> 분석에 용이함
    • 데이터가 수집된 첫 날의 데이터
      1. Temperature : 데이터를 자세히 보기 전에는 당연히 지점별 차이니까 주변 기온이 비슷할 것이라 생각하여 날짜는 곧 계절을, 계절은 곧 기온을 의미하니 큰 의미 없을 것이라 생각하였는데, 크게는 20도가지 넘게 차이나는 것으로 보아 지점별 기온 차이가 우리나라 지역보다도 훨씬 많이 난다는 사실을 알 수 있다. 날짜와 다른 정보를 줄 수 있는 칼럼
      2. Fuel_Price : 지점별로 차이가 거의 없다. 그래서 지점별 차이보다는, 시간이 흐름에 따라 변화하는 요소이기 때문에 개념을 확장시켜 물가상승률로 봐도 괜찮을 것 같다는 생각이 들었다.
      3. Unemployment : 실업률도 지점별 차이가 거의 없다.
      4. IsHoliday : 기온은 지점별로 큰 차이를 보였는데, 공휴일 여부도 다르다면, 다른 지역이 아니라 다른 나라일 수 있다. 확인해보아야 한다.
      5. Promotion : 어느 시점부터 어느 시점까지 프로모션을 실시하였는지, 지점별로 그 시기가 같은지 확인해보아야 한다.
      6. Weekly_Sales : 지점별 매출액에 큰 차이를 보인다.
    • 지점이 너무 많은데다가, 매출액 규모도 꽤 많이 차이가 나기 때문에, 규모에 따라 지점을 그룹으로 나누면 더 비교가 용이할 것 같아 45개 지점을 평균매출액 기준 9개 지점씩 5개 그룹으로 나누어 시각화 및 분석하였습니다. 평균 매출액 순위대로 9개 지점씩 5개 그룹으로 묶었습니다. 1순위 매출지점은 남색으로, 5순위 매출지점은 다홍색으로, 나머지 2,3,4순위는 회색으로 표현되었습니다.
      1. 1순위 매출지점(1,2,4,6,10,13,14,20,27)
      2. 2순위 매출지점(11,19,23,24,28,31,32,39,41) 
      3. 3순위 매출지점(8,12,17,18,22,26,34,35,40) 
      4. 4순위 매출지점(7,9,15,21,25,29,42,43,45)
      5. 5순위 매출지점(3,5,16,30,33,36,37,38,44)
    • 설명은 전체적으로, 그리고 지점(그룹) 5개별로 나누어서도 적어놓았지만, 일일이 다 캡쳐하면 너무 이미지가 많아져서 전체 지점으로 설정했을 시의 대시보드 화면만 첨부하였습니다. 
    • 대시보드 특성상 필터를 통해 원하는 정보를 찾아볼 때에는 용이하지만, 경우의 수가 많아 전체적인 그림을 보고자 하는 분들에게는 불편할 수 있을 것 같아, 시각화로 분석하여 얻은 인사이트에는 빨간색으로 강조표시를 해두었으니, 그 부분만 읽으셔도 됩니다.

 


1. 거시적 대시보드 - 모든 변수 순위 비교 막대차트 & 추이 라인 차트

  1. 매출액(주)

 

  • 1순위 매출지점(1,2,4,6,10,13,14,20,27) 매출액
    1. (전체 연도) 12월에 가장 높은 매출, 1월에 가장 낮은 매출을 보입니다. 겨우 한달 사이인데에도 불구하고, 그 값은 거의 2배에 해당될정도로 큰 차이가 납니다.(2010년과 2011년 각각 -0.31%,-0.29%)
    2. (2010년) 미미한 차이를 보이다가, 10월에 최저점을 찍고 12월까지 급상승하는 추세를 보입니다.
    3. (2011년) 2010년과 비슷한 추세를 보입니다. 1월에 최저점을 직고, 12월에 매출이 급상승하였습니다.
    4. (2012년) 비슷하게 1월에 최저점을 찍고, 2월에 무려 17%나 급상승하는 모습을 보였습니다.
  • 2순위 매출지점(11,19,23,24,28,31,32,39,41) 매출액 / 3순위 매출지점(8,12,17,18,22,26,34,35,40) 매출액 / 4순위 매출지점(7,9,15,21,25,29,42,43,45)
    1. (전체 연도,2010년,2011년) 1순위 매출지점과 거의 유사한 추이를 보입니다. 라인 차트 모양이 거의 똑같습니다.
    2. (2012년) 유사한 추세이나, 그 기울기가 1순위 매출지점보다 완만합니다. 월별로 큰 차이를 보이지 않습니다. 1순위 매출지점은 2월에 17%가 상승하였지만, 2순위 매출지점은 13%가 상승한 정도로 별 차이가 없습니다.
  • 5순위 매출지점(3,5,16,30,33,36,37,38,44)
    1. (전체 연도,2010년,2011년) 12월에 최고점, 1월에 최저점을 찍은건 다른 지점(그룹)과 동일하지만, 큰 차이를 보입니다. 최고점과 최저점의 차이가 가장 많이 차이나는 부분이 (2010년 11월→12월) 0.04%차이로,  1~4순위 매출지점에 비해 아주 미미하다는 점입니다. 매출액 규모가 크지 않은 지점들이라 최고매출액과 최저매출액에 차이가 크지 않은 것으로 추측할 수 있습니다. 
    2. (2012년) 마찬가지로 다른 지점(그룹)에 비해서 기울기가 완만하고, 2012년의 매출액 추이는 거의 일직선에 가까울 정도로 차이가 거의 없습니다.

 

  • 기온 ( 기온은 매년 비슷하기 때문에 연도별이 아닌 전체 연도 기준을로 보겠습니다. )

  1. 순위 비교표를 보면, 매출액이 비슷한 지점끼리 모여있는 경향이 있으나 절대적이진 않습니다. 5순위 매출지점들이 기온 순위가 높은편에 속해있으며, 1순위 매출지점은 높지도, 낮지도 않은 중간 순위에 계속 속해있습니다.
  2. 1순위 매출지점 : 매년 7,8월에 최고점을 찍고(27도), 12,1월에 최저점을 기록하였습니다.(5.89도) 최저 기온도 그렇게 낮지는 않습니다. 혹시몰라 1순위 매출지점에 속한 지점 각각의 기온 추이를 보아도 다 비슷한 모습입니다.
  3. 2순위 매출지점 : 1순위 매출지점과 라인차트 모양이 비슷합니다. 최고기온은 25.84도, 최저기온은 1.22도입니다.
  4. 3순위 매출지점 : 역시 비슷합니다. 최고기온은 24.42도, 최저기온은 영하입니다.(-2.89도)
  5. 4순위 매출지점 : 비슷합니다. 최고기온은 26.20도, 최저기온은 0.31도입니다.
  6. 5순위 매출지점 : 최고기온이 제일 높네요. 최고기온은 30.25도, 최저기온은 5.61도입니다.
  • 실업률

  1. 순위 차트는 큰 의미가 없어보입니다. 굳이 패턴을 찾자면 5순위 매출지점이 1~2개 지점 빼고는 실업률이 낮은편에 속해있습니다.
  2. 1순위 매출지점 : 전체연도로 보았을 때 계단모양입니다. 점점 하락하고있습니다. 2011년도에 가장 많이 하락하였고, 2012년도 실업률 추이가 가장 완만하여 거의 차이가 없는 것으로 보입니다.
  3. 2순위 매출지점 : 마찬가지로 계단모양이나, 2010년도에 9월에 실업률이 오르기도 한 것으로 보이나, 큰 차이는 아닙니다.2011년에는 계속 실업률이 동일하다가, 11월이 되어서야 조금 하락하였습니다. 2012년에도 실업률에 차이가 없다가, 7월에 0.04% 내려갔습니다. 7~9월에 실업률이 낮다고 볼 수도 있을 것같으나, 크게 유의미해보이지는 않습니다.
  4. 3순위 매출지점 ,4순위 매출지점, 5순위 매출지점도 위와 비슷한 양상을 보입니다.
  • 프로모션1

  1. 프로모션1~5의 순위차트는 큰 의미가 없습니다. 왜냐하면 매출액 1~5위 지점그룹으로 묶였기에 매출액 순위와 비슷하기 때문입니다. (매출액 규모와 프로모션 규모는 비슷할 것이므로) 단, 프로모션5의 경우 2순위 매출지점 2개가  1순위 매출지점보다도 상단에 위치해있으며,2순위 매출지점인 39는 눈에띄게 (2위인 2순위 매출지점 31보다 약 3배) 높은 값을 보입니다.
  2. 1순위 매출지점
    1. (전체 연도) 2011년 10월 이후에 실시되었습니다.시행 직후 잠깐 올라갔다가, 1월까지는 하락세를 보이다가, 2012년 1월에서 2월로 넘어가는 시기에 눈에 띄게 (4.4%↑)  올렸다가, 다시 상승한만큼의 2/3만큼 하락하였습니다. 매출액이 1월에 최저점을 찍었던 것으로 보아 매출액이 최저일 때 프로모션1을 공격적으로 실시한 것으로 추측해볼 수 있을 것 같습니다.
    2. (2012년)  약 0.5%씩 꾸준히 2~3달마다 상승했다 하락하면서 변화하는 모습을 보입니다.
  3. 평균 매출액처럼 5순위 매출지점이 1~4순위 매출지점에 비해 변화 폭이 훨씬 작다는 사실 빼고는 추이가 동일합니다.
  • 프로모션2

  • 1순위 매출지점
  1. (전체연도) 역시나 2011년 10월 이후에 실시되었습니다. 프로모션 1은 1월에 제일 높았던 반면, 프로모션 2는 12월에 가장 높고(+2.1%), 1→2월에-0.4%, 2→3월에 -0.93%로 눈에띄게 낮아졌습니다.
  2. (2012년) 프로모션1과 다르게 한번 크게 상승했다 내려온 후에는, 거의 변화가 없습니다.(-0.39%.-0/48%...)
  • 2순위 매출지점
  1. (전체연도) 프로모션1과 같이 1월에 제일 높습니다.1순위 매출지점처럼 12월에도 높은 값이기에 큰 의미는 없어보입니다.
  • 3순위 매출지점, 4순위 매출지점, 5순위 매출지점 모두 추이가 동일합니다.
  1. 프로모션3

  1. 추이 라인차트를 모든 지점그룹 다 눌러봤지만 차이가 없다고 봐도 무방할정도로 추이 라인차트가 동일하기에 지점(그룹)으로 나누어 분석하지 않겠습니다.
  2. 앞서 살펴본 프로모션1,2와의 큰 차이가 있는데요, 프로모션3은 2011년 11월에 엄청나게 크게 실시하고 12월에 -0.92% 씩이나 줄인 뒤, 더이상 실시하지 않았다고 봐도 될정도로 0에 가까운 값을 계속 보였다는 점입니다
  3. (최고점 값이 프로모션1은 16,673, 프로모션2는 8,848, 프로모션3은 13,434라서 1보다는 작은 규모입니다.)
  • 프로모션4

  1. 역시나 모든 지점(그룹)마다 추이가 동일하고, 특이점은 프로모션3이 2011년 12월 이후가 되어서야 0에 가까울정도의 값을 보였는데, 프로모션4는 (4순위 매출지점에서 하위2순위인) 지점 42,43과 (5순위 매출지점에서 하위 6개인) 지점 38,30,37,36,44,33은 프로모션4 자체를 거의 실시하지 않았다고 봐도될정도로 작은 값을 가진다는 점입니다. ( 5순위 매출지점 중에서 1위인 지점 16은 446.5, 지점38은 7.1으로, 거의 차이가 60배입니다.)
  • 프로모션5

1

  • 모두 추이 라인차트가 비슷한 반면, 차이점은 모든 지점 다 201년 12월과 2월에 높은 값을 보이고, 2순위 매출지점 역시 그러한데요, 2순위 매출지점은 유일하게 '2012년 7월'에 최고점을 기록하였습니다.(다른 지점(그룹)들은 7월의 값이 다 낮은편에 속합니다.) 단, 2순위 매출지점 중 1위인 지점39가 2위인 지점31에 비해 프로모션5 값이 거의 3배에 가깝기 때문에, 2순위 매출지점은 분산이 커서 평균보다는 중앙값 등 다른 집계방식으로 추이를 보는게 더 정확할 것으로 보입니다.
  • 연료가격

  1. 순위 막대차트를 보면, 중구난방입니다. 매출액 규모가 비슷한 지점끼리 모여있는 부분이 거의 없습니다.그 이유는 연료가격이 데이터 속에서 전반적으로 큰 차이도,변화도 보이지 않아서 그런 것 같습니다.
  2. 모든 지점(그룹)마다 추이가 비슷합니다. 연료가격은 계속 동일하다가 2011년 2~3월이 되어서야 상승하였고,2011년 12월에 모두 제일 낮은 값을 가집니다. 12월에 매출액이 최저점인 것과 관련지어 "매출액은 연료가격과 비례 관계에 있다"고 판단할 수 있습니다. 연료가격 변화를 확장시켜서 물가 상승률로 봐도되지 않을까 추측해봅니다.
  • 우측 하단의 프로모션 횟수 비교 영역차트를 보겠습니다.

  1. 지점(그룹) 간의 차이

  1. 전체적으로는 프로모션1과 프로모션5의 횟수가 가장 많고, 프로모션2의 횟수가 가장 적습니다.
  2. 1순위 매출지점의 경우, 프로모션1,4,5의 시행 횟수가 동일하고, 프로모션2의 횟수가 가장 적네요.
  3. 2순위 매출지점은 차트의 모양이 1순위 매출지점과 거의 동일합니다.
  4. 3순위 매출지점도 프로모션2의 횟수가 더 적어진 것 이외에는 차이가 없습니다.
  5. 4순위 매출지점은 프로모션2의 횟수가 적다는 사실것은 다른 지점과 동일하지만, 프로모션4도 2만큼은 아니지만 적게 시행한 것으로 보입니다.
  6. 5순위 매출지점은 프로모션1과5의 시행횟수는 규모가 다른 지점(그룹)과 횟수가 거의 같은데요, 프로모션2,3,4는 비교적 적게 실시하였습니다.
  1. 연도별 차이 (일단 프로모션은 2011년 11월부터 실시되었습니다.)

 

  1. 전체 연도로 설정시 큰 차이가 없습니다.
  2. 1순위 매출지점은 2011년에 모든 프로모션을 동일하게 실시하였다는 특징이 있습니다.(프로모션2의 경우 1회 적게 실시) 하지만 겨우 11,12월 두달간의 데이터이기에 실시횟수가 비슷할 수 밖에 없습니다. 유의미한 특징은 아닙니다.
  3. 2순위,3순위,4순위 매출지점 역시 1순위 매출지점과 비슷하게 2에서 살짝 낮지만, 2011년도에는 프로모션 5가지를 비슷하게 시행하였습니다.
  4. 반면에 5순위 매출지점의 경우 겨우 두달 간의 프로모션인데에도 프로모션 별로 차이가 많이나는데요, 프로모션1은 65회, 2는 35회, 3은 53회, 4는 30회, 5는 72회 실시되었습니다. 다른 지점(그룹)과 비교하였을 때 5순위 매출지점의 프로모션4 시행횟수가 두번째로 낮다는 점이 특징입니다. 앞서 4순위 매출지점도 프로모션4의 시행횟수가 적응편인 것과 관련지어봤을 때, 매출규모가 작은 지점들은 프로모션4를 적게 시행하는 경향이 있는 것 같습니다.

 


 

2. 모든 변수들과 타겟 변수 '매출액'과의 상관관계 대시보드

  1. 후에 예측에서의 타겟 변수가 Weekly_Sales인 만큼, 매출액과 다른 변수들 사이의 상관관계를 먼저 살펴보겠습니다.
  2. 첫번째로 지점을 구분하지 않고 전체적으로 상관관계를 보겠습니다.

  1. 연료가격과 매출액 
    1. 추이 비교 차트 : 유의미하다고 생각될 정도로 추이 변화 모양이 비슷합니다. 2011년 1월에 매출액이 많이 떨어졌을 때, 연료가격이 급상승하였습니다.2012년 1월에는 2011년만큼 비슷하진 않지만, 2011년과 반대되느는 모양까지는 아니라서, 연료가격과 매출액 추이가 비슷하다고 볼 수 있습니다.
    2. 분산형 차트 : 연료 가격이 연도,월마다 차이가 크지 않아서, 분산형차트에서는 유의미한 선형관계가 보이지는 않습니다. 연료가격과 매출액은 상관관계가 있는 것 같으나, 확신하기는 어려워보입니다.
  2. 기온과 매출액
    1. 추이 비교 차트 : 2011년 1월에 매출액이 최저값일 때, 기온도 최저값이라는 사실 외에는 크게 비슷한 추이를 보이는 것 같지는 않습니다.
    2. 분산형 차트 : 2012년에 매출액과 기온이 같이 상승하는 경향이 있으나, 역시나 애매한 모양입니다.
  3. 실업률과 매출액
    1. 추이 비교 차트 : 비슷하지 않습니다. 차이점은 실업률은 변화가 거의 없다가 두세번 상승하거나 하락하는 반면, 매출액은 지속적으로 조금씩 변화한다는 점입니다.
    2. 분산형 차트 : 관계가 없어보입니다.
  4. 프로모션1~5
    1. 추이 비교 차트 :프로모션1과 프로모션4가 추이가 비슷한 것 이외에는, 라인 차트 모양이 다 비슷해보이지는 않습니다.
    2. 분산형 차트 : 프로모션 모두 매출액과 양의 상관관계를 보이는 듯하고, 2012년에 프로모션2의 경우 추세선 모양이 반대 방향으로, 우하향하고 있습니다. 
  1. 상단에 있는 지점(그룹) 하이라이트를 이용하면 지점(그룹)별 추이 비교차트 및 분산형 차트를 볼 수 있습니다.
    1. 1순위 매출지점

  1. 연료가격과 매출액
    1. 추이 비교 차트 : 지점 구분하지 않았을 때와 거의 동일한 모양입니다.
    2. 분산형 차트 : 역시나 상관관계가 있다고 보기 어렵습니다. 추세선의 기울기가 너무 완만합니다.
  2. 기온과 매출액
    1. 추이 비교 차트 : 기온은 1순위 매출지점이 1년 내내 변화가 거의 없는 편에 속합니다. 반면에 매출액은 기간별로 큰 차이를 보이는 편이니, 추이가 비슷하다고 보기 어렵습니다.
    2. 분산형 차트 : 거의 세로로 일자입니다. 관계가 없습니다.
  3. 실업률과 매출액
    1. 추이 비교 차트 : 비슷하거나, 완전히 달라보이지도 않지만, 실업률이 낮을 때 매출액이 높은 경향이 있다고 말할 수 있을정도의 모습입니다.
    2. 분산형 차트 : 선형관계를 찾아보기 어렵습니다. 연료가격과 마찬가지로 실업률도 변동이 크지 않기에 그런 것 같습니다. 연료가격이나 실업률처럼 변동이 크지 않은 변수의 경우 작은 차이도 유의미하게 볼 수 있게 매출액과 상관관계 분석을 더 세밀히 해보고 싶다는 생각이 듭니다.
  4. 프로모션과 매출액
    1. 추이 비교 차트 : 지점 구분안했을 때와 비슷하고, 다른 점은 프로모션5의 경우 2012년 5월~8월에 전반적인 추이는 상승했다가 하락하는 반면, 1순위 매출지점의 경우 그 기간에 프로모션5 값의 차이가 거의 없습니다.
    2. 분산형 차트 : 1순위 매출지점(그룹)만의 특징은 없어보입니다.
    1. 2순위 매출지점

  1. 연료가격과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷한 모양입니다. 큰 특징이 없습니다.
    2. 분산형 차트 : 역시나 매출액과 상관관계가 있다고 보기 어렵습니다.
  2. 기온과 매출액
    1. 추이 비교 차트 : 기온은 1순위 매출지점과 마찬가지로 다른 지점에 비해서 변화가 미미한 편이고, 매출액 추이 차트와 전혀 비슷하지 않습니다.
    2. 분산형 차트  : 마찬가지로 세로로 거의 일자입니다. 관계없습니다.
  3. 실업률과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷한 모양입니다. 큰 특징이 없습니다.
    2. 분산형 차트 : 기온 분산형차트에서처럼 거의 세로로 일자로 데이터가 놓여있습니다. 관계 없어보입니다.
  4. 프로모션과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷한 모양입니다. 큰 특징이 없습니다. 
    2. 분산형 차트 : 지점만의 특징 없이, 매출액과 약한 양의 상관관계를 보이는 것 같습니다.
    1. 3순위 매출지점

  1. 연료가격과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷한 모양입니다. 최고 연료가격 값이 다른 지점에 비해 조금 낮은 편입니다.
    2. 분산형 차트 : 역시나 매출액과 상관관계가 있다고 보기 어렵습니다.
  2. 기온과 매출액
    1. 추이 비교 차트 : 기온은 1순위 매출지점과 마찬가지로 다른 지점에 비해서 변화가 미미한 편이고, 매출액 추이 차트와 전혀 비슷하지 않습니다.
    2. 분산형 차트  : 마찬가지로 세로로 거의 일자입니다. 관계없습니다.
  3. 실업률과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷한 모양이고, 연료가격에서처럼 실업률 최고점이 다른 지점에 비해 조금 낮고, 최저점도 조금 높네요.
    2. 분산형 차트 : 기온 분산형차트에서처럼 거의 세로로 일자로 데이터가 놓여있습니다. 관계 없어보입니다.
  4. 프로모션과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷한 모양입니다. 프로모션5의 추이 라인차트에서 기울기가 다른 지점보다 기울기가 완만하다는 특징이 있습니다.
    2. 분산형 차트 : 지점만의 특징 없이, 매출액과 약한 양의 상관관계를 보이는 것 같습니다.
  5. 4순위 매출지점

  1. 연료가격과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷하고, 최고점이 조금 더 낮고, 최저점이 조금 더 높네요.
    2. 분산형 차트 : 역시나 매출액과 상관관계가 있다고 보기 어렵습니다.
  2. 기온과 매출액
    1. 추이 비교 차트 : 전체적인 기온 변화 추이 라인차트와 조금 다른 모양인데요, 기온은 앞서 기온 파트에서 보았듯이 중구난방이라서 유의미하게 보긴 어렵습니다. 전체적인 기온 추이와 비슷하다가, 최저점일 때 제일 기온이 높았다는 특징이 있습니다.
    2. 분산형 차트  : 마찬가지로 세로로 거의 일자입니다. 관계없습니다.
  3. 실업률과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷하지만, 변화 폭이 더 작습니다.
    2. 분산형 차트 : 기온 분산형차트에서처럼 거의 세로로 일자로 데이터가 놓여있습니다. 관계 없어보입니다.
  4. 프로모션과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷하고, 3순위 매출지점처럼 프로모션 5의 변화 라인차트의 기울기가 완만합니다.
    2. 분산형 차트 : 지점만의 특징 없이, 매출액과 약한 양의 상관관계를 보이는 것 같습니다.
  1. 5순위 매출지점

  1. 연료가격과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트에 비해서 최고점은 더 높고, 최저점도 더 높다는 특징이 있네요. 역시나 크게 차이나진 않습니다.
    2. 분산형 차트 : 동일하게 매출액과 상관관계가 없어보입니다.
  2. 기온과 매출액
    1. 추이 비교 차트 : 다른 지점과의 차이점은, 기온 변화가 거의 없다는 점입니다. 1순위 매출지점도 기온 변화가 거의 없었으니, 기온과 매출액은 더더욱 관계가 없어보입니다.
    2. 분산형 차트  : 마찬가지로 세로로 거의 일자입니다. 관계없습니다.
  3. 실업률과 매출액
    1. 추이 비교 차트 : 전체적인 라인차트와 비슷하지만, 변화 폭이 더 작습니다.
    2. 분산형 차트 : 기온 분산형차트에서처럼 거의 세로로 일자로 데이터가 놓여있습니다. 관계 없어보입니다.
  4. 프로모션과 매출액
    1. 추이 비교 차트 : 매출액 값이 다른 지점들에 비해서 낮아서 그렇겠지만 프로모션1~5 변화 라인차트 모두 기울기가 매우 완만합니다.
    2. 분산형 차트 : 지점만의 특징 없이, 매출액과 약한 양의 상관관계를 보이는 것 같습니다.

3. 연료가격 대시보드 설명

  1. 연료가격 대시보드 이전에 '변수들 간의 상관관계' 대시보드가 있지만, 세부적으로 다루기 위해 변수마다 나누어 대시보드를 만들었으니, 세부적으로 말고 전체적으로 보고싶은 분들은 이 대시보드 이전의 대시보드로 확인하시면 됩니다.

  1. '매출액(주)'로 설정되어있는 측정값을 '연료가격'으로 바꾼 뒤 대시보드를 봐주시면 됩니다.
  2. 지점을 나누지 않고 전체적인 데이터에서 연료가격에 대해 먼저 분석해보겠습니다.

  1. 순위 비교표에서는 연료가격 순위가 매출액 규모와 상관없이 고르게 분포되어있습니다.
  2. 추이 라인차트에서는 2011년 4월에 3이었던 연료가격의 값이 4에 가깝게 올라 최고점을 찍었습니다. 계속 비슷하다가, 추워지면서 10월부터 감소 추세를 보이며, 2012년 1월부터는 다시 조금씩 올라갔다가, 5월에 다시 낮아지네요. 눈에 띄는 패턴은 발견하지 못하였습니다.
  3. 연료가격과 매출액의 상관관계를 보여주는 분산형 차트에서는 추세선의 기울기가 0에가깝습니다. (기울기가 4.96727e-10입니다.)
  4. 연료가격과 기온의 상관관계를 보여주는 분산형 차트에서는 추세선이 우상향으로, 연료가격과 기온은 약한 양의 상관관계가 있다고 볼 수 있습니다.
  5. 연료가격과 실업률의 상관관계를 보여주는 분산형 차트에서 연료가격과 실업률 사이에 약한 음의 상관관계가 있다는 사실을 발견할 수 있었습니다.
  6. 연료가격과 프로모션1~5의 상관관계를 보여주는 분산형 차트에서는 연료가격과 프로모션1,4,5 사이에 양의 상관관계가 있다고 판단할 수 있어보이고, 프로모션3이 제일 추세선의 기울기가 완만합니다.
  1. 측정값 필터 우측에 지점(그룹) 하이라이트를 이용하여 지점(그룹)별로 나누어 보겠습니다. ('지점(그룹) 하이라이트'의 색상 ■를 누르면 해당되는 차트가 하이라이트 됩니다.)
    1. 1순위 매출지점
      1. 순위 비교 표에는 전체적으로 봤을 때와 동일하게 매출액과 연료가격의 순위는 전혀 관련이 없어보입니다.
      2. 연료가격과 매출액의 상관관계를 보여주는 분산형 차트에서는 데이터가 모여진 모양이 세로로 거의 일자입니다. 상관관계가 없어보이네요.
      3. 연료가격과 기온의 상관관계를 보여주는 분산형 차트에서는 시간이 지남에 따라 연료가격과 기온이 같이 증가하는 패턴 (↔2010년보다 2011~2012년에 상관관계 강함)을 보이는데요, 약한 양의 상관관계가 있다고 볼 수 있으므로, 지점(그룹)만의 특징은 없습니다. (*참고로 분산형 차트에서 원의 색깔이 연하면서 진해지는데요, 시간의 흐름을 의미합니다.)
      4. 연료가격과 실업률의 분산형차트에서는 전체적인 분산형차트와 마찬가지로 약한 음의 상관관계를 보이는듯 합니다.
      5. 연료가격과 프로모션1~5의 상관관계를 보여주는 분산형 차트에서는 전체적으로 봤을 때와 유사하게 연료가격과 프로모션 1,4,5사이의 양의 상관관계가 있는 것처럼 보이고, 프로모션 2와 프로모션3은 연료가격과의 약한 음의 상관관계를 보입니다. 프로모션5와의 (양의) 상관관계가 제일 높습니다.
    2. 2순위 매출지점
      1. 순위 비교표, 연료가격과 매출액의 분산형 차트, 연료가격과 기온&실업률의 분산형 차트 모두 특징이 1순위 매출지점과 동일합니다.
      2. 프로모션의 경우도 마찬가지이고, 단 여기서는 연료가격과  프로모션 2,프로모션 3 의 분산형 차트에서 추세선의 기울기가 0에가깝고, 기울기가 음수는 아니라는 점이 차이점입니다. 프로모션4와의 (양의) 상관관계가 제일 높습니다.
    3. 3순위 매출지점
      1. 순위 비교 표에서 평균 기온 순위를 4부분으로 나눈다면, 두번째에 대부분 속해있고, 3순위 매출지점 중 지점12가 평균기온 1위를 차지합니다. 큰 의미는 없어보입니다.
      2. 연료가격과 매출액, 그리고 연료가격과 기온분산형 차트에서 3순위 매출지점은 1,2순위 매출지점(그룹)만큼의 약한 상관관계조차도 없어보입니다. 실업률과의 관계는 동일하게 약한 음의 상관관계입니다.
      3. 연료가격과 프로모션의 상관관계를 보여주는 분산형 차트에서는 전체적인 모양과 동일하고, 프로모션5와의 (양의) 상관관계가 제일 높습니다.
    4. 4순위 매출지점
      1. 역시나 순위비교표, 매출액과의 분산형 차트, 기온과의 분산형 차트에서는 유의미한 특징이 없어보입니다.
      2. 프로모션1~5와의 분산형 차트에서도 비슷하고, 프로모션4와의 상관관계가 제일 높아보입니다.
    5. 5순위 매출지점
      1. 순위 비교표에서는 5순위 매출지점들의 연료가격이 대부분 낮은 편에 속합니다.
      2. 매출액과의 상관관계는 거의 없어보이고, 기온과는 2011년 중반부부터 아주 약한 상관관계가 있는 것처럼 보입니다. 실업률과는 다른 지점(그룹)과 마찬가지로 약한 음의 상관관계를 보입니다.
      3. 프로모션과의 분산형 차트에서는 다른 지점(그룹)과 다른 모습을 보이는데요, 연료가격이 프로모션2와 프로모션3과의 꽤 강한 음의 상관관계를 보입니다. 프로모션1,3,4는 비슷하게 양의 상관관계를 보이고, 프로모션4와의 양의 상관관계가 제일 큽니다.

4. 실업률 대시보드 설명

  1. 마찬가지로 '연료가격'로 설정되어있는 측정값을 '실업률'으로 바꾼 뒤 대시보드를 봐주시면 됩니다.
    1. 지점을 나누지 않고 전체적인 데이터에서 실업률에 대해 먼저 분석해보겠습니다.

  1. 순위 분포표에서는 매출액 순위와 관계없이 고르게 분포되어있습니다. 매출액이 높다고 실업률이 높거나 낮진 않는 것 같네요.
  2. 실업률과 매출액 분산형 차트에서는 아무런 상관관계를 찾아볼 수가 없습니다.
  3. 실업률과 기온 분산형 차트에서는 실업률과 기온 사이에 아주 약한 음의 상관관계가 있다고 볼 수 있을 것 같으나, 없다고 봐도 무방할 것같습니다.
  4. 실업률과 연료가격 분산형 차트에서는 데이터가 한 곳에 몰려있기는 하나, 연료가격이 올라갈 수록 실업률이 떨어진다고 볼 수도 있을 것 같네요.
  5. 실업률과 프로모션 분산형 차트를 보면 모든 프로모션 다 실업률과 음의 상관관계를 가지고 있습니다. 실업률이 내려가면 프로모션1~5 모두 상승하는 경향이 있습니다.
  1. 측정값 필터 우측에 지점(그룹) 하이라이트를 이용하여 지점(그룹)별로 나누어 보겠습니다. 
    1. 지점(그룹) 하나하나 클릭하여 해당 차트만 보았지만, 큰 차이가 없습니다. 
    2. 굳이 찾아보자면 3순위 매출지점의 경우 실업률과 연료가격 사이의 음의 상관관계가 더 약합니다.
    3. 그리고 4순위 매출지점의 경우 실업률과 프로모션1~5와의 음의 상관관계가 더 강한 편이라고 생각했는데, 5순위 매출지점의 경우 4순위 매출지점보다도 훨씬 많이 강해보입니다. 매출이 낮아질수록 프로모션과의 반비례 관계가 강해집니다.

5. 기온 대시보드 설명

  1. 이번에도 '실업률'로 설정되어있는 측정값을 '기온'으로 바꾼 뒤 대시보드를 봐주시면 됩니다.
    1. 지점을 나누지 않고 전체적인 데이터에서 기온에 대해 먼저 분석해보겠습니다.

  1. 순위 비교표를 보면 매출이 낮은 5순위 매출지점(그룹)이 대부분 기온에 있어서 높은 순위를 차지하고 있고, 나머지 지점(그룹)은 매출액과 기온 사이 순위가 일치하지도, 크게 다르지도 않습니다.
  2. 기온과 매출액의 분산형 차트에서 볼 수 있듯이, 앞서 예상했던 것과 같이 아무런 상관관계가 없습니다.
  3. 기온과 연료가격 사이에는 양의 상관관계가 있어보이고, 기온과 실업률 사이에는 상관관계가 있다고 보기 어려워보입니다.
  4. 기온과 프로모션1~5와의 상관관계를 살펴보겠습니다. 프로모션1과는 상관관계가 확실히 없어보입니다. 기온과 프로모션2,3 사이에는 약한 음의 상관관계가 있고, 기온과 프로모션4,5와는 약한 관계가 있어보이나 기울기 값이 너무 작아서 유의미한 관계가 없다고 볼 수 있습니다.
  5. 기온은 지점별로 큰 차이가 없어서 세부 분석은 생략하도록 하겠습니다.

 


6. 프로모션 대시보드 설명

  1. 측정값을 Promo1부터 Promo5까지 순서대로 바꿔가며 보시면 되고, 상단의 2개 차트인 '순위 비교차트'와 '추이 라인차트'를 보시고자 하는게 아니라면, 다른 차트는 프로모션1부터 5까지 다 나타나있기 때문에, 프로모션 변수끼리의 상관관계를 보고자 한다면 측정값 필터는 굳이 바꾸지 않으셔도 됩니다.
    1. 프로모션에서는 순위비교표를 자세히 보지 않겠습니다. 프로모션의 규모는 매출액의 규모와 비슷하기에,평균 매출액 순위로 나눈 지점(그룹)의 순위와 큰 차이가 없어 분석하는 것이 무의미하기 때문입니다.
    2. 지점을 나누지 않고 전체적인 데이터에서 프로모션에 대해 먼저 분석해보겠습니다.

 

  1. 라인차트를 보면 2012년2월에 가장 높은 프로모션1의 값을 가지는 것이 눈에 띕니다. 하지만 앞서 라인 차트도 이미 살펴보았기 때문에 더이상은 자세히 보지는 않겠습니다. (*상단에 있는 그래프들은 이전의 대시보드에서 이미 다룬 부분으로, 프로모션 대시보드에서 한번 더 보고자 배치하였습니다.)
  2. 프로모션1과 다른 프로모션들의 관계를 보겠습니다. 프로모션5와의 양의 상관관계가 가장 높은 것으로 보이고, 프로모션1과 프로모션2와의 상관관계가 가장 약합니다. (추세선의 기울기가 가장 완만합니다.)
  3. 프로모션2와 다른 프로모션의 분산형 차트를 보면, 역시나 프로모션1처럼 양의 상관관계를 보이는데요, 프로모션 종류별로 차이도 별로 없어보여 별다른 특징을 찾을 수 없었습니다.
  4. 프로모션3 분산형 차트를 보겠습니다. 프로모션3과 프로모션4,프로모션5와의 관계는 아주 약해서 상관관계가 있다고 보기 어렵습니다.
  5. 마지막으로 프로모션4와 프로모션5의 관계를 알려주는 분산형 차트에서도 역시 프로모션4와 프로모션5사이의 양의 상관관계를 발견할 수 있었고, 이전에 알아냈듯이 프로모션4를 공격적으로 시행한 2순위 매출지점 2개가 상단에 떨어져서 높은 곳에 위치하는 것을 볼 수 있습니다.
    1. 측정값 필터 우측에 지점(그룹) 하이라이트를 이용하여 지점(그룹)별로 나누어 보겠습니다. 
      1. 1순위 매출지점의 경우, 하이라이트 안했을 때(전체)와 비교했을 때 눈에 띄는 부분은 
        1. 프로모션1과 프로모션5 사이의 (양의)상관관계가 더 강합니다.
        2. 프로모션2와 프로모션5 사이의 (양의)상관관계가 더 강합니다.
        3. 큰 차이는 아니지만, 프로모션4와 프로모션5 사이의 (양의) 상관관계도 더 강하네요.
      2. 2순위 매출지점의 경우, 1순위 매출지점만큼 두드러지는 차이는 없었으나, 
        1. 프로모션1과 프로모션5사이의 (양의) 상관관계가 더 약하고, 
        2. 크게 차이나지는 않지만, 프로모션2와 프로모션5, 그리고 프로모션4와 프로모션5 사이의 (양의) 상관관계가 더 약합니다. 전반적으로 프로모션 사이의 상관관계는 더 약해보입니다.
      3. 3순위 매출지점의 경우에도 2순위 매출지점처럼 큰 차이가 없어보입니다. 굳이 차이점을 찾자면 프로모션1과 프로모션2, 프로모션1과 프로모션5, 그리고 프로모션2와 프로모션5 사이의 (양의) 상관관계가 더 강합니다.
      4. 4순위 매출지점의 경우 하단 좌측에 프로모션1과의 분산형 차트에서 작은 차이를 보입니다. 프로모션1과 프로모션2,4,5와는 조금 더 강한 (양의) 상관관계를, 프로모션1과 프로모션2는 거의 일직선으로 상관관계가 없어보입니다.
      5. 5순위 매출지점의 경우에도 4순위 매출지점처럼 프로모션1의 분산형 차트에서 차이가 조금 났습니다. 프로모션1과 프로모션2 그리고 프로모션4와의 관계는 조금 더 강하고, 프로모션2와는 거의 관계가 없으며, 프로모션 1과 프로모션5와의 관계는 더 약합니다. 추가로 마지막 분산형 차트에서 프로모션4와 프로모션5와의 관계가 더 약한 것을 발견할 수 있었습니다.

7. 공휴일 여부 대시보드 설명

  1. 상단의 날짜의 Year을 지정하면 그 연도에 존재하는 데이터만 고를 수 있도록 그 다음 필터인 Month를 만들었는데요, Month 목록을 보시면 2월,4월,11월,12월 총 열두달 중 4개의 달에만 공휴일 데이터가 기록되었다는 사실을 알 수 있었습니다.
  2. 공휴일일 때의 추이(좌측 상단의 Weekend 라인 차트) 대해 분석해보겠습니다.

  1. 모든 지점(그룹)의 라인 차트가 비슷하게 생겼습니다. 5순위 매출지점은 매출액 값이 작아서 기울기가 작지만, 모든 추이가 비슷해보입니다. 모든 지점(그룹) 다, 2010년과 2011년 모두, 공휴일일 때는 11월에 매출액이 제일 높고, 바로 그 다음달인 12월에 제일 낮은 매출액을 기록했습니다.
  2. 2010년과 2011년의 추이는 매우 비슷해보이고, 2012년은 2월과 9월의 데이터만 있기 때문에 일직선에 가까운 모양의 라인차트입니다.
  1. 공휴일이 아닐 때의 추이(우측 상단의 Weekdays 라인 차트)를 살펴보겠습니다.
    1. Weekdays 라인차트도 역시 지점(그룹)별 차이는 없어보입니다. 모든 지점(그룹) 다, 2010년과 2011년 모두, 공휴일이 아닐 때에는 12월에 매출이 가장 높고, 1월에 가장 낮습니다. 즉, 공휴일 아닐 때의 데이터는 공휴일 구분 없이 전체 매출액을 보았을 때와 비슷한 추이를 보입니다.
    2. 연도별로 나누어 보아도 12월과 1월을 거치지 않으면 (2012년의 경우 9월까지의 데이터만 있으므로) 공휴일이 아닐 때의 매출액은 추이가 비슷비슷합니다. 
    3. 앞서 살펴본 공휴일일 때의 라인차트와 모양이 거의 똑같습니다. 공휴일일 때와 아닐 때가 날짜에 따라 차이가 나지는 않는 것 같네요.
  2. 좌측 하단에 있는 공휴일 여부에 따른 매출액 비교 차트를 보겠습니다.
    1. 지점(그룹)을 전체로 설정했을 때
      1. 시각화를 해보기 이전에는 공휴일일 때 매출액이 아닐 때보다 훨씬 높을거라고 생각했는데요, 공휴일 데이터가 비교적 훨씬 적어서 그렇지 각각의 데이터 개수로 나누어 평균 매출액으로 계산해보면 공휴일일 때와 공휴일 아닐 때의 매출액은 평균적으로 큰 차이를 보이지 않았습니다. 큰 차이가 나는건 아니지만, 공휴일일 때의 평균 매출액이 더 높습니다.
    2. 지점(그룹) 하나하나 클릭하여 보아도 모든 지점 다 전체적인 매출액 차이와 비슷하게, 공휴일일 때와 아닐 때의 매출액 평균에 큰 차이가 나지는 않지만, 공휴일일 떄의 매출액이 더 높습니다.
  3. 우측 하단에 있는 공휴일 여부 빈도 비교 차트를 보겠습니다.
    1.  공휴일이 아닐일 때의 기록은 5799개, 공휴일 때의 기록은 449개입니다.
    2. 지점(그룹) 5개 모두 공휴일이 아닐 때의 기록은 1160개, 공휴일일 때의 기록은 90개입니다.(1개씩 차이나긴 하나 의미 없어보입니다.)


▶ 이번 경진대회의 목적이 시각화였기 때문에 예측의 정확도를 높이는 단계까지 가지는 않았지만, 이 시각화의 목적이 예측이었던 만큼, 시각화로 얻은 인사이트들을 조합해서 정확도를 최대로 높일 수 있는 새로운 변수를 만들거나, 필요없는 변수를 드랍하는 과정까지 해보고 싶었다는 아쉬움이 남는다. 아직 부족하지만 이번이 처음이기 때문에 다음에는 인사이트를 이용한 데이터 전처리과정을 연습해보고 싶다.

Comments