일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 캐글 신용카드 사기 검출
- 그룹 연산
- WITH ROLLUP
- XGBoost
- 인프런
- tableau
- 데이터 정합성
- splitlines
- ImageDateGenerator
- lightgbm
- python
- WITH CUBE
- 그로스 마케팅
- 리프 중심 트리 분할
- 데이터 핸들링
- Growth hacking
- 마케팅 보다는 취준 강연 같다(?)
- 3기가 마지막이라니..!
- 스태킹 앙상블
- 데이터 증식
- pmdarima
- 부트 스트래핑
- 캐글 산탄데르 고객 만족 예측
- 분석 패널
- DENSE_RANK()
- 컨브넷
- ARIMA
- 로그 변환
- sql
- 그로스 해킹
- Today
- Total
목록데이터 분석/파이썬 Basic & EDA (5)
LITTLE BY LITTLE

https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation-tutorial-in-python Mall Customer Segmentation Data Market Basket Analysis www.kaggle.com Customer ID, age, gender, annual income, spending score과 같은 기본 정보만 있음 여기서 spending score은 customer behavior, purchasing data등에 기반해 매긴 점수 분석의 최종 목표는 "k-means clustering"기법으로 고객들을 segmentation 하는 것 참고 https://www.kaggle.com/code/gadigevishalsai..

datetime 오브젝트 from datetime import datetime now1=datetime.now() print(now1) now2=datetime.today() print(now2) t1 = datetime.now() t2 = datetime(1970,1,1) t3 = datetime(1970, 12, 12, 13, 24, 34) diff1 = t1 - t2 print(diff1) print(type(diff1)) #datetime pd.to_datetime 시계열 데이터는 문자열인데, 문자열은 시간 계산을 할 수 없기 때문에 datetime 오브젝트로 변환해주어야한다. import pandas as pd import os from google.colab import files myfile..
If문 money = False if money: print("택시를 타고 가라") else: print("걸어가라") if money: print("택시를") print("타고") print("가라") money = 2000 card = True if money>=3000 or card: print("택시를 타고 가라") else: print("걸어 가라") 'a' in ('a','b','c') 'j' not in 'python' pocket = ['paper','cellphone','money'] if 'money' in pocket: print("택시를 타고 가라") else: print("걸어 가라") pocket = ['paper','cellphone'] card = True if 'money'..

apply 메소드 사용자가 작성한 함수를 한번에 적용하여 실행할 수 있게 해주는 메소드 함수를 브로드캐스팅할 때 사용 for문을 사용하는 것과 같은 결과 출력, 하지만 더 빠르다. 함수의 기본 구조 def my_function(): 인자가 1개인 함수 my_sq(x) def my_sq(x): return x **2 print(my_sq(4)) → 16 인자가 2개인 함수 my_exp(x,n) def my_exp(x,n): return x**n print(my_exp(2,4)) → 16 시리즈에 적용 apply 사용 x o 비교 (결과는 같음) import pandas as pd df = pd.DataFrame({'a':[10,20,30],'b':[20,30,40]}) print(df) #apply 적용x..
데이터를 집계하거나 변환할 때, 한번에 처리하기 위해서 split-apply-combine(분할-반영-결합) 과정을 거쳐야한다. SQL의 GROUP BY 구문과 비슷하다. from google.colab import files myfiles = files.upload() import pandas as pd df = pd.read_csv('gapminder.tsv',sep='\t') avg_life_exp_by_year = df.groupby('year').lifeExp.mean() print(avg_life_exp_by_year) 분할 작업 : 먼저 데이터를 중복 없이 추출 years = df.year.unique() print(years) 반영 작업 : loc을 이용, 1952년의 데이터를 추출 y19..