일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 스태킹 앙상블
- 데이터 정합성
- 리프 중심 트리 분할
- Growth hacking
- 그로스 마케팅
- 인프런
- 그로스 해킹
- WITH CUBE
- 분석 패널
- 캐글 산탄데르 고객 만족 예측
- 부트 스트래핑
- 컨브넷
- 그룹 연산
- ImageDateGenerator
- 로그 변환
- DENSE_RANK()
- WITH ROLLUP
- ARIMA
- 데이터 증식
- tableau
- 데이터 핸들링
- 마케팅 보다는 취준 강연 같다(?)
- python
- 캐글 신용카드 사기 검출
- 3기가 마지막이라니..!
- lightgbm
- sql
- splitlines
- XGBoost
- pmdarima
- Today
- Total
목록데이터 분석 (53)
LITTLE BY LITTLE
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/wLs2N/btrIdE7V6hM/TGj78QtXxkYbGlNojf97kk/img.png)
*목차 파이썬 기반의 머신러닝과 생태계 이해 머신러닝의 개념 주요 패키지 넘파이 판다스 (데이터 핸들링) 정리 사이킷런으로 시작하는 머신러닝(87p) 사이킷런 소개 첫번째 머신러닝 만들어보기 - 붓꽃 품종 예측 사이킷런 기반 프레임워크 익히기 ( fit(), predict() ..) Model selection 모듈 소개 (교차검증, GridSerachCV..) 데이터 전처리 사이킷런으로 수행하는 타이타닉 생존자 예측 정리 평가 정확도 오차 행렬 정밀도와 재현율 F1스코어 ROC 곡선과 AUC 피마 인디언 당뇨병 예측 정리 분류 분류의 개요 결정 트리 앙상블 학습 랜덤 포레스트 GBM(Gradient Boosting Machine) XGBoost(eXtra Gradient Boost) LightGBM 분..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bFPaJa/btrHpygz6eq/T2o47KbyJjKvcJKyuYsFf1/img.png)
datetime 오브젝트 from datetime import datetime now1=datetime.now() print(now1) now2=datetime.today() print(now2) t1 = datetime.now() t2 = datetime(1970,1,1) t3 = datetime(1970, 12, 12, 13, 24, 34) diff1 = t1 - t2 print(diff1) print(type(diff1)) #datetime pd.to_datetime 시계열 데이터는 문자열인데, 문자열은 시간 계산을 할 수 없기 때문에 datetime 오브젝트로 변환해주어야한다. import pandas as pd import os from google.colab import files myfile..
If문 money = False if money: print("택시를 타고 가라") else: print("걸어가라") if money: print("택시를") print("타고") print("가라") money = 2000 card = True if money>=3000 or card: print("택시를 타고 가라") else: print("걸어 가라") 'a' in ('a','b','c') 'j' not in 'python' pocket = ['paper','cellphone','money'] if 'money' in pocket: print("택시를 타고 가라") else: print("걸어 가라") pocket = ['paper','cellphone'] card = True if 'money'..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bQLesV/btrHdtmWtyF/zdxwNSbjdWDAXvVI3PVuhk/img.png)
apply 메소드 사용자가 작성한 함수를 한번에 적용하여 실행할 수 있게 해주는 메소드 함수를 브로드캐스팅할 때 사용 for문을 사용하는 것과 같은 결과 출력, 하지만 더 빠르다. 함수의 기본 구조 def my_function(): 인자가 1개인 함수 my_sq(x) def my_sq(x): return x **2 print(my_sq(4)) → 16 인자가 2개인 함수 my_exp(x,n) def my_exp(x,n): return x**n print(my_exp(2,4)) → 16 시리즈에 적용 apply 사용 x o 비교 (결과는 같음) import pandas as pd df = pd.DataFrame({'a':[10,20,30],'b':[20,30,40]}) print(df) #apply 적용x..
데이터를 집계하거나 변환할 때, 한번에 처리하기 위해서 split-apply-combine(분할-반영-결합) 과정을 거쳐야한다. SQL의 GROUP BY 구문과 비슷하다. from google.colab import files myfiles = files.upload() import pandas as pd df = pd.read_csv('gapminder.tsv',sep='\t') avg_life_exp_by_year = df.groupby('year').lifeExp.mean() print(avg_life_exp_by_year) 분할 작업 : 먼저 데이터를 중복 없이 추출 years = df.year.unique() print(years) 반영 작업 : loc을 이용, 1952년의 데이터를 추출 y19..