카테고리 없음

smote vs smoteenn

ML.chang 2021. 2. 16. 19:04

SMOTEENN(SMOTE+ENN)

Fix Imbalance = False
SMOTENN 

 

SMOTENN 

 

SMOTE
Fix Imbalance = False

smote를 적용 안한게 오히려 성능이 좋은 이유는?

smote가 적용이 잘못 된 것인가? 

SMOTE_minority
SMOTEENN_minority

그렇다. smote를 잘못 적용 한 것이다.

 

pycaret 2.2.0문서  : pycaret.readthedocs.io/en/latest/api/classification.html

 

Classification — pycaret 2.2.0 documentation

Degree of polynomial features. For example, if an input sample is two dimensional and of the form [a, b], the polynomial features with degree = 2 are: [1, a, b, a^2, ab, b^2]. Ignored when polynomial_features is not True.

pycaret.readthedocs.io

how to use gpu in pycaret : towardsdatascience.com/pycaret-2-2-is-here-whats-new-ad7612ca63b

 

PyCaret 2.2 is here — What’s new?

We are excited to announce PyCaret 2.2 — update for the month of Oct 2020.

towardsdatascience.com

colab에서 하려면 cuml을 다음과 같은 방법으로 설치해야함(오래걸림..)--> 그리고 lgbm-gpu 버전을 설치했는대도 GPU_Enabled=false임..

kaggle notebook에는 cuml이 이미 설치되어있어서 잘 됨. lgbm-gpu 버전도 잘 됨.

blazingSQL notebook에서도 할 수 있는데 T4라 이걸로 할바엔  kaggle notebook으로 하는게 나음.

kaggle notebook에서는 그냥 됨.

 

우선  kaggle notebook에서 하자.

SMOTEENN_minority 로하자.

8:2 ? 7:3 ? 9:1 ? --> 9:1로 해보자.10-fold-cross validation

평가척도는 AUC?, BA?

smoteenn_minority, colab, gpu_unabled, rdkit:2020.03.3

kaggle에서의 결과와 colab에서의 결과가 왜 다르지?

rdkit때문? 버전을 확인해보자. 

kaggle : 2020.09.1 vs colab : 2020.03.1

smoteenn_minority, knn, rf, lr :gpu True, kaggle,  rdkit:2020.09.01
smoteenn_minority, knn, rf, lr :gpu True rdkit:2020.09.1 

 

두개다 완전 똑같은 조건인데 왜 소요 시간 차이가 많이 날까?

gpu false ,rdkit:2020.03.3
cpu40core, gpu false ,rdkit:2020.03.3
rdkit 2020.09.1
colab에서 gpu 쓸수 있게 해보려고 하니까 err뜸
rdkit 2020.09.1_nocuml.

물질 하나때문에 그러는 것일수도 있다. 그래봤자. inactive물질인데..

tutorial을 따라서 해보자.