독성 불균형 데이터를 처리하는 방법에 초점을 맞춘 논문.
문제점
undersampling을 하면 정보손실의 위험
interpolation을 해서 활성데이터를 더 생성하면. 종종 비활성(다수)샘플 공간으로 가게 되어 클래스가 겹치게됨 ---> 잘못 예측 할 확률이 높아짐.
tox21데이터 세트에 SMOTE와 ENN알고리즘을 결합한 SMOTEENN(SMN)을 사용하여 오버샘플링함
SAR모델링에서 data imbalance 문제 해결방안
1. data level --> undersampling & oversampling
2. algorithm level --> 모델을 소수 계층으로 편향시키는 cost sensitivity를 유도함.
MCP(Mondrian Conformal Prediction) : reliability of predictions(예측의 신뢰성)을 모델링하기 위해 nonconformity scores(부적합 접수)를 계산함 --> data rebalancing이 필요하지 않음.
3. Hibrid --> resampling + special-purpose learning algorihms(특수 목적 학습 알고리즘)
SMOTEENN(SMOTE + ENN)
resampling 및 알고리즘 수정의 경과로 일관된 성능 향상이 관찰되진 않음. 다음과 같은 추가적인 질문들에 대한 답을 위해 많은 연구가 필요.
1. 불균형 비율(IR)이 data level(resampling) 방법의 효과에 영향을 미치는가?
2. 다른 data-level 재조정기술이 성능에 차등적 영향을 미치는가? --> SMOTENN이 다른 것 능가하는가?
3. 불균형 학습의 결과를 잘 평가할 수 있는 Metric?
Tox21 assay 12개
9개 evaluation mertric
3개 Resampling algorihtm
RF
(1) RF without resampling,
(2) RF + RUS(random undersampling),
(3) RF + SMO(SMOTE), and
(4) RF + SMOTEENN(SMOTE+ENN).
imbalance rate(IR) 5~70%까지 다양함 , log(IR)과 5가지 evaluation mertric사이의 상관계수)를 계산함.
AUROC와 RF/RUS/SMO 사이의 CC를 제외하고 IR(test data set의)고 F1,MCC,BA,AUPRC,AUROC, 9개평균 사이에 유의미한 음의 상관관계가 있었음
AUPRC점수도 SMN이 최고 성능을 보임.
비활성 화합물의 활성 lanscape가 활성 화합물의 landscape 보다 더 continuous and smooth함.
다수 클래스에서 일부 인스턴스를 제거해도 클래스 경계에 영향 x 소수 클래스에 합성 인스턴스를 추가하면 경계선을 따라 잡음이 발생하여 활동 절벽이 손실되고 합성 인스턴스가 잘못 표시 될 수 있음.
AUCROC는 지나치게 낙관적일 수 있음 BA가 현실적이고 신뢰할만함.
이 연구가 Tox21 data challenge 수상자의 수준에 도달함. 더 뛰어난 부분도 있음(몇몇 assay)
The MCP approach does not require data rebalancing. Hybrid methods combine the use of resampling strategies with special-purpose learning algorithms
Friedman’s aligned ranks test and the subsequent Bergmann-Hommel post hoc test showed that SMN significantly outperformed the other three methods.
IR과 예측 정확도 간의 음의 상관관계!
RF를 딥러닝으로 대체하고 이를 결합하면 성능 향상 가능
MCP, 리샘플링, 앙상블 전략을 통합.