본문 바로가기

AI 독성예측/논문

[AI독성예측] 3. 논문분석 An Overview of Machine Learning and Big Data for Drug Toxicity Evaluation

vo2019.pdf
2.93MB

ABSTRACT

약물 독성평가는 약물개발의 필수 과정 --> 30%나 차지

ABSTRACT
Drug toxicity evaluation is an essential process of drug development as it is reportedly responsible for the attrition of approximately 30% of drug candidates. 

The rapid increase in the number and types of large toxicology data sets together with the advances in computational methods may be used to improve many steps in drug safety evaluation. 

The development of in silico models to screen and understand mechanisms of drug toxicity may be particularly beneficial in the early stages of drug development where early toxicity assessment can most reduce expenses and labor time. 

To facilitate this, machine learning methods have been employed to evaluate drug toxicity but are often limited by small and less diverse data sets. 

Recent advances in machine learning methods together with the rapid increase in big toxicity data such as molecular descriptors, toxicogenomics, and high-throughput challenges. 

In this article, the most common machine learning methods used in toxicity assessment are reviewed together with examples of toxicity studies that have used machine learning methodology. 

Furthermore, a comprehensive overview of the different types of toxicity tools and data sets available to build in silico toxicity prediction models has been provided to give an overview of the current big toxicity data landscape and highlight opportunities and challenges related to them.

요약
약물 독성 평가는 약물 후보자의 약 30 %가 소모되는 것으로보고되기 때문에 약물 개발의 필수 과정입니다.

전산 방법의 발전과 함께 대규모 독성 데이터 세트의 수와 유형의 급격한 증가는 약물 안전성 평가의 여러 단계를 개선하는 데 사용될 수 있습니다.

약물 독성의 메커니즘을 선별하고 이해하기위한 인실 리코 모델의 개발은 초기 독성 평가가 비용과 노동 시간을 가장 많이 줄일 수있는 약물 개발의 초기 단계에서 특히 유용 할 수 있습니다.

이를 용이하게하기 위해 기계 학습 방법을 사용하여 약물 독성을 평가했지만 종종 작고 덜 다양한 데이터 세트에 의해 제한됩니다.

최근 기계 학습 방법의 발전과 분자 설명자, 독성 유전학 및 고 처리량 생체 활성 데이터와 같은 큰 독성 데이터의 급격한 증가는 현재의 문제를 완화하는 데 도움이 될 수 있습니다.

이 기사에서는 독성 평가에 사용되는 가장 일반적인 기계 학습 방법을 기계 학습 방법론을 사용한 독성 연구의 예와 함께 검토합니다.

또한 인실 리코 독성 예측 모델을 구축하는 데 사용할 수있는 다양한 유형의 독성 도구 및 데이터 세트에 대한 포괄적 인 개요가 제공되어 현재의 큰 독성 데이터 환경에 대한 개요를 제공하고 이와 관련된 기회와 과제를 강조했습니다.

 

Introduction

in silico 방법은 in vitro 및 in vivo 전임상 동물 연구를 보완하기 위해 약물 설계 및 안전성 평가에서 점점 더 많은 역할을하고 있습니다. 약물 독성을 평가하기위한 전산 적 접근법은 독성을 예측하거나 기계적 독성 가설을 추론하기 위해 초기 약물 설계 단계에서 사용될 수 있습니다. 현재 대부분의 인실 리코 방법은 정량적 구조-활성 관계 (QSAR) 및 정량적 구조-특성 관계 (QSPR) 모델을 사용하여 약물 무차별 및 독성을 예측합니다. 마찬가지로, 화합물 안전성을 평가하기 위해 read-across 접근 방식도 탐색되었으며, 동물 실험 데이터를 대체하기 위해 유럽 등록, 평가, 승인 및 화학 물질 제한 (REACH) 등록 프로세스에서 자주 사용됩니다.

이러한 방법은 생물학적 활성 또는 특성을 예측하기 위해 화합물 전반의 화학 구조에서 파생 된 유사한 물리 화학적 또는 분자 설명자를 평가하는 데 의존합니다. QSAR / QSPR 모델링은 많은 독성 종점이 이해가 잘 안되고 일반적으로 범위를 포함하는 경향이 있기 때문에 약물 독성 예측에 종종 어려움에 직면합니다. 약물 설계 및 약물 안전성에 중요한 메커니즘 그러나 QSAR / QSPR 패러독스는 또한 이들과 역효과로 절정에 이르는 경로에 도전합니다. 유사한 화합물이 유사한 활성을 나타내는 경우가 항상있는 것은 아닙니다.



전사체 : 발현된 모든  RNA 의 총합.

2.MACHINE LEARNING

2.1 Supervised Machine Learning Methods

2.2 Unsupervised Learning

unsuperviesd learning --> compounds간 패턴 추론, 이상치 탐지, 관련된 피쳐 선택

ex) 분자 화학 결합을 discriptor set에 매핑함 --> 돌연변이 유발성을 예측하기 위해 지도학습과 함께 사용됨. 

PCA를 통해 화학물질 패턴을 시각화하고 이상치탐지함.

미리 정의된 거리 metrics를 사용하여 고차원 공간에서 데이터를 클러스터링함.

계층적 클러스터링 - 순위 지정 및 정렬가능한 데이터에 사용

범주형 및 정량적 데이터셋은 k-mode, k-means 클러스터링을 사용함. 

확률적 데이터셋의 경우 가우시안 혼합 모델이 널리 사용됨.

2.3 Artificial Neural Networks and Deep Learning

딥러닝은 large& sparse한 비정형 데이터를 처리하기 좋음.

HTS data, toxicogenomics, image-based content 와 같은  large and complex featrue-rich toxicity data set

독성평가에 딥러닝을 사용하는것은 비교적 새로운 영역 -->DNN이  약물 독성 평가에 도움이 될 수 있는가?

 

Korotcov et al. --> 여러 데이터셋 및 독성 엔드포인트에서 DNN과 SVM이 최고 성능

DeepTox 파이프 라인 --> tox21 데이터 챌린지에서의 기존 기계학습 방법 능가

Wang et al. -->  답즙 증식, 간 섬유증 및 괴사 에 대한 간 독성 평가에서 , 유전자 발현을 평가하기 위해 DNN 모델이 SVM RF 와 비슷하거나 향샹됨.

feature를 적절하게 선택하는 것이 중요함(ex 간 손상과 관련된 유전자)

최근 한 연구에서 안드로겐 receptor pathway에서 작용제 길항제 인지 예측하는데 RF보다 DNN이 20%이상 성능이 좋음

kimchangheon.tistory.com/22

고도로 입체적이고 복잡한 이미지 데이터 세트를 분류하여 약물 설계 밀 약물 안전선 평가를 용이하게 함.

그러나 항상 딥러닝 모델이 고전적 기계학습방법을 능가하는 것은 아님.

ex) "에스트로겐 수용체에 결합하므로써 일어나는 내분비 기능의 화학적 파괴" 를 예측하기 위한 모델에서  DNN과 고전 기계학습이 유사한 성능을 보임.(dataset과 feature 선택에 상관없이) "에스트로겐 수용체를 결합하므로써 일어나는 내분비 기능의 화학적 파괴" 는 주오  adverse biological outcome 과 연관됨

특정 화학물질이 에스트로겐 수용체에 결합하면 내분비 기능에 장애가 온다는 말.

2.4 Machine Learning Application and Drug Toxicity

작거나 다양하지않은 데이터셋 --> 과적합되거나 부정확한 예측 모델 --> drug discovery에 적합하지 않음

그러나 최근에는 컴퓨팅발전으로  in-slico방법이 인기있어짐. --> HTS, toxicogenomics assays와 같은 빅데이터채택.

여러 유형의 데이터를 통합,처리 및 분석하는 방법이 잘 알려져 있지 않음.

약 5000개의 서로 다른 분자 설명자가 있음 -->"원자 수" 에서 부터 "구조적 표면 전하 분포"와 같은 물리화학적 특성 정보를 인코딩함.

0D : 원자 번호, 원자 유형, 분자량 --> 원자간 연결을 고려하지 않고 분자정보를 설명함. 

1D : 화학 조각 유형 및 개수

2D : 토폴로지 및 토포-화학분자-feature --> 원자 및 원자 배열에 대한 그래프 불변 정보를 인코딩

3D : 기하학적 데이터를 캡쳐, 형태 데이터(분자 부피, 부분표면 전하와 같은) 

생체 활성 구조를 사용할 수 없고 추가 처리 및 렌더링 시간이 필요한 경우, 3D descriptor 는 여러 3D 화학 구조를 생성해야 할 수 있다. ?

이러한 분자 설명자는 그룹화되고 2진벡터인 분자지문 형태로 표현된다. 이는 선택된 descriptor feature를 설명하기 위함.?

 

3.1 The Application of QSAR for Toxicity Evaluation

off-target toxicity를 평가하는데 성공을 거둠.

activity cliffs :  구조의 작은 변화로 인한 독성 활성의 상당한 차이.

분자 설명자만으로는 복잡한 독성 endpoint 를 적절하기 평가하기 충분하지 않을 수 있음 --> 추가 생물학적 데이터의 통합이 필요함.

그러나 전임상 연구에 많은 비용과 시간이 소요되어 전통적으로 제한되었음.

4. BIG DATA

1. 기존 데이터 수집 및 큐레이션 데이터

2. HTS데이터

3. 독성 유전학 데이터

화학적-생물학적 공간을 완전히 표현하는 더 다양한 데이터 세트를 제공함.

4.1 Data curation and Aggregation

이러한 데이터베이스에서 관련 정보를 추출하기 위한 데이터 마이닝 알고리즘이 다양하게 있지만, 여러 출처의 데이터 세트는  어휘 및, 주석, 실험 설계 및 사용된 방법 과 관련하여 상당히 다를 수 있음 --> 대규모 데이터베이스에서 잘못된 데이터를 완전히 피하기는 불가능함.

4.2 Benefits and Challenges of High-Throughput Sreening Data

4.3 HTS Data sets

4.4. Benefits and Challenges of Toxicogenomics Data.  

4.5. Toxicogenomics Data Sets.

4.6. Toxicity Evaluation and the Integration of Big Data

5. OUTLOOK FOR TOXICITY DATA 

6. LIMITATIONS

대부분 모델 구축에 중점을 두지만... 기존 데이터와 향후 데이터를 처리하기 위해 더 많은 노력을 기울이는 것이 중요.

7.CONCLUSIONS

 

초기 단계임을 인정하는 것이 중요. --> 기계학습이 생체 내 연구를 능가한다는 보고서는 있지만 독성학에 실제 적용되는 사례는 거의 없음.

허나 데이터의 양과 유형이 증가함에 따라 전망이 밝은 것은 사실임.