본문 바로가기

AI 독성예측/논문

[AI독성예측]2. 논문분석 Machine learning in chemoinformatics and drug discovery

www.sciencedirect.com/science/article/pii/S1359644617304695

 

Machine learning in chemoinformatics and drug discovery

Chemoinformatics is an established discipline focusing on extracting, processing and extrapolating meaningful data from chemical structures. With the …

www.sciencedirect.com

1-s2.0-S1359644617304695-main.pdf
0.50MB

2018년 스탠포드 대학교에서 나온 논문이다. 

화학물질 정보학과 신약개발에서의 Machine learning

화학물질정보학은 화학물질 구조로부터 의미있는 데이터를 추출하고, 처리하며 외삽하는데 중점을 둔 분야이다.
HTS(고속대량스크리닝)과 "조합합성"에서 화학 빅데이터가 급속하게 증가함에 따라 머신러닝이 굉장히 중요한 도구가 되었다. 머신러닝은 약물 설계자가 대규모 화합물 데이터베이스에 화학물질 정보를 추출하여 중요 생물학적 특성을 가진 약물을 설계하는데 없서서는 안될 도구가 되었다. 
화학물질데이터를 처리하기 위해 화학물질 정보학 파이프라인의 여러 계층을 검토 한 다음 약불 발견 및 QSAR 분석에서 일반적으로 사용되는 기계학습 모델을 도입했다. 

이 논문에서는 기본원리와 최근 사례 연구를 제시하고 이 분야의 추가적인 개발을 위해 한계점과 향후 방향에 대해 논의한다.  

소개

머신 러닝은 현재 컴퓨터 보조 약물 발견 [1]에서 가장 중요하고 빠르게 진화하는 주제 중 하나입니다.

 양자 화학 또는 분자 역학 시뮬레이션과 같은 명시 적 물리 방정식에 의존하는 물리적 모델과 달리, 기계 학습 접근 방식은 패턴 인식 알고리즘을 사용하여 작은 분자의 경험적 관찰 간의 수학적 관계를 식별하고 이를 외삽하여 새로운 화합물의 화학적, 생물학적 및 물리적 특성을 예측합니다.

 또한 물리적 모델에 비해 머신 러닝 기술이 더 효율적이며 광범위한 계산 리소스 없이도 큰 데이터 세트로 쉽게 확장 할 수 있습니다.

 신약 발견에서 기계 학습을위한 주요 응용 분야 중 하나는 연구원이 화학 구조와 생물학적 활동 또는 SAR 간의 관계를 이해하고 활용하도록 돕는 것입니다 [2].

 예를 들어, 약물 스크리닝 캠페인의 히트 화합물이 주어지면 화학 구조를 최적화하여 결합 친 화성, 생물학적 반응 또는 물리 화학적 특성을 개선 할 수있는 방법을 알고 싶을 수 있습니다.

 50 년 전, 이러한 유형의 문제는 많은 비용과 시간과 노동 집약적 인 의약 화학 합성 및 분석주기를 통해서만 해결할 수있었습니다.

 오늘날 현대의 기계 학습 기술은 QSAR 또는 QSPR (양적 구조-특성 관계)을 모델링하는 데 사용할 수 있으며 화학적 변형이 생물학적 행동에 어떻게 영향을 미칠 수 있는지 정확하게 예측하는 인공 지능 프로그램을 개발할 수 있습니다.

 다음과 같은 약물의 많은 물리 화학적 특성 독성, 신진 대사, 약물-약물 상호 작용 및 발암은 QSAR 기술에 의해 효과적으로 모델링되었습니다 [3].

 Hansch Free–Wilson 분석과 같은 초기 QSAR 모델은 단순 다변량 회귀 모델을 사용하여 효능 (logIC50)을 하위 구조 모티프 및 용해도 (logP), 소수성, 치환체 패턴 및 전자 요인과 같은 화학적 특성과 연관 시켰습니다 [4].

 획기적이고 성공적 이었지만 이러한 접근 방식은 궁극적으로 실험 데이터를 사용할 수 없고 모델링에서 이루어진 선형성 가정에 의해 제한되었습니다.

따라서 비선형 데이터 세트를 모델링 할 수있는 고급 화학 정보학 및 머신 러닝 기술은 물론 깊이와 복잡성이 증가하는 빅 데이터가 필요합니다.

머신러닝이 물리 방정식에 의존하는 모델보다 더 좋음, 효율적이고 더 큰 데이터 셋으로 확장이 쉬움
화학 구조와 생물학적 활성 또는 SAR간의 관계를 머신러닝으로 알아낼 수 있음
QSAR와 QSPR , 화학적 변형이 생물학적 행동에 어떻게 영향을 미칠 수 있는지 알아낼 수 있음
초기 QSAR모델(다변량 회귀 모델)은 제한적이였음. 비선형 데이터 셋을 모델링 하기 위해 빅 데이터가 필요함

화학물질정보학의 개요

Chemoinformatics는 화학 정보 검색 및 추출, 화합물 데이터베이스 검색 및 분자 그래프 마이닝과 같은 화학 분야의 문제를 해결하기 위해 컴퓨터 정보 기술을 활용하는 것을 목표로 컴퓨터 과학 및 화학을 포괄하는 광범위한 분야입니다 [5,6].

약물 발견과 관련된 화학 정보학의 다른 영역에는 컴퓨터 지원 약물 합성 (50 년 이상의 역사를 가진 매우 광범위한 분야), 화학 공간 탐사, 약물 단 및 스캐 폴드 분석, 라이브러리 설계 등이 포함됩니다 [7,8].

복합 구조를 기계 학습 작업에 적용 할 수있는 화학 정보로 변환하려면 화학 그래프 검색, 설명자 생성, 지문 구성에서 유사성 분석에 이르는 다층 계산 처리가 필요합니다. 여기서 각 계층은 이전 계층의 성공적인 개발을 기반으로 구축되며 종종 상당한 영향을 미칩니다. 기계 학습을위한 화학 데이터의 품질 (그림 1).

화학물질 정보학은 컴퓨터과학 및 화학을 포괄하는 분야
chemical space exploration
pharmacophore and scaffold analysis
library design

아래와 같은 것들의 multilayer 계산 처리가 필요함 이전 계층을 기반으로 구축되며 서로간 영향을 미침.
chemical graph retrieval
descriptor generation
fingerprint construction to similarity analysis

화학물질 그래프 이론

화학 물질의 구조가 생물학적 활동에 어떻게 영향을 미치는지 이해하려면 화학 그래프 이론의 기초를 검토하는 것이 중요합니다 [9]. '분자 그래프'또는 '구조 그래프'라고도하는 화학 그래프는 순서 쌍 G = (V, E)로 구성된 수학적 구조입니다. 여기서 V는 일련의 모서리로 연결된 정점 (원자) 세트입니다. (bonds) E.

화학 그래프 이론은 화학 구조가 그래프 표현에 의해 완전히 지정되기 때문에 광범위한 생물학적 현상을 모델링하고 통찰력을 제공하는 데 필요한 정보를 포함하고 있다고 유지합니다.

화학 그래프의 여러 변형이 제안되었습니다 [10]. 가중 화학 그래프는 결합 길이와 기타 원자 특성을 나타 내기 위해 모서리와 꼭지점에 값을 할당합니다 [11]. 화학적 의사 그래프 또는 축소 그래프는 자세한 결합 원자가 정보를 캡처하기 위해 다중 모서리와 자체 루프를 사용합니다 [7].

풍미에 관계없이 화학 그래프는 결합 인접 매트릭스 또는 토폴로지 거리 매트릭스를 사용하여 원자 연결성을 나타내며, 이는 화학 정보학 모델링에 유용한 여러 토폴로지 색인의 계산을 지원합니다 [12].

GarciaDomenech et al. 화학 분석을위한 화학 그래프의 적용을 시연했습니다. 그들의 연구에서 그들은 주기율표의 주요 그룹에서 30 개 원소의 전기 음성도를 모델링하기 위해 인접 행렬에서 파생 된 의사 정점 정도를 완전한 그래프의 두 가지 주요 매개 변수와 결합한 방정식을 제안했습니다 [10].

최근에 Fourches와 Tropsha는 고급 데이터 세트 그래프 분석 (ADDAGRA) 접근 방식을 개발했습니다. 이 연구에서 그들은 고차원 공간에서 화학적 공간 네트워크를 사용하여 대형 화합물 세트에 대한 화학적 다양성을 비교하고 정량화하기 위해 결합 연결 매트릭스의 여러 그래프 인덱스를 결합했습니다. 이 연구는 ADDAGRA 접근법이 SAR 분석을 개선하기 위해 화학 데이터베이스 간의 공유 화학 공간을 발견 할 수 있음을 보여주었습니다 [13].

분자 그래프 -->  G = (V, E)
여러 변형 그래프 존재 1. 가중화학그래프, 2.화학적의사그래프(pseudographs)
ADDAGRA-->SAR분석을개선-->화학물질데이터베이스간의 공유 화학 공간을 발견가능

화학 설명자
화학 설명자는 분자 데이터 마이닝, 화합물 다양성 분석 및 화합물 활동 예측을 위해 화학 구조에서 추출한 수치 적 특징입니다 [14-16]. 화학적 설명자는 1 차원 (0D 또는 1D), 2D, 3D 또는 4D 일 수 있습니다 (표 1) [17].

1 차원 디스크립터는 원자 수, 결합 수, 분자량, 원자 속성의 합 또는 조각 수와 같은 집계 정보를 설명하는 스칼라입니다 [18]. 계산이 간단하지만 1D 디스크립터는 고유 한 화합물이 주어진 디스크립터에 대해 동일한 디스크립터 값에 매핑되는 축 퇴성 문제가 있습니다. 따라서 1D 디스크립터는 일반적으로 고차원 디스크립터와 함께 사용되거나 여러 1D 디스크립터의 벡터로 표현됩니다.

2D 화학적 설명자는 문헌에보고 된 가장 빈번한 설명자 유형이며 토폴로지 색인, 분자 프로필 및 2D 자기 상관 설명자를 포함합니다 [18].
구조 차별화에 유용한 2D 설명 자의 중요한 기능은 설명자 값이 그래프 노드 (정점)의 번호를 다시 매겨도 영향을받지 않는 그래프 불변성입니다. 2D 디스크립터의 넓은 공간 분석을 용이하게하기 위해 Hong et al. 대규모 복합 데이터 세트에 대해 최대 200 가지 유형의 2D 설명자를 빠르게 생성하는 Mol2 시스템을보고했습니다 [19]. 디스크립터 생성에 일반적으로 사용되는 다른 상용 소프트웨어 패키지에는 여러 QSAR 연구의 일부로 최대 5000 가지 유형의 디스크립터를 생성 할 수있는 DRAGON 시스템이 포함됩니다 [20,21].

3D 화학적 설명자는 3D 좌표 표현에서 화학적 특징을 추출하며 구조적 변화에 가장 민감한 것으로 간주됩니다 [22-25]. 잘 알려진 3D 설명자에는 자기 상관 설명자, 치환기 상수, 표면 : ​​부피가 포함됩니다.
서술자와 양자 화학 서술자 [18]. 3D 화학적 설명자는 유사한 결합 활동을 가진 별개의 화학적 스캐 폴드 인 '스캐 폴드 홉'을 식별하는 데 유용합니다 [26]. QSAR 분석에서 3D 화학 설명 자의 주요 제한 사항은
컨 포머 생성 및 구조 정렬의 복잡성; 예측 된 형태가 관련 생물 활성 형태와 일치한다는 보장이 없습니다.

4D 화학적 설명자는 여러 구조적 형태를 동시에 고려하는 3D 화학적 설명 자의 확장입니다 [27]. Ash와 Fourches는 ERK2 키나아제에 대한 분자 역학 시뮬레이션을 적용하여
20ns 궤적을 기반으로 agridbox에 대한 3D 디스크립터를 계산하고 이러한 4D 화학 디스크립터가 가장 활성 인 ERK2 억제제와 우수한 농축 률을 가진 비활성 ERK2 억제제를 효과적으로 구별 할 수 있음을 보여주었습니다.

1D 
2D
3D
4D

화학물질 fingerfrint
화학 지문은 화학 분석 및 유사성 기반 가상 스크리닝 응용 프로그램에 일반적으로 사용되는 고차원 벡터이며 그 요소는 화학 설명자 값입니다 [29].

MACCS (Molecular ACCess System) 하위 구조 지문은 2D 이진 지문 (0 및 1)이며, 각 166 비트는 특정 하위 구조 키의 유무를 나타냅니다 [30].

일광 지문 및 확장 연결 지문 (ECFP)은 화학 그래프에서 지정된 길이 또는 직경까지의 화학 패턴을 추출합니다.
MACCS의 미리 정의 된 하위 구조 키와 비교하여 이러한 지문은 해시 함수를 사용하여 기능을 동적으로 인덱싱 할 수 있으며 복잡한 구조를 검색 할 때 종종 더 높은 특이성을 제공합니다 [31].

2D 지문의 최신 개발은 SVM (Support Vector Machine) 및 신경망에서 학습 한 내부 표현 인 연속 커널 및 신경 내장 지문입니다.

Duvenaud et al. convolution 개념을 분자 표현을 추출하기 위해 2D 분자 그래프로 표현 된 분자로 확장했습니다 [32]. 이 아키텍처는 데이터 기반 방식의 역 전파를 통해 표현을 학습 할 수 있도록 지문 계산을 일반화하고 용해도, 약물 효능 및 유기 태양 광 효율에 대한 예측을 개선합니다.

3D-QSAR 연구에서 일반적으로 사용되는 3D 지문에는 약동학 패턴, 표면 특성, 분자 부피 또는 분자 상호 작용 필드에 기반한 화학적 특성이 포함됩니다 [24,33]. 가장 잘 알려진 3D 지문 중 하나는 다음과 같은 GRID 프로그램에서 구현 된 MIF (분자 상호 작용 필드)입니다.
Goodford [34].

MIF 기반 지문은 리간드를 고정 된 간격으로 직사각형 그리드에 배치하고 각 그리드 포인트에서 독립적으로 전자, 입체 및 소수성 기여도를 계산합니다.
그 결과 생성 된 MIF 기반 지문은 3D 그리드 포인트와 복합 활동 간의 관계를 도출하여 CoMFA (비교 분자 장 분석)에 사용할 수 있습니다 [35].
격자 상자 내 분자의 상대적인 방향에 대한 의존성은 CoMFA 분석과 같은 3D-QSAR 기술의 주요 제한 사항입니다.
 
3D-QSAR 분석에서 리간드 방향의 의존성을 제거하기 위해 Baskin과 Zhokhova는 최근 격자 점을 연속 함수로 대체하여 분자 장을 나타내는 연속 분자 장 (CMF) 접근 방식을 도입했으며 가장 단순한 형태가 비교 가능하거나 향상된 예측 성능을 제공함을 보여주었습니다. 최신 CoMFA 방법과 비교하여 [36].

MACCS, ECFP
최신 2D fingerfrint는 SVM이나 신경망을 통해 학습한 internal representaion.
3D fingerfrint

화학적 유사성 분석

화학적 유사성 검색은 리간드 기반 약물 발견을위한 기본 기술입니다 [37]. 그것의 목적은 질의 화합물과 유사한 구조와 생물 활성을 가진 데이터베이스 화합물을 식별하고 반환하는 것입니다 [38].

유사한 구조를 가진 화합물이 아마도 유사한 생물학적 활성을 가질 것이라고 말하는 화학적 유사성 원칙은 유사성 기반 가상 스크리닝의 기본 가정입니다 [39].

그러나이 가정이 항상 유효한 것은 아닙니다. 예를 들어, 기능 그룹의 사소한 수정이 활동의 ​​갑작스런 변화를 일으키는 '활동 절벽'은이 원칙을 위반하고 QSAR 모델의 실패를 유발할 수 있습니다 [40,41].

두 분자의 구조적 유사성은 화학적 지문의 타니 모토 계수 (Tc)를 계산하여 가장 일반적으로 평가됩니다.

Jaccard 인덱스라고도하는 Tc는 두 특성 벡터가 공유하는 비트의 비율로 유사성 점수를 계산하는 세트 간의 유사성 척도입니다.

높은 Tc 값은 두 화합물이 유사하지만 이들이 공유하는 특정 화학 그룹과 같은 유사성의 정보 차원을 제공하지 않음을 나타냅니다.

화학적 유사성은 화합물의 3D 구조적 특징을 기반으로 평가할 수도 있습니다. 3D Tc는 두 개의 비교 리간드 사이의 공유 분자 부피 비율을 계산하는 일반적인 3D 유사성 메트릭입니다 [42].

부피 기반 유사성 구현의 예로는 분자 형태의 가우스 표현을 기반으로하는 약물 발견에서 가장 널리 사용되는 형태 유사성 접근 방식 인 ROCS (Rapid Overlap of Chemical Structure) 프로그램이 있습니다 [43].

대체 3D 유사성 메트릭은 중요한 기능 그룹 간의 볼륨 중복 만 고려하는 약리학 적 유사성입니다.
Lo et al. 감독되지 않은 3D 화학적 유사성 클러스터링을 위해 Obabel PF2 지문, 모양 및 약리 점을 기반으로 2D 및 3D 메트릭을 결합하는 ShapeAlign 프로그램을 개발했습니다 [44,45].

유용한 미끼 (DUD) 디렉터리에서 검색된 20 개의 알려진 약물 클래스를 사용한 유효성 검사 연구에서는 결합 된 메트릭이 2D 또는 3D 메트릭을 능가하고 여러 구조적 고유 HIV 역전사 효소 (HIVRT) 억제제 사이의 공유 3D 기능을 성공적으로 감지했음을 보여주었습니다.

pharmacophoric 유사성과 관련된 유사한 개념은 FieldAlign 도구 (CRESSET 회사에 의해)에서 구현 된 분자 장 유사성입니다.이 도구는 에너지 프로브를 사용하여 명시적인 구조적 중첩이 없을 수도있는 유사한 리간드를 식별합니다 [46].

최근 Ferreira와 Couto는 ChEMBL 데이터베이스의 약물 주석과 같은 의미 론적 특성을 기반으로 화학 화합물을 분류하기 위해 화학적 의미 유사성이라는 새로운 유사성 측정을 개발했습니다.

[47]. 이 연구는 기능적 역할에 따라 화합물을 비교하면 기존 화합물 분류 시스템을 보완하여 여러 약물 특성에 대한 예측이 향상되었음을 보여주었습니다.

아날로그 분석은 분자 쌍에 대해 정의되는 화학적 변형을 특성화하려고합니다. 최근에는 특정 유형의 변형 또는 관계, 비 고리 단일 결합 치환을 정의하고 아날로그 관계를 색인화하고 검색하는 방법의 개발을 촉진하는 방법으로 일치 분자 쌍 (MMP) 형식이 등장했습니다 [48].

Hussain과 Rea [48]가 개발 한 fragmentindexing 알고리즘은 현재 가장 널리 사용되는 MMP 검색 방법이지만 유사성 검색을 지원하지 않습니다. Rensi와 Altman은 Tanimoto 커널 내장 지문을 사용하여 화학적 변환의 유사성을 계산하는 방법을 개발하고 퍼지 검색 기능을 MMP 프레임 워크로 확장했습니다 [49].

그들은 103 개의 고 충격 약리학 적 표적으로부터 4 배 이상 규모의 데이터 세트 크기 범위에 걸쳐 안정적인 결과로 여러 수준의 상황 별 추상화에서 MMP 관계를 쿼리하는 기능을 보여주었습니다.

'activity cliffs' --> QSAR 모델의 실패 유발가능

3D 구조 특징을 가지고 화학적 유사성 평가 가능
부피 기반 유사성
대체 3D  유사성

pharmacophoric 유사성

MMP framework

 

Computational workflow for chemoinformatics analysis using machine learning. The first step of chemoinformatics analysis is feature extraction, through which the compound is characterized by substructure fragments or other chemical descriptors (first box). The chemical features of the compound are represented by chemical fingerprints and applied for compound similarity comparison based on the presence and absence ofshared chemical features. The chemical fingerprint can be used for predicting other chemical and physiochemical properties in QSAR/QSPR analysis using diverse machine learning models including making inference from the training data by comparison (instance-based learning) or from the trained statistical model (model-based learning) (second box).

 

Machine learning models in QSAR

최신 기계 학습 기술은 높은 정확도와 정밀도로 비선형 SAR 관계를 탐색 할 수있는 강력한 기술 모음을 제공합니다.

supervised learning : regression analysis, (kNN), Bayesian probabilistic learning, SVMs, RF, neural networks

unsupervised learning : 

Naive Bayes

well-known example : PASS program for predicting drug activities

Large-scale virtual screens의 효율성 입증.

important pharmacological properties

-       cytochrome P450 inhibition

-       human plasma protein binding

-       bioavailability in animal models (rattus norvegicus)

Regression analysis

curses of dimensionality and collinearity --> multivariate linear regression

L1규제, 진화알고리즘 --> 명시적으로 변수의 수를 줄임(endpoint와 연관이 적은 변수제거)

L2규제( Gaussian processes and ridge regression) --> 실제 변수의 수는 줄이지 않고 유효 수를 줄임

LASSO --> predicting the anticancer potency of imidazo-pyridine derivatives 에 유용함.(Algamal
et al.)

진화알고리즘 --> modeling the activity and selectivity of monoamine oxidase inhibitors 에 유용함(Helguera et al)

PCA사용 --> to decorrelate features for prediction of estrogen receptor binding(Gao et al)

predicting activity against a broad set of pharmacological protein targets --> 커널 PCA PCA의 선형변형을 사용하여 LASSO회귀보다 높은 성능 냄. (Rensi and Altman)

partial least squares (PLS) --> 차원 축소와 다변량회귀를 결합하여 예측변수를 관심있는 활성이나 속성과 최대로 상관성이 있지만 ,변수끼리는 상관성이 없도록 변환한다.

Erikkson et al에선 QSAR의 첫번재 방법으로 PLS를 권장한다. -->3D-QSAR에서 널리 사용되며, unsupervised dimensionalitymultivariate regression을 결합하는 방법과 비교해서 효율성과 정확성이 좋다.  

기본 선형성 및 벡터 공간 가정이 제한사항 --> 대부분의 QSAR 문제에서는 유효하지 않을 수 있다.

Feature selection이 중요하지만 linear regression에서는 한계가 있다.

k-Nearest neighbors

K값 선택의 문제

SEA(유사도 앙상블 접근법) : 화학적 유사도 값을 “BLAST sequence similarity search”에 사용 된 것과 유사한 “randomized background score”와 비교한다.

CSNAP(chemical similarity network analysis pull-down) : 미리정의된 Tc 컷오프를 기반으로 화합물을 클러스터링,

most-similar ligand-based target inference (MOST) : utilizes explicit bioactivity of the most- similar ligands to predict targets of the query compound 타겟을 예측하기 위해 가장 유사한 리간드의 생물 활성을 활용하는 방법 --> fp를 줄일 수 있음.

Random forest

RFsvm, 신경망수준의 정확도 달성(뛰어난 해석능력) --> for a number of important pharmacological transporters, targets and properties such as P-glycoprotein (PGP), cyclooxegenase-2 (COX2) and blood–brain barrier permeability(Svetnik et al)

Support vector machines

최적으로 분리된 초평면을 찾아 데이터를 고차원 공간에 매핑하는 비선형 커널 함수를 사용하여 분류 문제 해결.

transcription factors activator protein (AP)-1

2-[(3-methyl-2,5-dioxo(3-pyrrolinyl))amino]-4-(trifluoro- methyl)pyrimidine-5-carboxylate derivatives

구조적 특징을 알아내기 위해 svm사용 -->  aminopyr- imidine-5-carbaldehyde oxime derivatives that are responsible for strong vascular endothelial growth factor (VEGF)-2 inhibition activity [80].

Neural networks and deep learning

3D-CNN : 단백질 구조를 4개의 서로 다른 atomtype channels이 있는 3D이미지로 보고 3D-CNN을 사용하여 아미노산 미세환경 유사도를 분석하고 단백질의 돌연변이 효과를 예측함(Torng and Altman)

GCN(Graph convolutional networks) :  2D molecular graph analysis에 적용됨.

유사한 개념의 로컬 공간 필터를 사용하지만  주변feature를 학습하기 위해 그래프에서 작동함

small molecule representations를 학습하기 위한 다양한 GCN 아키텍쳐 제안됨. -> 각각 다른방식으로 local graph neighborhoodconvolution operations을 수행함.

LSTMde novo 약물 설계에 사용됨 SMILES문자열 내에서 ‘grammatical structures’를 학습하고 학습된 규칙에 따라 새로운 분자를 출력함. VAE,GAN,심층강화학습도 분자의 잠재 표현(latent representations)을 학습하고 원하는 분자 특성을 가진 새로운 화합물을 생성하는데 적용됨.

QSAR modeling

약물 발견을위한 QSAR 모델을 구성하기위한 일반 프로토콜은 체계화되었으며 이전에 논의 된 화학 정보학 및 기계 학습 기술을 포함하는 여러 모듈 식 단계로 구성됩니다.

첫 번째 단계는 화학적 특징과 특성이 화학 구조 또는 실험 결과 조회에서 파생되는 '분자 인코딩'입니다.

둘째, 비지도 학습 기술을 사용하여 가장 관련성이 높은 속성을 식별하고 특징 벡터의 차원을 줄이는 특징 선택 단계가 수행됩니다.

마지막으로, 학습 단계에서는 입력 특징 벡터와 생물학적 반응 사이에 최적의 매핑을 달성 할 수있는 경험적 기능 (명시 적 또는 암시 적)을 발견하기 위해 지도학습 모델이 적용됩니다.

정확한 QSAR 모델을 구축하려면 훈련 및 모델 검증에 사용되는 SAR 데이터 세트를 신중하게 고려하고 선택해야합니다 [103]. 여기에는 초기 모델 생성을위한 훈련 및 테스트 세트의 엄격한 분리가 포함됩니다.

1. 분자 인코딩 , 2. 비지도학습을 통한 featrue selection , reduce dimensionality , 3. 지도학습모델 

Concluding remarks and future directions

기계 학습 기술은 우수한 생물학적 활동을 가진 신약을 발견하고 설계하기 위해 화학 정보학 분야에서 널리 적용되었습니다. 화학 그래프의 수학적 마이닝을 통해 2D 또는 3D 화학 물질의 별자리를 유도 할 수 있습니다.
다양한 기계 학습 모델 및 예측 작업에서 화학적 지문으로 패키징 된 디스크립터.

이 분야에서 혁신의 핵심 영역은 더 넓은 범위의 생물학적 현상을 예측하기위한 빅 데이터와 머신 러닝의 결합입니다.

단순한 리간드-단백질 상호 작용에 기반한 기존의 약물 설계 방법은 임상 약물 안전 기준을 충족하기에 더 이상 충분하지 않습니다. 심각한 부작용으로 인한 높은 약물 소모율은 종종 생물학적 경로와 높은 수준의 체계적인 반응을 포함합니다.

따라서 분자 수준에서 유기체 수준까지 구조적, 유전 적 및 약리학 적 데이터를 집계하는 '데이터 융합'기술이라고도하는 여러 데이터 유형과 소스를 통합하는 것이 더 안전하고 효과적인 약물을 발견하는 데 중요합니다 [105].

마찬가지로 대용량, 속도 및 정확성과 다 용성으로 빅 데이터를 처리 할 수있는 새로운 기계 학습 모델도 필요합니다. 최근 딥 러닝 네트워크의 진화는 현대 신약 발견 캠페인을위한 방대한 데이터 세트에서 효율적인 학습을위한 유망한 아키텍처로 입증되었습니다 [106].

기계 학습 기반 신약 발견 분야에서 추가 개발을 보장하는 중요한 주제 인 기계 학습 가설을 입증하기위한 데이터 해석 능력 향상과 과적 합 방지 방법과 같은 기계 학습 기술의 다른 측면도 중요합니다.

분자 수준에서 유기체 수준까지 구조적, 유전적 및 약리학적 데이터를 집계하는 '데이터 융합'기술 이 중요
과적합 방지 중요