이번에는 머신러닝 독성예측분야에서 꽤 중요한 핵심 논문을 분석해 보도록 하겠습니다.
•Pairwise Evaluation of OECD Guideline Test Reproducibility
•Demonstration of Network Effects for Chemical Similarity
•RASAR Database
1. European Chemical Agency Classification and Labeling
2. PubChem
3. NTP—Predictive Models for Acute Oral Systemic Toxicity
●Read-Across Structure Activity Relationship
1. Unsupervised Step
2. Supervised Step
●Simple RASAR
●Data Fusion RASAR
2.Feature Hiding
3.Target features
4.Positive/negative analogs
•RASAR Implementation Details—Spark Pipeline
•Data Sampling
•Model Training
•Model Evaluation
•Visualization of Chemical Universe
•Variable Importance Analysis
academic.oup.com/toxsci/article/165/1/198/5043469
제목의 의미를 살펴보면, 독성 빅데이터를 이용한 머신러닝을 이용하면 RASAR(Read-Across-Structure-Activity Relationships)이 가능한데 RASAR는 동물실험 재현성보다 뛰어나다는 뜻입니다.
동물실험을 하게되면 상황에 따라서 결과값이 항상 일치하지 않은 문제점있습니다.
예를 들어 한국의 A대학에서 한 동물실험의 논문이 사이언스지에 실렸다고하면, 그 실린 논문을 미국에 있는 B대학에서 논문에 나온 그대로 실험을 수행하지만, 결과는 논문에 나와있는 결과값이 다른 값이 나올 수 있습니다.
이러한 결과중 논문에 나온 결과값보다 근접하지 않을수록 동물실험 재현성이 떨어진다고 합니다.
동물실험 특성상, 아무리 조건을 유사하게 맞춘다고 하여도, 동물이 지닌 유전적인 특성, 환경적인 특성으로 인하여 결과값은 항상 일정하기 어렵습니다. 하지만 머신러닝을 이용한 RASAR은 동물실험이 지닌 이번 문제점을 보완하기에 탁월합니다.
ABSTRACT에서는 활용한 데이터베이스와, RASAR알고리즘, 성능에 대해서 간략하게 정리되어있습니다.
10000여개의 화학 물질과, 자연어처리를 통해 만든 화학물질 위험 데이터베이스를 사용했으며.
acute oral , dermal toxicity, eye and skin irritation, mutagenicity , skin sensitization 에 대한 재현성을 확인하기 위해 OECD 가이드라인을 확인 했습니다. 각각 350 ~ 700 개의 화학 물질을 기준으로 반복 실험에서 동일한 결과를 산출 할 확률은 78 % ~ 96 % (민감도 50 ~ 87 %)입니다..
86600개 이상의 화학물질 속성/위험정보 가 들어있는 확장된 데이터베이스가 훈련데이터로 사용이 되었고, health hazard와 chemical properties를 예측하습니다.
RASAR는 binary fingerprint사이 Jaccard 거리를 이용하여 화학물질간 유사성을 정의합니다.
화학물질간 유사성 매트릭스를 통해 큰 인접행렬을 만들고 이는 학습을 위한 feature로 사용됩니다.
2가지 종류의 RASAR "Simple"과 "Data Fusion" 이 있으며,
"Simple" RASAR는 알려진 hazard data로 chemcial analogs를 찾아 이를 통해 물질의 위험을 예측하는 기존의 전통적인 방법이며, 70 ~ 80 % 균형 잡힌 정확도를 달성합니다.
"Data Fusion" RASAR는 모델링에 사용하는 hazard뿐만아니라 모든 이용가능한 속성데이터를 사용하여 large-feature vectors를 추가하여 예측하는 방식이며, 9가지 건강 위험에 대해 80 % –95 % 범위에서 균형 잡힌 정확도를 보여줍니다.
화학 구조는 물질의 생물학적 특성을 결정하지만, 연결은 일반적으로 (계산적인 방법이나 인간의 이해를 통해) 화학물질 universe의 더 큰 부분에 대한 규칙을 도출하기에는 너무 복잡합니다.
connection이 너무 복잡하기 때문에 "구조 활성 관계" 의 실제 사용은 read-across로 제한되어왔습니다. 예를 들면 1개 혹은 약간의 유사한 화학 물질에 대한 pragmatic comparsion입니다. pragmatic comparsion은 접근방식에 타당성에 대한 사례벌 추론과 함꼐 사용됩니다.
이 주관적인 전문가 중심의 접근 방식은 많은 화학 물질에 빠르게 적용 할 수 없습니다.
사람의 의견에 대한 read-across 의존성은, 기술 평가를 어렵게 만들고, 방법 재현성의 신뢰할 수있는 추정을 방해합니다.
"REACH registration process" 에서, read-across 접근방식은 지배적인(비동물실험 데이터의) source가 되었습니다. "REACH registration process" 는 소비자 안전을 위해 , 수만 가지 화학 물질에 대한 수십억 유로의 동물 실험 데이터를 요청합니다.
read-across에 대한 experience가 쌓임에 따라 European Chemical 's Agency에서 최초의 read-across 평가 프레임 워크를 개발할 수 있었습니다. 하지만 데이터 접근문제와 , 예측의 불확실성 때문에 유용성이 떨어지는 부분도 있습니다..
대규모 machine-readable 독성 정보 데이터베이스는 "화학 물질 및 화학 유사체(analogs)의 computational 모델링" 을 통해 read-across 접근법을 자동화합니다.
machine-readable 화학 테스트 데이터베이스를 통해 반복적으로 분석하여 테스트 데이터의 품질을 평가할 수 있습니다.
테스트 된 물질 (Hartung, 2016a).
machine-readable 화학 시험 데이터베이스를 통해 반복적으로 시험 된 물질을 분석하여 시험 데이터의 품질을 평가할 수도 있습니다 (Hartung, 2016a).
"데이터 신뢰성 테스트" 에 대한 지식은 "computational 모델"을 비교할 기준을 제공합니다.
유럽 화학 물질 법안의 주요 진전은 수만 가지 화학 물질에 등록에 대한 주요 정보가 공개된다는 것입니다. 하지만 계산을 허용하는 표준화 된 방식은 아닙니다.
이전에는 "REACH registration process" 의 공개 정보를 기계 판독 가능하게 만들기 위해 자연어 패턴 매칭을 사용했습니다 (Luechtefeld et al., 2016a).
흥미롭게도 많은 화학 물질이 한 번 이상 테스트되었으며 일부는 굉장히 자주 테스트되었습니다. 예를 들어 자주 하는 동물 테스트 중 하나는 Draize 토끼 눈 테스트입니다. 70 년이 넘는 기간동안 테스트 화학 물질을 토끼 눈에 투여합니다.
데이터베이스에서 볼 수 있듯이, 2가지 화학 물질이 90 회 이상 테스트되었고 69개 화학 물질이 45 회 이상 테스트되었으며 (Luechtefeld et al., 2016c).
굉장히 많은 동물 실험의 반복을 통해 OECD 가이드 라인 테스트의 재현성 평가가 수월해 졌습니다. OECD가이드라인 테스트는 각 endpoints에 대한 수백가지 화학물질을 기반으로 합니다.
특히, 여기에서 분석 된 9 가지 가장 빈번한 동물 실험은 유럽에서 독성 안전성 테스트를 위해 전체 동물의 57 %를 소비했습니다.
ECHA 자료에서 추출한 "화학적 피부 민감화" 를 통해서 "화학적 유사성 기반" 위험 모델을 평가할 수 있습니다.
.
화학 물질은, 1-최근 접 이웃을 기준으로 가장 가까운 유사체(analogs) 에 의해 분류됩니다. 유사도는 PubChem 2D 이진벡터의 Jaccard 거리로 정의 됩니다. 이전 연구에서는 80 % –92 %의 균형 정확도를 보였습니다 (Luechtefeld et al., 2016d).
"최소 유사도 임계값"을 설정해야하며 , "최소 유사도 임계값"을 낮추면 정확도는 낮아지지만 더 많은 화학 물질을 모델링에 이용할 수 있습니다.
This paper demonstrates that increasing similarity (PubChem 2D + Jaccard method) leads to increased model accuracy and supports the use of chemical similarity methods in chemicalmodeling.
key points
pubchem2D라는 이진벡터를 이용하여 화학물질간 자카드 유사도를 계산한다.
이를 통해 특정 chemical에 대한 analogs(유사체)를 찾아내고 이를 기반으로 모델링을 한다.
화학적 위험 모델링에 성공한 이전 연구(Hartung, 2009).에 이어서, 2가지 발전과제가 있습니다.
첫째로, 빅 데이터의 예측력이 입증되었고 더 큰 데이터베이스 생성에 집중할 수 있었습니다.
PubChem, ECHA 및 NTP에서 선별 한 급성 구강 독성 데이터 세트에서 화학적 특성 데이터를 가져와 데이터 통합 파이프 라인을 구축합니다. 합쳐진 데이터는 계속 증가하지만 현재 80, 908 개의 chemical에 대한 모델링에 사용 된 833,844 개의 화학적 속성 값이 포함되어 있으며, chemical당 약 10 개의 속성값이 있습니다.
key points
pubchem + ECAH + NTP
80908개 chemcal
chemcial당 10개 property, 총 833844
둘째, 화학적 특성을 모델링하기 위해 read-across를 자동화하는 간단한 방법이 만들어졌습니다.
잠정적으로 명명 된 read-across 구조 활성 관계(RASAR) 가 처음으로 생성되어 여기에 제공되었습니다.
RASAR은 기존의 화학적 유사성과 지도 학습을 결합합니다. 화학적 유사성은 각 화학 물질에 대한 이진 지문을 생성하고 지문에 Jaccard 거리 (유사성 ¼ 1– 거리)를 사용하여 수행됩니다. 지도 학습 방법은 화학적 유사성에서 얻을 수있는 통찰력의 통계 모델을 제공합니다.
자동화로 인해이 접근 방식은 대규모 데이터 세트에 적용될 수 있으므로 교차 검증과 같은 일반적인 통계 방법에 따라 검증 될 수 있습니다. 화학적 유사성에 기반한지도 학습 모델을 통해 개별 예측에 대한 신뢰도를 할당 할 수도 있습니다. ToxCast 내에서 로봇 화 된 테스트의 대규모 데이터 세트를 사용하는 유사한 접근 방식이 최근보고되었습니다 (Shah et al., 2016; Zhu et al., 2016).
key points
RASAR는 화학적 유사도와 지도학습을 결합하는것.
Toxcast내에서도 비슷한 접근법이 있음.
“simple” RASAR는 로지스틱 회귀 모델을 사용한다.
Negative : maxNeg
Positive : maxPOS
REACH및 독성학 분야에서 가장 자주 사용되는 9가지 hazard에 대해 적용됨(Skin Sensitization, Eye Irritation, Acute Oral Toxicity, Acute Dermal Toxicity, Acute Inhalation Toxicity, Dermal Irritation, Acute/ Chronic Aquatic Toxicity and Mutagenicity)
교차검증 특이도 : 50~70%
교차검증 민감도 : 80%
“이는 각 동물 실험의 재현성과 동등한 수준이다.
“Data Funsion” RASAR는 analogs에 대한 여러 information을 이용하여 랜덤 포레스트 모델로 학습한다.
GHS 분류에 의한 19개의 카테고리(총 74개)가 각 end point를 위해 ...
교차검증 균형 정확도 : 80%~95%로 향상
Machine-readable REACH 등록 database는 언어 패턴 매칭, 웹 조작 패키지들을 이용해서 생성되었습니다.
key points
Mongodb,
Htmlunit
HtmlUnit은 Java로 작성된 헤드리스 웹 브라우저입니다. 양식 작성 및 제출, 하이퍼 링크 클릭을 포함하여 다른 Java 코드에서 웹 사이트를 높은 수준으로 조작 할 수 있습니다. 또한 수신 된 웹 페이지 내의 구조 및 세부 사항에 대한 액세스를 제공합니다.
Beautifulsoup
뷰티플 수프는 HTML과 XML 문서를 파싱하기위한 파이썬 패키지입니다. 웹 스크래핑에 유용한 HTML에서 데이터를 추출하는 데 사용할 수있는 구문 분석 된 페이지에 대한 구문 분석 트리를 생성합니다.
데이터베이스에는 9801개의 고유한 물질, 3609개의 고유한 study descriptions, 816,048개의 study documents 가 들어있습니다.
Guideline 연구 반복성을 평가하려면, 결과가 각 연구에 할당되어야합니다.
모든 OECD 가이드라인 dossier는 “submitters_conclusions” 필드를 기록하며, 각 관련된 테스트의 통제된 용어에 텍스트 결과가 매핑됩니다
반복성을 평가하기 위해 각 테스트 결과는 positive 또는 negative로 매핑되었고 효능(potencies)은 무시되었습니다.
재현성 평가에는 나열된 각 가이드라인에 대해 여러 결과가 있는 모든 화학물질을 사용하였습니다. 즉 주어진 hazard에 대해 여러 번 테스트 된 화학물질이 수집됩니다. 그런 주어진 화학 물질에 대한 모든 결과 pair를 매핑합니다.
하나의 결과에 대한 조건부 확률 (아래의 T2방정식) 주어진 다른 것 (아래 방정식의 T1)은 조건부 확률의 정의를 사용하여 계산됩니다.
양성 (민감도) 또는 짝을 이루는 테스트가 음성 (특이성) 인 경우 테스트가 음성임을 나타냅니다.
NOI (No information) 비율은 동일한 OECD 가이드 라인과 무작위 테스트를 결합하여 계산되었습니다.
이 NOI 속도는 반복성으로 인한 정확도와 유행의 높은 불균형으로 인한 정확도를 구별하는 데 도움이됩니다.
예를 들어 항상 동일한 결과를 가져 오는 가이드 라인 테스트는 임의의 테스트 쌍보다 특정 화학 물질에 대해 더 이상 반복 할 수 없습니다.
화학적 유사도에 대한 네트워크 효과 증명
일련의 화학물질에 대한 유사체기반
하나의 compunds가 여러 elements의 유사체일 경우 거대한 chemical 셋이 상대적으로 작은 유사체 셋으로 커버될 수 있습니다.
위와 같은 작은 셋에 의한 거대한 셋의 “rapid coverage”를 자주 발생하는데 fingerprinting방법, similarity metric, 가능한 화학구조의 물리적 제약, 이 3가지로 인해 자주 발생합니다.
약 33,000개의 상용 화합물 세트의 범위를 그래픽으로 설명했습니다.(비교적 적은 시도된 화학물질)
이 실험에서 REACH Annex VI Table 3.1 에 있는 1387개 화학물질이 라벨링된 화합물 세트로 취급되고 EINECS의 33,000개 상용물질과 비교되었습니다.
Annex 3.1 화합물은 PubChem 2D 지문의 Tanimoto 70 % 이상 유사도를 나타낼 때 EINECS 화합물의 유사체로 간주되었습니다.
라벨이없는 EINECS 화합물 (파란색)과 매우 유사한 Annex 화합물 (빨간색) 사이의 연결이 표시됩니다. 1387 개의 라벨이 붙은 화학 물질 만 사용함으로써 유사한 이웃을 제공하는 33,000 개의 미지 물질을 처리 할 수 있습니다. 이것은 훨씬 더 큰 (여기서는> 20 * 더 큰) 세트에서 모든 화합물에 대한 유사체를 찾기 위해 상대적으로 적은 수의 화합물이 필요하다는 것을 보여줍니다.
key points
1387개 chemcial을 통해 33,000개의 모르는 물질을 처리
더 큰 세트에서는 상대적으로 적은 수의 화합물로 처리가능.