약 15개월간 학부연구생 활동을 하며 여러가지 프로젝트를 시도하였지만 뚜렷한 성과를 낸 것은 처음 참여했던 프로젝트였습니다.
바로 ToxCast Assay Data 기반 MLP 모델 개발이였는데요,
지난 개소기념 심포지움에서 제가 발표한 내용이기도 합니다.
www.hankookilbo.com/News/Read/A2020122414430005877?did=GO
컴퓨터과학부에서 배운 이론과 기술을 가지고 실제적으로 적용해보고 결과물을 보았다는 점에서 저에게 큰 의미가 있었습니다.
ACS 저널의 편집자 추천 주요 논문 (ACS Editors’ Choice)으로 선정
논문링크 : https://doi.org/10.1021/acs.chemrestox.9b00040
기사 : dongascience.donga.com/news.php?idx=31403
이제 핵심 내용에 대해서 영상과 ppt 자료를 이용하여 설명드리도록 하겠습니다.
대한민국 역사상 최악의 화학 참사가 있었습니다. 바로 가습기 살균제 피해였는데요 1500여명이 피해를 입고 239명이 사망했습니다.
CMIT/MIT와 같은 위험한 화하물질 흡입 독성 평가가 제대로 이뤄지지 않은 게 근본적인 원인이였습니다.
그리하여 우리나라에서도 여러가지 화학물질 규제 법안들이 강화되고있습니다. 하지만 등록에 필요한 시험 및 서류가 많아 아직 미등록 미평가 물질이 많습니다.
최근 연구 동향을 보면 기존의 규칙기반의 방법에서 벗어나 AI를 활용하여 좋은 성과를 내는 결과들이 많습니다. 독성을 예측하는데 있어서도 AI를 활용하는 추세이고요, 저희 연구에서는 ‘톡스캐스트’데이터를 이용하여 AI모델을 개발하였습니다.
Assay라는 용어도 등장 할텐데요 독성 데이터베이스의 바이오 어세이 인 비트로 데이터인데 독성의 범주 라고 생각하시면 되겠습니다.
AOP라는 용어도 생소하실텐데요 adverse outcome pathway 독성 발현 경로입니다. 분자수준 초기 현상, 중간 현상, 최종 악 영향 사이의 연결을 뜻하는 것입니다.
연구 내용에 대한 요약은 위와 같습니다.
논문 표지입니다.
연구내용의 전체적인 workflow를 그림으로 표현한 것인데요 총 5개의 스텝입니다.
0단계로 페섬유증을 독성 지표로 하는 aop를 개발을 했고,
1단계, 흡입노출 가능성이 있는 화학물질을 EU-BPR 및 OSHA에 등재된 화학 물질에서 가져왔습니다.
2단계, AOP 206의 MIE 및 KE와 관련된 ToxCast 어세이(assay)를 확인하고25개의 어세이를 선택하였습니다, 각 어세이에 대한 설명은 다음 슬라이드에 있습니다.
3단계, 화학구조에 기반하여 MIE및 Kes 경로 이벤트의 잠재적 활성화를 확인하기 위해 Mlp분류 모델을 개발하여 25개의 Toxcast assay 각각에 대한 모델을 만들었습니다
4단계, 1단계에서 선택한 화학물질중 Tocast어세이에서 시험된 것은 그 결과를 이용하였고 그렇지 않은 것은 mlp모델에서 예측된 값을 이용하였습니다.
5단계, 흡입 노출 정보, ToxCast에서의 실험 결과, 또는 딥 러닝 모델에 의한 예측 결과를 사용하여 활성 어세이의 개수에 따라 잠재적인 흡입 독성 화학 물질을 확인하였습니다.
이제 사용한 모델 구조와 학습 및 검정 프로세스에 대해서 자세히 설명 드리겠습니다.
전체적인 구조는 이렇습니다. 화학구조를 이용해서 활성/비활성 인지 classification 하는 것이기 때문에 구조를 문자열로 표현하는 SMILES를 이용하고 이를 fingerfrint로 변환하였습니다. 활성데이터가 5%정도인 Imbalanced데이터였기 때문에 smote알고리즘을 이용해서 oversampling하였고 2개의 은닉층을 이용해서 뉴럴넷을 학습시켰습니다. 샘플사이즈가 8000정도였기 때문 성능은 5겹 교차검증을 이용하였습니다.
구조를 이용하여 독성을 예측하는 모델을 QSAR고 합니다. 이에 대해서 직관적으로 이해할 수 있는데요 예시를 통해 알아보도록 하겠습니다. python에서 rdkit이라는 libaray를 이용하면 화학물질 구조 비교를 grpahically하게 수행할 수 있는데요 그림을 보시면 초록색으로 표현된 부분이 ligand 그룹간에 공유되는 경향이 있는 구조이구요 보라색으로 표현된 부분이 공유되지 않는 경향이 있는 구조입니다.
분자구조를 모델에 입력하기 위해서 인코딩을 해야하는데요. 크게 3가지 방법이 있습니다. 1. 문자열로 표현하는 방법 2. 분자 구조를 그림 자체로 해석 3.분자 구조로부터 양자 역학적인 계산 결과를 기반 으로 추출된 구조 및 양자 특성값을 설명 인자로 사용 하는 것이 있는데요 이 모델에서는 데이터가 풍부하고 빠르게 진행가능한 smiles를 이용하였습니다.
SMILES는 기존의 분자식보다 컴퓨터에다루기 편한 표현 방법인데요 이런식으로 자연어와 유사한 기호드를 이용해서 분자 구조를 나타내기 때문에 인기가 있습니다.
스마일즈를 fingerfrin라는 것으로 벡터화하는 과정을 또 거치는데 fingerfrint는 화합물 구조의 특징을 이진법화한 벡터입니다.
morgan fingerfrint는 생성할때 직경을 정할 수 있는데 0이면 작은단위로 구조를 나눠서 벡터화 하구요 직경이 커질수록 큰단위로 나눠서 벡터화 합니다.
이렇게 분자구조 를 radius = 2인 morgan fingerfrint로 변환하면 2048차원의 벡터가 나오는데 이를 신경망에 input 으로 주어서 학습을 시킵니다. 은닉층은 2개이고 최종 output은 0 or 1 입니다
모델성능은 confusion martrix 를 이용하여 평가하였습니다
603가지 화학 물질 중 299가지 화학 물질에 AOP 206의 적어도 하나의 사건에서 활성 화학 물질로 확인되었습니다.
활성을 보인 어세이의 개수에 따라 ToxCast에서 확인된 10가지의 물질과 딥러닝에서 확인된 10가지의 물질을 독성 테스트 우선 순위 물질로 확인하였습니다.
Chemcial Watch, 동아사이언스 등 주요 일간지에 기재되었습니다.
github.com/UOSEST/Jeong-et-al-2019-CRT-ToxCast-AOP206
'AI 독성예측' 카테고리의 다른 글
[AI 독성예측] 독성예측 툴 (0) | 2021.03.05 |
---|---|
[python] python으로 ipynb파일 수정하기 (0) | 2021.03.03 |
[AI 독성예측] rdkit에서 사용할 수 있는 molecular Descriptor에 대하여 (0) | 2021.02.26 |
[AI독성예측] ChemoPy : freely available python package for computationalbiology and chemoinformatics (0) | 2021.02.08 |
[AI독성예측] TOX21 Data Challenge Review (0) | 2021.02.01 |