본문 바로가기

전체 글

(88)
smote vs smoteenn SMOTEENN(SMOTE+ENN) smote를 적용 안한게 오히려 성능이 좋은 이유는? smote가 적용이 잘못 된 것인가? 그렇다. smote를 잘못 적용 한 것이다. pycaret 2.2.0문서 : pycaret.readthedocs.io/en/latest/api/classification.html Classification — pycaret 2.2.0 documentation Degree of polynomial features. For example, if an input sample is two dimensional and of the form [a, b], the polynomial features with degree = 2 are: [1, a, b, a^2, ab, b^2]. Ignore..
[LINUX] 1-1 System Programming 소개 시스템 프로그래밍 System call - 운영체제가 제공하는 서비스 - 응용 프로그램은 정해진 방식에 따라서비스를 호출 - Linux는 300여개의 시스템 호출을 제공 - i386아키텍처의 경우 eax 레지스터에 시스템 호출 번호를 저장하고 int 0x80을 호출 - 기타 매개 변수는 ebx,ecx,edx,esi,edi에 저장 - 매개 변수가 5개보다 많으면, 마지막 레지스터는 매개 변수가 저장된 메모리 블록을 가리킴 CPU안 레지스터에 시스템 호출 블록을 넣는다.(원하는 호출블록을 다 집어넣음) , "인터럽트" 형태로 운영체제에게 부탁하고 돌아오는 것. 레지스터 5개에 사용자가 바라는 작업과 augment를 준다. C compiler - Linux 는 gcc(Gnu Compiler Collection..
[LINUX] 1.LINUX 소개 UNIX 역사 - 1969년 Research Group at Bell Laboratories의 연구원이던 Ken T hompson 과 Dennis Ritchie가 개발(MULTICS) - v3(the third version)부터 고급 언어(c)로 작성됨 - AT&T에서 지속적으로 개발 : eg) SVR.2ESMP - BSD : University of California at Berkeley 에서 개발 DARPA에서 지원 : 정부에서 사용 목적. 그 결과 4BSD VAX용 4.3BSD - CMU's MACH 마이크로 커널 구조 -windows, Mac OS/X 등에 영향 Linux Solaris, Tru64, FreeBSD5.1 UNIX 철학 - Simple is Beautiful. - 고급 언어로 작..
[AI독성예측] 3. 논문분석 An Overview of Machine Learning and Big Data for Drug Toxicity Evaluation ABSTRACT 약물 독성평가는 약물개발의 필수 과정 --> 30%나 차지 ABSTRACT Drug toxicity evaluation is an essential process of drug development as it is reportedly responsible for the attrition of approximately 30% of drug candidates. The rapid increase in the number and types of large toxicology data sets together with the advances in computational methods may be used to improve many steps in drug safety evaluation. T..
[AI 독성예측] 벤치마크논문분석 : Structure–activity relationship-basedOpen Accesschemical classification of highly imbalanced Tox21 datasets 독성 불균형 데이터를 처리하는 방법에 초점을 맞춘 논문. 문제점 undersampling을 하면 정보손실의 위험 interpolation을 해서 활성데이터를 더 생성하면. 종종 비활성(다수)샘플 공간으로 가게 되어 클래스가 겹치게됨 ---> 잘못 예측 할 확률이 높아짐. tox21데이터 세트에 SMOTE와 ENN알고리즘을 결합한 SMOTEENN(SMN)을 사용하여 오버샘플링함 SAR모델링에서 data imbalance 문제 해결방안 1. data level --> undersampling & oversampling 2. algorithm level --> 모델을 소수 계층으로 편향시키는 cost sensitivity를 유도함. MCP(Mondrian Conformal Prediction) : reliab..
[LG SMILES경진대회]PBRH-solution 베이스라인 모델은 LSTM과 attention mechanism을 적용한 이미지 캡셔닝 방법. --> 몇가지 제한사항이 존재함 - 같은 분자임에도 불구하고 SMILES 순서가 다를 수 있다. backbone network란 무엇인가? transper learning시에 resnet모델같은 base모델을 backbone모델이라고 함. Region Proposal Network란 ? curt-park.github.io/2017-03-17/faster-rcnn/ [분석] Faster R-CNN Paper study of Faster R-CNN published in Jan. 2016 curt-park.github.io PBRH
[AI독성예측] 벤치마크논문분석 : Deep Learning-Based Structure-Activity Relationship Modeling for Multi-Category Toxicity Classification: A Case Study of 10K Tox21 Chemicals With High-Throughput Cell-Based Androgen Receptor Bioassay Data tox21 데이터를 이용하여 Multi-Category Toxicity Classification한것 in silico predictve toxicology 에서 DL의 우수성을 확인하기 위함, TOX21 에서 사용된 두개의 세포 기반 androgen receptor(AR)데이터셋을 사용함. agonist(작용제), antagonist(길항제), inactive, inconclusive agonist(작용제)? 특정 화학물질이 androgen(AR) receptor에서 붙어서 안드로겐이 작용하는 프로세스가 발생하면 그 화학물질은 agonist(작용제)라고 함. antagonist(길항제)? 특정 화학물질이 androgen(AR) receptor에서 붙어서 안드로겐이 작용하는 프로세스가 멈추면 그 화학물질..
[AI독성예측] jCompoundMapper: An open source Java libraryand command-line tool for chemical fingerprints Decompostion of a chemcial graph : 특정 유기 화합물의 정보를 인코딩하는 편리한 방식. --> 이를 정확하게 하기 위한 libaray도입 Popular fingerfrint 알고리즘을 구현 DFS fingerfrint extended connectivity fingerprints autocorrelation fingerprints(CATS2D) radial fingerprints(Molprint2D) geometrical Molprint atom pairs pharmacophore fingerfrint 사용자 지정 지문도 구현 : 최단 경로의 하위 집한만 포함하는 지문. 명령 줄 실행 가능한 바이너리 제공. ames 독성 벤치 마크란? LPGL software license란?