Machine learning in mate
Propelled partly by the Materials Genome Initiative, and partly by the algorithmic developments and the resounding successes of data-driven efforts in other domains, informatics strategies are beginning to take shape within materials science.
These approaches lead to surrogate machine learning models that enable rapid predictions based purely on past data rather than by direct experimentation or by computations/simulations in which fundamental equations are explicitly solved.
Data-centric informatics methods are becoming useful to determine material properties that are hard to measure or compute using traditional methods— due to the cost, time or effort involved—but for which reliable data either already exists or can be generated for at least a subset of the critical cases.
Predictions are typically interpolative, involving fingerprinting a material numerically first, and then following a mapping (established via a learning algorithm) between the fingerprint and the property of interest. Fingerprints, also referred to as “descriptors”, may be of many types and scales, as dictated by the application domain and needs. Predictions may also be extrapolative—extending into new materials spaces—provided prediction uncertainties are properly taken into account.
This article attempts to provide an overview of some of the recent successful data-driven “materials informatics” strategies undertaken in the last decade, with particular emphasis on the fingerprint or descriptor choices. The review also identifies some challenges the
community is facing and those that should be overcome in the near future.
부분적으로 Materials Genome Initiative에 의해 추진되고, 부분적으로 알고리즘 개발과 다른 영역에서 데이터 기반 노력의 놀라운 성공에 의해 추진 된 정보학 전략은 재료 과학 내에서 구체화되기 시작했습니다.
이러한 접근 방식은 직접적인 실험이나 기본 방정식이 명시 적으로 해결되는 계산 / 시뮬레이션이 아닌 순전히 과거 데이터에 기반한 신속한 예측을 가능하게하는 대리 머신 러닝 모델로 이어집니다.
데이터 중심 정보학 방법은 비용, 시간 또는 노력으로 인해 기존 방법을 사용하여 측정하거나 계산하기 어렵지만 신뢰할 수있는 데이터가 이미 존재하거나 최소한 하위 집합에 대해 생성 될 수있는 재료 특성을 결정하는 데 유용하게 사용되고 있습니다. 중요한 사건의.
예측은 일반적으로 보간 방식으로 재료를 먼저 숫자로 지문을 채운 다음 지문과 관심 속성 간의 매핑 (학습 알고리즘을 통해 설정)을 따릅니다. "설명자"라고도하는 지문은 응용 프로그램 도메인 및 요구 사항에 따라 다양한 유형과 규모가 될 수 있습니다. 예측 불확실성이 적절하게 고려되면 예측은 새로운 재료 공간으로 확장되는 외삽적일 수도 있습니다.
이 기사는 지문 또는 설명자 선택에 특히 중점을두고 지난 10 년 동안 수행 된 성공적인 데이터 중심의 "재료 정보학"전략 중 일부에 대한 개요를 제공하려고합니다. 검토는 또한 몇 가지 문제를 식별합니다
커뮤니티가 직면하고 있으며 가까운 장래에 극복해야 할 것입니다.
OVERARCHING PERSPECTIVES
When a new situation is encountered, cognitive systems (including humans) have a natural tendency to make decisions based on past similar encounters.
When the new situation is distinctly different from those encountered in the past, errors in judgment may occur and lessons may be learned. The sum total of such pastscenarios, decisions made and the lessons learned may be viewed collectively as “experience”, “intuition” or even as “common sense”.
Ideally, depending on the intrinsic capability of the cognitive system, its ability to make decisions should progressively improve as the richness of scenarios encountered increases.
In recent decades, the artificial intelligence (AI) and statistics communities have made these seemingly vague notions quantitative and mathematically precise.1,2 These efforts have resulted in practical machines that learn from past experiences (or “examples”).
Classic exemplars of such machine learning approaches include facial, fingerprint or object recognition systems, machines that can play sophisticated games such as chess, Go or poker, and automation systems such as in robotics or self-driving cars. In each of these cases, a large data set of past examples is required, e.g., images and their identities, configuration of pieces in a board game and the best moves, and scenarios encountered while driving and the best actions.
포괄적 인 관점
새로운 상황이 발생하면인지 시스템 (인간 포함)은 과거의 유사한 만남을 기반으로 결정을 내리는 자연스러운 경향이 있습니다.
새로운 상황이 과거의 상황과 확연히 다른 경우 판단 오류가 발생하고 교훈을 얻을 수 있습니다. 그러한 과거 시나리오, 결정 및 배운 교훈의 합계는 집합 적으로 "경험", "직관"또는 "상식"으로 볼 수 있습니다.
이상적으로는인지 시스템의 내재적 능력에 따라, 직면 한 시나리오의 풍부함이 증가함에 따라 의사 결정 능력이 점진적으로 향상되어야합니다.
최근 수십 년 동안 인공 지능 (AI)과 통계 커뮤니티는 이러한 모호해 보이는 개념을 정량적이고 수학적으로 정확하게 만들었습니다 .1,2 이러한 노력은 과거 경험 (또는 "예")에서 학습하는 실제 기계를 만들었습니다.
이러한 머신 러닝 접근 방식의 전형적인 예로는 얼굴, 지문 또는 물체 인식 시스템, 체스, 바둑 또는 포커와 같은 정교한 게임을 할 수있는 머신, 로봇 공학 또는 자율 주행 자동차와 같은 자동화 시스템이 있습니다. 이러한 각각의 경우, 예를 들어 이미지와 그 신원, 보드 게임의 조각 구성 및 최고의 동작, 운전 중 발생하는 시나리오 및 최고의 행동과 같은 대규모 데이터 세트가 필요합니다.
On the surface, it may appear as though the “data-driven” approach for determining the best decision or answer when a new situation or problem is encountered is radically different from approaches based on fundamental science in which predictions are made by solving equations that govern the pertinent phenomena.
But viewed differently, is not the scientific process itself—which begins with observations, followed by intuition, then construction of a quantitative theory that explains the observations, and subsequently, refinement of the theory based on new observations—the ultimate culmination of such data-driven inquiries?
For instance, consider how the ancient people from India and Sri Lanka figured out, through persistent tinkering, the alloying elements to add to iron to impede its tendency to rust, using only their experience and creativity3,4 (and little “steel science”, which arose from this empiricism much later)—an early example of the reality and power of “chemical intuition.” Or, more recently, over the last century, consider the enormously practical Hume–Rothery rules to determine the solubility tendency of one metal in another,5 the Hall–Petch studies that have led to empirical relationships between grain sizes and mechanical strength (not just for metals but for ceramics as well),6,7 and the group contribution approach to predict complex properties of organic and polymeric materials based just on the identity of the chemical structure,8 all of which arose from data-driven pursuits (although they were not called as such), and later rationalized using physical principles. It would thus be fair to say that data—either directly or indirectly—drives the creation of both complex fundamental and simple empirical scientific theories. Figure 1 charts the timeline for some classic historical and diverse examples of data-driven efforts.
표면적으로는 새로운 상황이나 문제가 발생했을 때 최선의 결정이나 답을 결정하기위한 "데이터 기반"접근 방식이 지배적 인 방정식을 풀어 예측하는 기초 과학 기반 접근 방식과 근본적으로 다른 것처럼 보일 수 있습니다. 관련 현상.
그러나 다르게 보는 것은 과학적 과정 그 자체가 아니다. 관찰에서 시작하여 직감, 관찰을 설명하는 정량적 이론의 구성, 그리고 새로운 관찰에 기반한 이론의 개선, 이러한 데이터의 궁극적 인 정점- 주도적 인 문의?
예를 들어, 인도와 스리랑카의 고대 사람들이 그들의 경험과 창의성만을 사용하여 지속적인 땜질을 통해 철에 첨가하는 합금 원소를 어떻게 알아 냈는지 생각해보십시오. 이 경험주의는 훨씬 늦게 생겨났다)- "화학적 직관"의 현실과 힘의 초기 예. 또는 최근에 지난 세기에 걸쳐 한 금속의 용해도 경향을 결정하기위한 엄청나게 실용적인 Hume-Rothery 규칙, 5 입자 크기와 기계적 강도 사이의 경험적 관계로 이어진 Hall-Petch 연구를 고려하십시오. 금속의 경우도 있지만 세라믹의 경우에도) 6,7 화학 구조의 정체를 기반으로 유기 및 고분자 재료의 복잡한 특성을 예측하기위한 그룹 기여 접근 방식 8 모두 데이터 중심의 추구에서 비롯되었습니다. 그렇게 불리지 않음), 나중에 물리적 원리를 사용하여 합리화됩니다. 따라서 데이터가 직접적이든 간접적이든 복잡한 기본 이론과 단순한 경험적 과학 이론의 생성을 주도한다고 말하는 것이 타당합니다. 그림 1은 데이터 기반 노력의 몇 가지 고전적이고 다양한 사례의 타임 라인을 보여줍니다.
In more modern times, in the last decade or so, thanks to the implicit or explicit acceptance of the above notions, the “data-driven”, “machine learning”, or “materials informatics” paradigms (with these terms used interchangeably by the community) are rapidly becoming an essential part of the materials research portfolio.
The availability of robust and trustworthy in silico simulation methods and systematic synthesis and characterization capabilities, although time-consuming and sometimes expensive, provides a pathway to generate at least a subset of the required critical data in a targeted and organized manner (e.g., via “highthroughput” experiments or computations).
Indeed, such efforts are already underway, which have lead to the burgeoning of a number of enormously useful repositories such as NOMAD (http:// nomad-coe.eu), Materials Project (http://materialsproject.org), Aflowlib (http://www.aflowlib.org), and OQMD (http://oqmd.org).
Mining or learning from these resources or other reliable extant data can lead to the recognition of previously unknown correlations between properties, and the discovery of qualitative and quantitative rules
also referred to as surrogate models that can be used to predict material properties orders of magnitude faster and cheaper, and with reduced human effort than required by the benchmark simulation or experimental methods utilized to create the data in the first place.
With excitement and opportunities come challenges. Questions constantly arise as to what sort of materials science problems are most appropriate for, or can benefit most from, a data-driven approach. A satisfactory understanding of this aspect is essential before one makes a decision on using machine learning methods for their problem of interest. Perhaps the most dangerous aspect of data-driven approaches is the unwitting application of machine learning models to cases that fall outside the domain of prior data. A rich and largely uncharted area of inquiry is to recognize when such a scenario ensues, and to be able to quantify the uncertainties of the machine learning predictions especially when models veer out-of-domain. Solutions for handling these perilous situations may open up pathways for adaptive learning models that can progressively improve in quality through systematic infusion of new data—an aspect critical to the further burgeoning of machine learning within the hard sciences.
This article attempts to provide an overview of some of the recent successful data-driven materials research strategies undertaken in the last decade, and identifies challenges that the community is facing and those that should be overcome in the near future.
더 현대적으로 지난 10 년 동안 위의 개념, "데이터 기반", "머신 러닝"또는 "재료 정보학"패러다임 (이러한 용어는 커뮤니티)는 빠르게 재료 연구 포트폴리오의 필수 부분이되고 있습니다.
견고하고 신뢰할 수있는 인실 리코 시뮬레이션 방법과 체계적인 합성 및 특성화 기능의 가용성은 시간이 많이 걸리고 때로는 비용이 많이 들지만 필요한 중요 데이터의 하위 집합을 표적화되고 조직화 된 방식으로 생성 할 수있는 경로를 제공합니다 (예 : " 높은 처리량”실험 또는 계산).
실제로 이러한 노력은 이미 진행 중이며, NOMAD (http://nomad-coe.eu), Materials Project (http://materialsproject.org), Aflowlib (http://materialsproject.org)와 같은 엄청나게 유용한 저장소가 급증하고 있습니다. http://www.aflowlib.org) 및 OQMD (http://oqmd.org).
이러한 자원 또는 기타 신뢰할 수있는 현존 물에서 채굴 또는 학습
데이터는 속성 간의 이전에 알려지지 않은 상관 관계를 인식하고 정 성적 및 정량적 규칙을 발견 할 수 있습니다.
또한 처음부터 데이터를 생성하는 데 사용되는 벤치 마크 시뮬레이션 또는 실험 방법에서 요구하는 것보다 더 빠르고 저렴하게 재료 특성을 예측하는 데 사용할 수있는 대리 모델이라고도합니다.
흥분과 기회에는 도전이 따릅니다. 어떤 종류의 재료 과학 문제가 데이터 기반 접근 방식에 가장 적합하거나 가장 많은 이점을 얻을 수 있는지에 대한 질문이 끊임없이 발생합니다. 관심있는 문제에 대해 기계 학습 방법을 사용하기로 결정하기 전에이 측면에 대한 만족스러운 이해가 필수적입니다. 아마도 데이터 기반 접근 방식의 가장 위험한 측면은 이전 데이터 영역을 벗어난 사례에 기계 학습 모델을 무의식적으로 적용하는 것입니다. 풍부하고 크게 미지의 영역은 그러한 시나리오가 발생하는시기를 인식하고 특히 모델이 도메인을 벗어날 때 기계 학습 예측의 불확실성을 정량화 할 수있는 것입니다. 이러한 위험한 상황을 처리하기위한 솔루션은 새로운 데이터의 체계적인 주입을 통해 품질을 점진적으로 향상시킬 수있는 적응 형 학습 모델을위한 경로를 열 수 있습니다. 이는 하드 과학 내에서 기계 학습이 더욱 급성장하는 데 중요한 측면입니다.
이 기사는 최근 10 년 동안 수행 된 성공적인 데이터 기반 재료 연구 전략 중 일부에 대한 개요를 제공하고 커뮤니티가 직면 한 문제와 가까운 장래에 극복해야 할 문제를 식별합니다.
ELEMENTS OF MACHINE LEARNING (WITHIN MATERIALS SCIENCE)
Regardless of the specific problem under study, a prerequisite for machine learning is the existence of past data. Thus, either clean, curated and reliable data corresponding to the problem under study should already be available, or an effort has to be put in place upfront for the creation of such data. An example data set may be an enumeration of a variety of materials that fall within a well-defined chemical class of interest and a relevant measured or computed property of those materials (see Fig. 2a). Within the machine learning parlance, the former, i.e., the material, is referred to as “input”, and the latter, i.e., the property of interest, is referred to as the “target” or “output.” A learning problem (Fig. 2b) is then defined as follows: Given a {materials→property} data set, what is the best estimate of the property for a new material not in the original data set? Provided that there are sufficient examples, i.e., that the data set is sufficiently large, and provided that the new material falls within the same chemo- tructural class as the materials in the original data set, we expect that it should be possible to make such an estimate. Ideally, uncertainties in the prediction should also be reported, which can give a sense of whether the new case is within or outside the domain of the original data set.
머신 러닝의 요소 (재료 과학)
연구중인 특정 문제에 관계없이 머신 러닝의 전제 조건은 과거 데이터의 존재입니다. 따라서 연구중인 문제에 해당하는 깨끗하고 선별 된 신뢰할 수있는 데이터가 이미 사용 가능해야하거나 그러한 데이터를 생성하기 위해 사전에 노력을 기울여야합니다. 데이터 세트의 예는 잘 정의 된 관심 화학 등급에 속하는 다양한 재료의 열거와 해당 재료의 관련 측정 또는 계산 된 특성 일 수 있습니다 (그림 2a 참조). 머신 러닝 용어에서 전자 (즉, 자료)는 "입력"이라고하고 후자 (관심 속성)는 "대상"또는 "출력"이라고합니다. 학습 문제 (그림 2b)는 다음과 같이 정의됩니다. {materials → property} 데이터 세트가 주어 졌을 때, 원래 데이터 세트에없는 새로운 재료의 특성에 대한 최상의 추정치는 무엇입니까? 충분한 예, 즉 데이터 세트가 충분히 크고 새로운 재료가 원래 데이터 세트의 재료와 동일한 화학 구조 클래스에 속한다면, 우리는 그렇게 할 수있을 것으로 기대합니다. 추정. 이상적으로는 예측의 불확실성도보고해야하는데, 이는 새로운 사례가 원래 데이터 세트의 도메인 내부 또는 외부에 있는지 여부를 감지 할 수 있습니다.
All data-driven strategies that attempt to address the problem posed above are composed of two distinct steps, both aimed at satisfying the need for quantitative predictions. The first step is to represent numerically the various input cases (or materials) in the data set. At the end of this step, each input case would have been reduced to a string of numbers (or “fingerprints”; see Fig. 2c). This is such an enormously important step, requiring significant expertise and knowledge of the materials class and the application, i.e., “domain expertise”, that we devote a separate Section to its discussion below.
위에 제시된 문제를 해결하려는 모든 데이터 기반 전략은 양적 예측에 대한 요구를 충족하기위한 두 가지 단계로 구성됩니다. 첫 번째 단계는 데이터 세트의 다양한 입력 사례 (또는 재료)를 숫자로 표현하는 것입니다. 이 단계의 끝에서 각 입력 사례는 숫자 문자열 (또는 "지문", 그림 2c 참조)으로 축소됩니다. 이것은 매우 중요한 단계이며, 재료 클래스 및 응용 프로그램에 대한 상당한 전문 지식과 지식이 필요합니다. 즉, "도메인 전문 지식"은 아래에서 논의에 별도의 섹션을 할당합니다.
The second step establishes a mapping between the fingerprinted input and the target property, and is entirely numerical in nature, largely devoid of the need for domain knowledge.
Both the fingerprinting and mapping/learning steps are schematically illustrated in Fig. 2. Several algorithms, ranging from elementary (e.g., linear regression) to highly sophisticated (kernel ridge regression, decision trees, deep neural networks), are available to establish this mapping and the creation of surrogate prediction models.
13–15 While some algorithms provide actual functional forms that relate input to output (e.g., regression based schemes), others do not (e.g., decision trees). Moreover, the amount of available data may also dictate the choice of learning algorithms. For instance, tens to thousands of data points may be adequately handled using regression algorithms such as kernel ridge regression or gaussian process regression, but the availability of much larger data sets (e.g., hundreds of thousands or millions) may warrant deep neural networks, simply due to considerations of favorable scalability of the prediction models with data set size. In the above discussion, it was implicitly assumed that the target property is a continuous quantity (e.g., bulk modulus, band gap, melting temperature, etc.).
Problems can also involve discrete targets (e.g., crystal structure, specific structural motifs, etc.), which are referred to as classification problems. At this point, it is worth mentioning that the learning problem as described above for the most part involving a mapping between the fingerprints and target properties is referred to as “supervised learning”; “unsupervised learning”, on the other hand, involves using just the fingerprints to recognize patterns in the data (e.g., for classification purposes or for reduction of the dimensionality of the fingerprint vector).
두 번째 단계는 핑거 프린팅 된 입력과 대상 속성 사이의 매핑을 설정하며, 본질적으로 완전히 수치 적이며 도메인 지식이 거의 필요하지 않습니다.
핑거 프린팅 및 매핑 / 학습 단계는 모두 그림 2에 개략적으로 설명되어 있습니다. 기본 (예 : 선형 회귀)에서 매우 정교한 (커널 리지 회귀, 의사 결정 트리, 심층 신경망)에 이르는 여러 알고리즘을 사용하여이 매핑을 설정할 수 있습니다. 그리고 대리 예측 모델의 생성.
13–15 일부 알고리즘은 입력과 출력을 관련시키는 실제 기능 형식을 제공하지만 (예 : 회귀 기반 체계) 다른 알고리즘은 제공하지 않습니다 (예 : 의사 결정 트리). 또한 사용 가능한 데이터의 양은 학습 알고리즘의 선택을 지시 할 수도 있습니다. 예를 들어, 커널 능선 회귀 또는 가우스 프로세스 회귀와 같은 회귀 알고리즘을 사용하여 수만에서 수천 개의 데이터 포인트를 적절하게 처리 할 수 있지만 훨씬 더 큰 데이터 세트 (예 : 수십만 또는 수백만)의 가용성은 심층 신경망을 보장 할 수 있습니다. 데이터 세트 크기가있는 예측 모델의 유리한 확장 성을 고려했기 때문입니다. 위의 논의에서 목표 속성은 연속적인 양 (예 : 부피 계수, 밴드 갭, 용융 온도 등)이라고 암시 적으로 가정했습니다.
문제는 분류 문제라고하는 별개의 표적 (예 : 결정 구조, 특정 구조적 모티프 등)도 포함 할 수 있습니다. 이 시점에서 지문과 대상 속성 간의 매핑을 포함하는 대부분의 경우 위에서 설명한 학습 문제를 "지도 학습"이라고합니다. 반면에 "비지도 학습"은 데이터의 패턴을 인식하기 위해 지문 만 사용하는 것을 포함합니다 (예 : 분류 목적 또는 지문 벡터의 차원 감소).
Throughout the learning process, it is typical (and essential) to adhere to rigorous statistical practices. Central to this are the notions of cross-validation and testing on unseen data, which attempt to ensure that a learning model developed based on the original data set can truly handle a new case without falling prey to the perils of “overfitting”.9,15 Indeed, it should be noted here that some of the original and most successful applications of machine learning, including statistical treatments and practices such as regularization and cross-validation, were first introduced into materials research in the field of alloy theory, cluster expansions and lattice models.16–24 These ideas, along with machine learning techniques such as compressive sensing, are further taking shape within the last decade.25,26 Machine learning should be viewed as the sum total of the organized creation of the initial data set, the fingerprinting and learning steps, and a necessary subsequent step (discussed at the end of this article) of progressive and targeted new data infusion, ultimately leading to an expert recommendation system that can continuously and adaptively improve.
학습 과정 전반에 걸쳐 엄격한 통계 관행을 준수하는 것이 일반적이며 필수입니다. 이것의 중심은 보이지 않는 데이터에 대한 교차 검증 및 테스트 개념으로, 원래 데이터 세트를 기반으로 개발 된 학습 모델이 "과적 합"의 위험에 빠지지 않고 새로운 사례를 진정으로 처리 할 수 있도록합니다 .9, 15 실제로, 정규화 및 교차 검증과 같은 통계적 처리 및 실행을 포함하여 기계 학습의 독창적이고 가장 성공적인 응용 프로그램 중 일부가 합금 이론, 클러스터 확장 및 클러스터 확장 분야의 재료 연구에 처음 도입되었습니다. 격자 모델 .16–24 압축 감지와 같은 기계 학습 기술과 함께 이러한 아이디어는 지난 10 년 동안 더욱 구체화되고 있습니다 .25,26 기계 학습은 초기 데이터 세트의 조직화 된 생성의 총합으로 간주되어야합니다. 핑거 프린팅 및 학습 단계, 그리고 점진적이고 표적화 된 새로운 데이터 주입의 필요한 후속 단계 (이 기사의 끝에서 논의 됨), 궁극적으로 전문가로 이어지는 t 지속적이고 적응 적으로 개선 할 수있는 추천 시스템.
Throughout the learning process, it is typical (and essential) to adhere to rigorous statistical practices. Central to this are the notions of cross-validation and testing on unseen data, which attempt to ensure that a learning model developed based on the original data set can truly handle a new case without falling prey to the perils of “overfitting”.9,15
Indeed, it should be noted here that some of the original and most successful applications of machine learning, including statistical treatments and practices such as regularization and cross-validation, were first introduced into materials research in the field of alloy theory, cluster expansions and lattice models.16–4 These ideas, along with machine learning techniques such as compressive sensing, are further taking shape within the last decade.25,26
Machine learning should be viewed as the sum total of the organized creation of the initial data set, the fingerprinting and learning steps, and a necessary subsequent step (discussed at the end of this article) of progressive and targeted new data infusion, ultimately leading to an expert recommendation system that can continuously and adaptively improve.
학습 과정 전반에 걸쳐 엄격한 통계 관행을 준수하는 것이 일반적이며 필수입니다. 이것의 중심은 보이지 않는 데이터에 대한 교차 검증 및 테스트 개념으로, 원래 데이터 세트를 기반으로 개발 된 학습 모델이 "과적 합"의 위험에 빠지지 않고 새로운 사례를 진정으로 처리 할 수 있도록합니다 .9, 15
실제로, 정규화 및 교차 검증과 같은 통계적 처리 및 실행을 포함하여 기계 학습의 독창적이고 가장 성공적인 응용 프로그램 중 일부가 합금 이론, 클러스터 확장 및 격자 분야의 재료 연구에 처음 도입되었다는 점에 유의해야합니다. 이러한 아이디어는 압축 감지와 같은 기계 학습 기술과 함께 지난 10 년 동안 더욱 구체화되고 있습니다 .25,26
기계 학습은 초기 데이터 세트의 조직화 된 생성, 지문 및 학습 단계, 그리고 점진적이고 표적화 된 새로운 데이터 주입의 필요한 후속 단계 (이 기사의 끝에서 논의 됨)의 합계로 간주되어야합니다. 지속적이고 적응 적으로 개선 할 수있는 전문가 추천 시스템입니다.
HIERARCHY OF FINGERPRINTS OR DESCRIPTORS
We now elaborate on what is perhaps the most important component of the machine learning paradigm, the one that deals with the numerical representation of the input cases or materials.
A numerical representation is essential to make the prediction scheme quantitative (i.e., moving it away from the “vague” notions alluded to in the first paragraph of this article). The choice of the numerical representation can be effectively accomplished only with adequate knowledge of the problem and goals (i.e., domain expertise or experience), and typically proceeds in an iterative manner by duly considering aspects of the material that the target property may be correlated with. Given that the numerical representation serves as the proxy for the real material, it is also referred to as the fingerprint of the material or its descriptors (in machine learning parlance, it is also referred to as the feature vector).
지문 또는 설명 자의 계층
이제 머신 러닝 패러다임의 가장 중요한 구성 요소 인 입력 사례 또는 자료의 수치 표현을 다루는 요소에 대해 자세히 설명합니다.
예측 체계를 정량화하려면 수치 표현이 필수적입니다 (즉,이 기사의 첫 번째 단락에서 언급 한 "모호한"개념에서 벗어나도록 이동). 수치 표현의 선택은 문제와 목표 (즉, 도메인 전문성 또는 경험)에 대한 적절한 지식이 있어야만 효과적으로 수행 할 수 있으며, 일반적으로 대상 속성과 관련 될 수있는 재료의 측면을 정당하게 고려하여 반복적 인 방식으로 진행됩니다. . 수치 표현이 실제 자료에 대한 프록시 역할을한다는 점을 감안할 때, 자료의 지문 또는 설명 자라고도합니다 (머신 러닝 용어로 특징 벡터라고도 함).
Depending on the problem under study and the accuracy requirements of the predictions, the fingerprint can be defined at varying levels of granularity. For instance, if the goal is to obtain a high-level understanding of the factors underlying a complex phenomenon—such as the mechanical or electrical strength of materials, catalytic activity, etc.—and prediction accuracy is less critical, then the fingerprint may be defined at a gross level, e.g., in terms of the general attributes of the atoms the material is made up of, other potentially relevant properties (e.g., the band gap) or higher-level structural features (e.g., typical grain size). On the other hand, if the goal is to predict specific properties at a reasonable level of accuracy across a wide materials chemical space—such as the dielectric constant of an insulator or the glass transition temperature of a polymer—the fingerprint may have to include information pertaining to key atomic-level structural fragments that may control these properties. If extreme (chemical) accuracy in predictions is demanded—such as total energies and atomic forces, precise identification of structural features, space groups or phases—the fingerprint has to be fine enough so that it is able to encode details of atomic-level structural information with sub-Angstrom-scale resolution. Several examples of learning based on this hierarchy of fingerprints or descriptors are provided in subsequent Sections.
연구중인 문제와 예측의 정확성 요구 사항에 따라 다양한 수준의 세분화로 지문을 정의 할 수 있습니다. 예를 들어, 재료의 기계적 또는 전기적 강도, 촉매 활동 등과 같은 복잡한 현상의 기본 요소에 대한 높은 수준의 이해를 얻는 것이 목표이고 예측 정확도가 덜 중요하다면 지문은 예를 들어 재료가 구성되는 원자의 일반적인 속성, 기타 잠재적으로 관련있는 특성 (예 : 밴드 갭) 또는 상위 레벨 구조적 특징 (예 : 일반적인 입자 크기)과 관련하여 총 수준에서 정의됩니다. 반면에, 절연체의 유전 상수 또는 폴리머의 유리 전이 온도와 같은 넓은 재료 화학 공간에서 합리적인 수준의 정확도로 특정 속성을 예측하는 것이 목표 인 경우 지문에 정보가 포함될 수 있습니다. 이러한 속성을 제어 할 수있는 주요 원자 수준 구조 조각과 관련이 있습니다. 총 에너지 및 원자 힘, 구조적 특징, 공간 그룹 또는 위상의 정확한 식별과 같은 예측에서 극도의 (화학적) 정확성이 요구되는 경우, 원자 수준 구조의 세부 사항을 인코딩 할 수 있도록 지문이 충분히 미세해야합니다. 옹스트롬 이하의 해상도를 가진 정보. 이 지문 또는 설명 자의 계층 구조를 기반으로 한 학습의 몇 가지 예가 후속 섹션에서 제공됩니다.
The general rule of thumb is that finer the fingerprint, greater is the expected accuracy, and more laborious, more data-intensive and less conceptual is the learning framework. A corollary to the last point is that rapid coarse-level initial screening of materials should generally be targeted using coarser fingerprints. Regardless of the specific choice of representation, the fingerprints should also be invariant to certain transformations.
Consider the facial recognition scenario.
The numerical representation of a face should not depend on the actual placement location of the face in an image, nor should it matter whether the face has been rotated or enlarged with respect to the examples the machine has seen before. Likewise, the representation of a material should be invariant to the rigid translation or rotation of the material. If the representation is fine enough that it includes atomic position information, permutation of like atoms should not alter the fingerprint. These invariance properties are easy to incorporate in coarser fingerprint definitions but non-trivial in finelevel descriptors.
Furthermore, ensuring that a fingerprint contains all the relevant components (and only the relevant components) for a given problem requires careful analysis, for example, using unsupervised learning algorithms.9,15 For these reasons, construction of a fingerprint for a problem at hand is not always straightforward or obvious.
일반적인 경험 법칙은 지문이 더 미세하고 예상되는 정확도가 높으며 더 힘들고 데이터 집약적이며 덜 개념적인 학습 프레임 워크라는 것입니다. 마지막 요점에 대한 추론은 일반적으로 더 거친 지문을 사용하여 재료의 빠른 거친 수준의 초기 스크리닝을 대상으로해야한다는 것입니다. 특정 표현 선택에 관계없이 지문은 특정 변환에도 변하지 않아야합니다.
얼굴 인식 시나리오를 고려하십시오.
얼굴의 수치 표현은 이미지에서 얼굴의 실제 배치 위치에 의존해서는 안되며, 기계가 이전에 본 예와 관련하여 얼굴이 회전 또는 확대되었는지 여부도 중요하지 않습니다. 마찬가지로, 재료의 표현은 재료의 고정 변환 또는 회전에 따라 변하지 않아야합니다. 원자 위치 정보를 포함 할 수있을 정도로 표현이 괜찮다면 유사한 원자의 순열이 지문을 변경해서는 안됩니다. 이러한 불변 속성은 더 거친 지문 정의에 통합하기 쉽지만 미세 수준 설명자에서는 중요하지 않습니다.
또한 특정 문제에 대한 모든 관련 구성 요소 (및 관련 구성 요소 만)가 지문에 포함되도록하려면 비지도 학습 알고리즘을 사용하는 등의주의 깊은 분석이 필요합니다 .9,15 이러한 이유로 당면한 문제에 대한 지문 구성 항상 간단하거나 분명하지는 않습니다.
EXAMPLES OF LEARNING BASED ON GROSS-LEVEL PROPERTYBASED DESCRIPTORS
Two historic efforts in which gross-level descriptors were utilized to create surrogate models (although they were not couched under those terms) have lead to the Hume–Rothery rules5 and Hall–Petch relationships6,7 (Fig. 1). The former effort may be viewed as a classification exercise in which the target is to determine whether a mixture of two metals will form a solid solution; the gross-level descriptors considered were the atomic sizes, crystal structures, electronegativities, and oxidation states of the two metal elements involved. In the latter example, the strength of a polycrystalline material is the target property, which was successfully related to the average grain size; specifically a linear relationship was found between the strength and the reciprocal of the square root of the average grain size. While a careful manual analysis of data gathered from experimentation was key to developing such rules in the past, modern machine learning and data mining approaches provide powerful pathways for such knowledge discovery, especially when the dependencies are multivariate and highly nonlinear.
To identify potential nonlinear multivariate relationships efficiently,
one may start from a moderate number of potentially relevant primary descriptors (e.g., electronegativity, E, ionic radius, R, etc.), and create millions or even billions of compound descriptors by forming algebraic combinations of the primary descriptors (e.g., E/R2, R log(E), etc.); see Fig. 3a, b. This large space of nonlinear mathematical functions needs to be “searched” for a subset that is highly correlated with the target property. Dedicated methodological approaches to accomplish such a task have emerged from recent work in genetic programing, compressed sensing,28,29 and information science.30
전체 수준의 속성 기반 설명자를 기반으로 한 학습의 예
대리 모델을 생성하기 위해 총 수준 설명자를 사용했던 두 가지 역사적 노력은 (그들은 해당 용어로 분류되지 않았지만) Hume-Rothery 규칙 5 및 Hall-Petch 관계 6,7 (그림 1)로 이어졌습니다. 전자의 노력은 두 금속의 혼합물이 고용체를 형성하는지 여부를 결정하는 것이 목표 인 분류 연습으로 볼 수 있습니다. 고려 된 총 수준 설명자는 관련된 두 금속 요소의 원자 크기, 결정 구조, 전기 음성도 및 산화 상태였습니다. 후자의 예에서 다결정 재료의 강도는 평균 입자 크기와 성공적으로 관련된 목표 속성입니다. 특히 강도와 평균 입도 제곱근의 역수 사이에 선형 관계가 발견되었습니다. 과거에는 실험을 통해 수집 된 데이터에 대한 신중한 수동 분석이 이러한 규칙을 개발하는 데 핵심 이었지만, 최신 기계 학습 및 데이터 마이닝 접근 방식은 특히 종속성이 다변량이고 매우 비선형 인 경우 이러한 지식 발견을위한 강력한 경로를 제공합니다.
잠재적 인 비선형 다변량 관계를 효율적으로 식별하려면
잠재적으로 적절한 수의 1 차 설명자 (예 : 전기 음성도, E, 이온 반경, R 등)에서 시작하여 1 차 설명 자의 대수적 조합 (예 : E / R2, R log (E) 등); 그림 3a, b 참조. 이 큰 공간의 비선형 수학 함수는 대상 속성과 높은 상관 관계가있는 하위 집합을 찾기 위해 "검색"해야합니다. 이러한 작업을 수행하기위한 전용 방법 론적 접근 방식은 최근 유전 프로그래밍, 압축 감지, 28,29 및 정보 과학 연구에서 등장했습니다 .30
그림 3 절연체의 고유 전기 파괴 장 예측을위한 현상 학적 모델 구축. a 주요 기능
고유 고장 필드와 관련이있을 것으로 예상 됨; b 복합 특성 생성, 중요 화합물 하위 집합의 하위 선택
LASSO 및 예측 모델 구축을 사용하는 기능; c 이진 옥텟 데이터 세트에 대한 최종 현상 학적 모델 성능 대 DFT 계산 (ref. 31 Copyright (2017) American Chemical Society의 허가를 받아 수정 됨); d 새로운 항복 저항성 페 로브 스카이 트 유형 재료의 식별을위한 모델의 적용 (윤곽선은 MV / m에서 예측 된 항복 필드를 나타내고 모델의 예측 영역은 회색으로 표시됨) (참조 32 Copyright (2017) American 화학 학회)
'화학물질데이터과학연구센터' 카테고리의 다른 글
[ChemDSRC] 환경성질환 예측 과제 활용내용 생각해보기 (0) | 2021.04.19 |
---|---|
[ChemDSRC] it 기술 기초 강의 (0) | 2021.04.08 |
[ChemDSRC]분자독성 네트워크 기반 환경성질환 예측모델 개발 (0) | 2021.03.29 |
[ChemDSRC] 클라우드이용 계획 (0) | 2021.02.24 |