Multi-objective latent space optimization of generative molecular design models

Introduction

QSAR 모델과 drug design의 가속화

논문에서는 QSAR(Quantitative Structure-Activity Relationship) 모델의 개발이 약물 설계 과정을 가속화하였다고 설명하고 있다. 그러나 chemical space에서의 direct optimization을 통해 원하는 drug properties를 가진 molecule을 설계하는 것은 domain의 high dimensionality 때문에 어렵다고 이야기한다.

HTS(High-Throughput Screening) 시스템 기반 drug discovery 또한 방대한 candidate pool을 screening하기 위한 computational cost가 매우 크다는 한계가 있다고 지적한다. 더불어 computational HTS pipeline은 전문가 직관과 휴리스틱에 의존하기 때문에 optimization 성능이 미달된다고 설명한다. 또한 drug discovery는 서로 충돌할 수 있는 여러 properties를 동시에 고려해야 하는 multi-objective optimization 문제이므로 design challenge가 더 심화된다고 주장한다.

VAE 기반 접근법

논문에서는 Gómez-Bombarelli et al.의 연구를 대표적인 사례로 소개한다. SMILES 표현으로 주어진 input molecule을 continuous lower-dimensional representation으로 변환하기 위해 VAE(Variational Autoencoder)를 사용하는 방식이다. High-dimensional이며 discrete한 chemical space를 lower-dimensional이고 continuous한 latent space로 mapping하여, latent space에서 numerical optimization을 수행함으로써 target attributes를 강화하는 molecule을 추구할 수 있다고 설명한다.

Optimization 기법과 generative model의 효율성

논문에서는 latent space에서의 optimization을 위해 GP(Gaussian Process), GA(Genetic Algorithm), randomized search 등이 활용되었다고 정리한다. Winter et al.은 multi-objective molecular optimization을 위해 PSO(Particle Swarm Optimization)를 도입하였으며, 여러 property를 동시에 optimization하기 위해 scalarization을 수행하였다고 소개한다.

다만 Gómez-Bombarelli et al.에 따르면 generative model이 항상 valid molecular structure를 제안하지는 않는다고 한다. 이러한 현상은 molecule을 나타내는 data point가 train data가 위치한 region에서 멀리 떨어진 latent space의 region에서 sampling될 때 발생한다고 설명한다.

JT-VAE (Junction-Tree VAE)

논문에서는 GMD(Generative Molecular Design)의 단점을 처리하기 위해 desirable attributes를 가진 optimized molecule의 탐색을 constrained BO 문제로 formulation할 수 있다고 이야기한다. 이를 통해 generative model이 생성하는 novel molecules의 validity가 향상된다고 보고한다.

JT-VAE는 두 단계 접근법을 통해 이 문제를 해결한다고 설명한다.

  • 첫 번째 단계: molecular graph의 구조를 나타내는 junction-tree를 생성한다. 이 junction-tree는 train data로 학습한 valid subgraph 구조의 relative arrangement를 명시한다.
  • 두 번째 단계: chemical substructure에 해당하는 subgraph를 junction-tree에 따라 결합하여 final molecular graph를 얻는다. 결과적으로 JT-VAE는 latent space에서 해석 가능한 molecule로 decoding될 수 있는 새로운 molecule을 제안할 수 있다고 주장한다.

SSVAE (Semi-Supervised VAE)

논문에서는 VAE를 원하는 property value로 conditioning하여 target attribute를 가진 novel molecule을 생성할 수 있다고 설명한다. Kang and Cho가 제안한 SSVAE는 property prediction과 molecular generation을 동시에 수행하여, latent space에서 원하는 properties를 중심으로 하는 molecule을 제안하도록 모델을 조절하는 결과를 얻었다고 소개한다.

RL 기반 generative network fine-tuning

논문에서는 generative network를 pretrain한 후 RL(Reinforcement Learning)로 fine-tuning하는 접근법도 소개하고 있다.

  • ORGAN(Objective-Reinforced Generative Adversarial Network): 더 나은 properties를 가진 molecular generation에 대한 reward가 latent space distribution을 안내하는 loss function에 통합된다.
  • MolDQN(Molecule Deep Q Network): training dataset에서 발생할 수 있는 potential bias를 줄이기 위해 제안된 접근법이다. Molecular generation problem을 MDP(Markov Decision Process)로 formulation하고, 주어진 MDP에 대한 optimal design policy를 찾기 위해 DQN을 사용한다. MDP에서 허용되는 action은 domain knowledge(예: chemical reaction)에 의해 지시되어 생성된 molecule의 validity를 보장한다고 설명한다. 다만 multi-objective optimization을 위해 scalarization에 의존한다는 한계가 있다.

Generative model의 한계와 train data 확장

논문에서는 generative molecular model의 초기 제안 능력이 train data에 의해 결정되며, 생성된 molecule은 original train set과 유사한 chemical space에 위치하게 된다는 한계가 있다고 이야기한다. 이를 해결하기 위한 여러 iterative retraining 접근법이 제안되었다고 정리한다.

  • Yang et al.: latent space에서 generated molecule의 quality 개선을 위해 iterative retraining approach를 제안하였다.
  • Iovanac et al.: Grammar VAE를 이용하여 target property region에서 new molecule을 sampling하는 방식을 제시하였다.
  • Liu et al.: GAN의 generator를 iteratively update하는 방식을 제안하였으며, 문법적으로 올바른 input sequence 또는 합법적인 구조의 region 내에서 optimization을 안내하기 위해 validity function을 사용하였다.
  • Tripp et al.: VAE의 latent space를 reshape하여 향상된 properties를 가진 novel molecule를 생성하는 데 효율적인 weighted retraining 접근법을 제안하였다. Training dataset의 data point에 할당된 weight는 관심 있는 property를 평가하는 objective function에 따라 해당 molecule의 rank로 결정된다고 설명한다. 또한 GA를 이용해 initial training data로부터 improved candidates를 생성하고, high-throughput experiment 또는 simulation을 통해 property를 검증한 뒤 augmented data로 DNN property predictor를 재훈련하는 접근법도 있다고 소개한다. 다만 GA로 생성된 candidates는 train data와 유사하여 novelty가 제한되며, candidate pool이 커질 때 평가의 computational cost가 매우 높아지는 단점이 있다고 지적한다.

Multi-objective 접근법의 한계

논문에서는 drug candidate가 동시에 만족해야 할 design criteria가 다양하다고 설명한다. Specific biomolecular target에 개입하는 능력뿐 아니라 bioavailability에 기여하는 다양한 physiochemical property가 함께 평가되어야 한다는 것이다. 기존 generative molecule design에서는 multi-objective optimization을 주로 scalarization으로 처리하지만, weight 선택이 ad hoc하게 이루어져 optimization 과정이 일부 objective에 의해 지배될 수 있다는 한계가 있다고 주장한다.

논문에서는 multi-objective drug discovery를 다루는 여러 기존 연구도 소개한다.

  • RationaleRL (Jin et al.): policy gradient로 fine-tune된 VAE를 사용해 multi-property rationale에 해당하는 incomplete subgraph로부터 molecule을 생성한다. 다만 모든 properties를 만족시키는 training sample이 부족할 수 있다는 실용적 한계가 있다고 지적한다.
  • MARS (Markov Molecular Sampling): multi-objective drug discovery 문제를 iterative graph-editing 과정으로 정의하고, multi-property scoring function을 결합한 target distribution으로부터 MCMC sampling을 통해 고득점 후보를 식별한다. 그러나 target distribution이 scoring function의 합 또는 곱으로 정의되어 scalarization 기반 접근법과 유사한 단점을 가진다고 설명한다.
  • Langevin Diffusion (Feng et al.): pretrained autoencoder 내에서 stochastic generator로 latent embedding을 생성하며, multi-property 기반 reference molecules에 의해 주도된다고 소개한다.

Contribution

논문에서는 위와 같은 한계를 해결하기 위해 MO-LSO (Multi-Objective Latent Space Optimization) scheme를 제안한다. 주요 기여는 다음과 같이 요약된다.

  • 기존 weighted retraining framework(Tripp et al.)를 확장하여 multi-target properties를 동시에 개선하는 latent space sampling을 가능하게 하는 새로운 방법을 제안하였다.
  • Pareto-based ranking: NDS(Non-Dominated Sorting)를 사용하여 molecule을 평가하고, 이를 기반으로 training data를 augmentation하는 방식을 도입하였다.
  • Ad hoc scalarization 없이 multiple properties 간 trade-off를 자연스럽게 조율할 수 있다고 주장한다.
  • DRD2(Dopamine Receptor D2) inhibitory molecule 설계에 적용하여, in silico analysis를 통해 기존 DRD2-inhibitory molecules보다 우수한 molecule 생성 가능성을 입증하였다고 보고한다.

Method: MO-LSO Scheme

Overall pipeline

논문에서 제안하는 MO-LSO scheme의 전체 흐름은 다음 Figure 1과 같다.

전체 절차는 다음과 같이 구성된다.

  1. Step 1: 초기 training dataset을 사용하여 baseline JT-VAE model을 학습한다.
  2. Step 2: 관심 있는 multi-property에 대해 Pareto front ranking을 계산하고, 상위 ranking molecule에 더 큰 weight를 부여한 reweighted dataset으로 JT-VAE를 retraining한다.
  3. Step 3: retrained model의 latent space에서 sampling 또는 optimization을 통해 enhanced properties를 가진 novel molecule을 제안한다.
  4. Step 4: 선별된 top molecules를 사용하여 training dataset을 augmentation한다.
  5. Step 2–4를 반복하여 iterative retraining을 수행한다.

Non-Dominated Sorting과 Pareto ranking

논문에서는 multi-objective optimization에서 모든 objective를 동시에 최적화하는 single solution이 존재하지 않을 수 있음을 지적한다. 이를 해결하기 위해 Pareto optimality 개념을 도입한다.

K개의 objective function $f_1(x), \ldots, f_K(x)$를 모두 maximize한다고 가정할 때, 점 $x_i$가 점 $x_j$를 dominate한다는 것은 다음과 같이 정의된다.

  • 모든 $k$에 대해 $f_k(x_i) \geq f_k(x_j)$이고,
  • 적어도 하나의 $k$에 대해 $f_k(x_i) > f_k(x_j)$이다. Pareto optimal point는 다른 어떤 점에도 dominate되지 않는 점이며, 이러한 점들의 집합이 Pareto front를 형성한다고 설명한다.

논문에서는 Pareto front를 반복적으로 “peel off”하는 ranking 절차를 다음 pseudo code로 제시한다.

Algorithm 1. Find the Pareto front (non-dominated set)

Require: N data points with their objective scores
Initialize P' = {1, 2, 3, ..., N}    # 비지배 점 집합
i ← 1
 
while i ≤ |P'| do
    k ← 0
    for each j ∈ P' and j ≠ i do
        if x(j) does not dominate x(P'(i)) in any objective then
            P' ← P' \ {j}
        else if j < i then
            k ← k + 1
        end if
        i ← k + 1
    end for
end while
  • 입력은 N개의 data point와 각 point의 K개 objective score이다.
  • 초기에는 모든 point를 비지배 집합 P’의 후보로 둔다고 설명할 수 있다.
  • Outer loop는 P’ 안의 각 후보 i에 대해 다른 모든 j를 비교하여, i를 dominate하지 못하는 j를 P’에서 제거하는 과정이라고 볼 수 있다.
  • 최종적으로 P’에 남아 있는 점들이 현재 dataset의 Pareto front를 구성한다고 설명하고 있다.

Algorithm 2. Pareto front ranking

Require: N data points with their objective scores
Initialize P = {1, 2, 3, ..., N}, j = 1
 
while |P| ≠ 0 do
    Step 1: Algorithm 1을 사용하여 P에서 비지배 집합 P'를 찾는다
    Step 2: P_j ← P', P ← P \ P', j ← j + 1
end while
  • Step 1에서는 현재 dataset P에 대해 Algorithm 1을 호출하여 첫 번째 Pareto front P’를 식별한다고 설명하고 있다.
  • Step 2에서는 식별된 P’를 j번째 Pareto front로 저장하고 dataset에서 제거하여 다음 layer를 찾을 준비를 하는 과정이라고 볼 수 있다.
  • Outer loop가 종료될 때까지 반복하면, dataset 전체가 disjoint한 Pareto front들 $P_1, P_2, \ldots, P_S$로 분할된다고 이야기한다. 이 과정을 시각화한 결과는 다음 Figure 9와 같다.

논문에서는 j번째 Pareto front에 속한 모든 점에 대해 다음과 같은 ranking을 부여한다고 설명한다.

\[\text{rank}_D(x) = \sum_{i=1}^{j-1} |P_i|, \quad \forall x \in P_j \tag{1}\]

Weighted retraining based on Pareto ranking

논문에서는 Tripp et al.의 weighted retraining scheme을 multi-objective로 확장한다. 각 data point $x$에 대한 weight는 다음과 같이 정의된다.

\[w(x, k, D) = \frac{1}{kN + \text{rank}_D(x)} \tag{2}\]
  • $k$는 ranking이 weight에 미치는 영향력을 조절하는 hyperparameter이다.
  • $k$가 크면 weight distribution이 더 uniform해지고, $k$가 작으면 high-rank molecule 소수에 큰 weight가 집중된다.
  • $N = |D|$는 training set의 크기이다. 논문에서는 더 높은 Pareto ranking을 가진 (즉, 더 작은 $\text{rank}_D(x)$를 가진) molecule이 더 큰 weight를 받아 retraining 과정에서 더 큰 영향을 미친다고 설명한다.

Iterative retraining 절차

논문에서 제시한 iterative retraining 절차는 다음과 같이 정리된다.

  1. 초기 dataset $D_{\text{train}} = D_0$, $D_{\text{new}} = \varnothing$로 시작한다.
  2. $D_{\text{train}}$의 모든 분자에 식 (2)의 weight를 적용하여 weighted retraining을 수행한다.
  3. Retrained model의 latent space에서 250개의 random molecule을 생성하고, 상위 20%를 선택해 $D_{\text{new}}$에 추가한다.
  4. Training dataset을 다음과 같이 업데이트한다. \(D_{\text{train}} \leftarrow \bar{D}_0 \cup D_{\text{new}} \tag{3}\)

여기서 $\bar{D}_0$는 initial training dataset의 무작위 10% 서브셋이다. 논문에서는 이러한 random down-selection이 latent space를 desirable direction으로 이동시키는 데 필요한 computational cost를 줄이기 위함이라고 설명한다.

  1. 위 cycle을 사전에 정한 횟수(논문에서는 10 iteration) 또는 stopping criterion까지 반복한다.

Optimization 방식

논문에서는 latent space에서 novel molecule을 생성하기 위해 두 가지 방식을 고려하였다고 설명한다.

  • Random sampling: 250개의 random molecule을 생성한 후 Pareto ranking 기반 상위 50개를 선별한다.
  • SOBO (Single-Objective Bayesian Optimization): SOBO를 사용하여 50개의 molecule을 생성하고 unique한 sample만 선별한다.

Experiment

Molecular properties

논문에서는 다음 네 가지 molecular property를 활용한다고 설명한다.

Property 설명 최적화 방향
logP water-octanol partition coefficient (lipophilicity) Maximize
SAS synthetic accessibility score Minimize
NP score natural product-likeness score Maximize
DRD2 inhibition dopamine receptor D2 inhibition probability Maximize

logP와 SAS는 RDKit으로 계산하고, NP score는 Ertl et al.의 방법을 사용한다고 설명한다. DRD2 inhibition 확률은 ML surrogate model로 추정한다고 보고한다.

DRD2 activity classifier

논문에서는 Olivecrona et al.의 ML surrogate model을 사용하였다고 설명한다. RBF kernel($\gamma = 2^{-6}$)을 가진 binary SVM classifier이며, RDKit으로 계산된 Morgan fingerprint(radius 3, FCFC6)를 input feature로 사용한다. 7,218개의 active molecule과 100,000개의 inactive molecule로 학습되었으며, regularization parameter $C = 2^7$을 사용한다고 보고한다. 분류기의 성능은 다음 Table 1과 같다.

Dataset Accuracy AUC Precision Recall
Train 0.9998 0.9999 0.9969 1.0
Validation 0.9807 0.8745 0.9747 0.7498
Test 0.9842 0.9074 0.9770 0.8178

Model 및 dataset 설정

  • Model: Tripp et al.이 공유한 pre-trained JT-VAE를 사용한다.
  • Dataset: ZINC dataset을 사용한다.
    • Train: 218,969 molecules
    • Validation: 24,333 molecules
  • Retraining 설정: 각 weighted retraining 이후 250개의 new molecule을 random sampling하고, Pareto front rank에 따라 상위 $r = 50$개의 candidate를 선별한다.

Results

Property distribution의 evolution

논문에서는 logP를 maximize하고 SAS를 minimize하는 property pair에 대해 다양한 $k$ 값을 사용하여 weighted retraining을 10회 반복한 결과를 보고한다. 각 retraining iteration에서 latent space로부터 1,000개의 molecule을 무작위로 sampling하여 property distribution을 시각화하였다고 설명한다.

논문의 주요 관찰은 다음과 같다.

  • Retraining cycle이 진행될수록 logP distribution은 원하는 방향(증가)으로, SAS distribution은 원하는 방향(감소)으로 이동한다고 보고한다.
  • 작은 $k$ 값일수록 property distribution의 이동이 더 빠르고 두드러진다고 설명한다.
  • 다만 $k = 10^{-5}$ 또는 $10^{-6}$처럼 매우 작은 $k$ 값에서는 retraining 후 property distribution이 bimodal 또는 multi-modal로 나타난다고 지적한다. 이는 model이 Pareto front 상의 소수 high-scoring molecule에 집중하여 latent space를 학습하기 때문이며, 결과적으로 생성 분자의 diversity가 제한되는 trade-off가 발생한다고 설명한다.

Structural diversity의 trade-off

논문에서는 ECFC4 (Extended Connectivity Fingerprint) 기반 average structural distance로 diversity를 측정하였다고 보고한다. $k$ 값이 작을수록 structural diversity가 감소하는 경향이 관찰되었다고 설명한다. 이는 작은 $k$가 high-ranking molecule 소수 그룹에 큰 weight를 부여하여 model이 retraining 동안 해당 그룹을 더 자주 보게 되기 때문이라고 해석한다.

Incomplete dataset에서의 recovery 능력

논문에서는 weighted retraining scheme이 training data에 high-scoring molecule이 없는 상황에서도 high-scoring molecule을 제안할 수 있는지 확인하였다. 이를 위해 각 property pair에 대해 Pareto front rank 기준 상위 20% molecule을 training data에서 제거한 후 별도의 baseline model을 학습하였다고 설명한다. Learning rate 0.0007, batch size 32, 30 epoch으로 model을 훈련하였다고 보고한다.

논문의 결과 해석은 다음과 같다.

  • 상단 행은 complete dataset을 사용한 경우의 Pareto front evolution을 보여준다.
  • 하단 행은 상위 20% molecule이 제외된 reduced dataset의 경향을 보여준다.
  • Reduced dataset에서 초기 dataset에 logP > 4, SAS < 2인 molecule이 거의 없음에도, iterative multi-objective weighted retraining이 latent space를 high-scoring region으로 효과적으로 이동시킴을 보고한다.
  • 두 경우 모두 optimized model이 initial pretrained model에 비해 더 큰 hypervolume을 달성했다고 설명한다.

DRD2 inhibitor 설계: 더 도전적인 시나리오

논문에서는 더 도전적인 시나리오로 DRD2 inhibition과 logP, SAS, NP score 중 하나의 pairwise optimization을 수행하였다고 설명한다. Training dataset은 본래 DRD2 inhibitory molecule이 매우 적은 imbalanced 상태이며, 상위 20%를 제거하면 active DRD2 inhibitor가 거의 남지 않게 된다. 따라서 baseline model은 DRD2 inhibitor에 대한 사전 지식 없이 시작하게 되며, MO-LSO가 완전히 unexplored region으로 latent space를 유도해야 한다.

논문의 결과 해석은 다음과 같다.

  • 첫 번째 plot은 상위 20%가 제거된 training data의 distribution이다.
  • 두 번째 plot은 baseline model로부터 sampling된 1,000개 molecule의 property distribution이다.
  • 세 번째–다섯 번째 plot은 각각 1, 5, 10번째 weighted retraining 후의 distribution이다.
  • 초기에는 DRD2 inhibitor가 거의 없음에도 10번째 retraining 이후에는 상대적으로 많은 inhibitor가 관측되며, SAS distribution도 더 작은 값으로 치우치는 것을 확인하였다고 보고한다.

In silico analysis of designed DRD2 inhibitors

논문에서는 structure-based rational design에 익숙한 관점에서 보면 structurally unaware한 방식으로 active molecule을 design하는 것이 우려스러울 수 있음을 인정한다. 다만 SVM model이 active/inactive compound 수천 개를 학습하면서 pocket의 가능한 contact를 충분히 sampling하여 필요한 정보를 implicit하게 encoding하였다고 설명한다.

생성된 분자 중 두 개의 compound가 가장 낮은 docking energy를 보였다고 보고한다.

  • Compound A: CC(CNC1CC(C2CC2)N(C2CC2)C1)c1cccc(F)c1
    • Docking 기준 crystal ligand 대비 $-3.43\,\text{kcal/mol}$ 낮은 에너지
    • MM-GBSA 기준 $-3.78\,\text{kcal/mol}$ 낮은 에너지
    • MD simulation 동안 stable하고 unstrained interaction을 보여주었다고 보고한다.

MD simulation 설정

논문에서는 MD simulation 설정을 다음과 같이 설명한다.

  • Membrane: Dibenzyl 3,5-pyridinedicarboxylate (DPPC)
  • Water model: TIP4PEW
  • Salt: physiological levels of NaCl
  • Simulation tool: Desmond
  • Force field: OPLS4
  • Temperature: 310.15 K
  • Duration: 15 ns 및 100 ns 100 ps minimization 이후 Desmond와 OPLS4 force field로 simulation을 수행하였으며, Glide grid는 time 14.98 ns 시점과 original crystal structure로부터 생성되었다고 설명한다. Glide XP는 sampling과 pose minimization이 native ligand의 crystal position을 가장 잘 재현하여 사용되었다고 한다.

Docking & MM-GBSA

논문에서는 생성된 분자를 Ligprep(Schrodinger 2021.3)으로 chiral center 주변에서 pH $7.4 \pm 2.0$ 범위로 enumerate 하고, 6CM4 crystal structure를 Protein Preparation Tool로 pH 7.4에서 준비하였다고 설명한다.

신규 ligand는 667개의 inactive bait compound 및 두 개의 non-reverse agonist DRD2 ligand(domperidone, L-741626)와 함께 docking되었다. Risperidone-bound structure가 traditional antagonist의 docking에 불리할 가능성이 있었으나, domperidone과 L-741626 모두 low-energy pose를 달성하여 그러한 우려가 근거 없음이 확인되었다고 보고한다.

Docking 결과 compound A와 compound B가 crystal ligand를 포함한 모든 compound 중 가장 낮은 에너지를 달성하였다. MD simulation은 15 ns 동안 수행되어 예측된 conformation의 stability와 relevant contact 유지 여부가 평가되었다고 설명한다. Schrodinger Prime MM-GBSA 계산은 crystal ligand의 가장 낮은 docking score를 가진 pose와 같거나 그에 상응하는 모든 compound/pose에 대해 수행되었다고 보고한다.

Binding pose 분석

논문에서는 compound A의 binding pose가 다음과 같은 특징을 가진다고 설명한다.

  • W386과 ligand의 6원환 사이의 전형적인 aromatic interaction이 관찰된다.
  • Ligand의 질소(N)에서 D114의 산소(O)로 향하는 salt bridge가 가능하다고 해석한다.
  • 두 개의 cyclopropane group이 pocket 입구의 hydrophobic 영역(residue 389, 392, 184, 189, 416, 412 등)과 hydrophobic interaction을 형성하면서도, bulky한 ring system이 야기할 수 있는 steric effect는 피한다고 설명한다.

Drug-likeness 분석

논문에서는 SwissADME를 통해 compound A의 properties를 평가하였다고 설명한다.

POLAR(polarity), INSOLU(insolubility), INSATU(instauration), FLEX(rotatable bond flexibility), LIPO(lipophilicity), SIZE(molecular weight)의 6개 parameter를 평가한 결과, 제안된 compound가 oral bioavailability에 적합한 physiochemical space 내에 위치한다고 보고한다.

Bayesian Optimization을 통한 enhancement

논문에서는 random sampling 대신 BO를 적용하여 latent space에서 더 효과적으로 molecule을 optimize할 수 있다고 주장한다. logP를 maximize하고 SAS로 penalty를 부여한 standardized single-objective function을 정의하고, expected improvement acquisition function을 사용하여 50개의 molecule을 생성한 후 unique sample만 training dataset에 추가하였다고 설명한다.

논문의 비교 결과는 다음과 같다.

  • Random sampling (상단): 10번째 iteration까지도 latent space distribution이 desired direction으로 크게 이동하지 않는다고 보고한다.
  • BO (하단): BO 기반 augmentation은 latent space distribution을 훨씬 효과적으로 이동시킨다고 설명한다. 특히 logP에서 두드러진 개선이 관찰되며, 10번째 retraining 이후에는 original training data보다 훨씬 높은 logP를 가진 molecule을 생성할 수 있다고 보고한다. 다만 candidate molecule이 약간 더 높은 SAS를 가진 high-logP region으로 편향되는 경향이 있는데, 이는 SOBO를 logP와 SAS의 linear combination으로 정의한 데서 비롯되는 artifact라고 해석한다. 논문에서는 다른 scalarization이나 MOBO(multi-objective BO)를 사용하여 이 문제를 완화할 수 있다고 설명한다.

BO vs Random sampling: trade-off

항목 Random sampling Bayesian Optimization
Computational cost 낮음 높음 (GP surrogate 학습 + acquisition function 최적화)
Sample efficiency 낮음 (250개 평가 → 50개 선택) 높음 (50개 평가)
Latent space shift 완만함 효과적임

Discussion

논문에서는 제안한 framework가 weighted retraining을 통해 molecule-generation model을 expected multi-dimensional objective region으로 이끄는 가능성을 보여주었다고 정리한다. 주요 발견은 다음과 같이 요약된다.

  • Rank로부터 파생된 weight 공식은 latent space에서 diversity와 property distribution shift 사이의 trade-off를 결정한다.
  • Reduced training data를 사용한 실험에서도 method의 강건성이 검증되었으며, DRD2-active molecule이 전혀 없는 상황에서도 weighted retrained model이 active region에 대한 latent space를 구성하는 데 성공하였다.
  • Latent space reshape의 속도를 높이기 위해 BO가 유망한 대안으로 제시된다.

Limitation

논문에서 인정한 한계와 향후 과제는 다음과 같다.

  • Property predictor 의존성: ranking scheme는 robust property predictor에 의존적이며, surrogate model이 unexplored chemical space를 얼마나 잘 다루는지가 중요하다고 설명한다. 다만 surrogate model의 정확도가 떨어져도 retrained latent space는 추가 screening을 위한 exploration field로 활용될 수 있다고 본다.
  • Diversity 감소: property distribution의 shift가 증가할수록 latent space의 molecular diversity가 감소하는 추세가 관찰되었으며, diversity-oriented candidate selection strategy가 해결책이 될 수 있다고 제안한다.
  • Computational cost: 큰 network의 retraining은 비용이 클 수 있으나, distributed training의 적용으로 훈련 시간을 줄일 수 있다고 설명한다.
  • Sampling strategy 개선 여지: random sampling 대신 OED(Optimal Experimental Design)나 active learning, MOCU(Mean Objective Cost of Uncertainty) 기반 objective-UQ 기법을 활용한 uncertainty-aware sampling을 향후 연구 방향으로 제시한다.

정리

논문에서는 generative molecular design에서 multi-objective를 다루기 위한 새로운 MO-LSO scheme을 제안하였다. Pareto front ranking을 기반으로 한 weighted retraining 절차를 통해 ad hoc scalarization 없이 multiple properties를 동시에 개선하는 방향으로 generative model의 latent space를 효과적으로 reshape할 수 있다는 점을 강조한다.

다양한 property pair에 대한 실험과 DRD2 inhibitor 설계 사례를 통해 method의 유효성을 입증하였으며, 특히 training data에 active sample이 없는 극단적인 상황에서도 latent space를 active region으로 이동시킬 수 있다는 점은 method의 강건성을 보여준다고 해석할 수 있다. BO를 결합하여 latent space sampling 효율을 더욱 높일 수 있다는 결과 또한 향후 GMD pipeline 설계에 시사점을 제공한다.

다만 결국 ranking과 retraining이 property predictor의 quality에 의존하기 때문에, unexplored region에서의 surrogate model 신뢰성과 diversity 보존을 위한 추가적인 sampling 전략에 대한 검증은 부족하다고 볼 수 있다.

Reference

Abeer, ANM Nafiz, et al. “Multi-objective latent space optimization of generative molecular design models.” Patterns 5.10 (2024).