KAIST, 거의 완벽한 분자 생성 AI 개발
- •KAIST AI가 거의 완벽한 분자 그래프 유효성을 달성한 계층형 확산 모델인 MolHIT를 공개했다.
- •이 프레임워크는 화학적 사전 지식과 분리된 원자 인코딩 기술을 활용해 기존의 1D 및 그래프 기반 베이스라인 모델을 능가한다.
- •신약 개발 및 재료 과학 분야의 표준인 MOSES 데이터셋에서 역대 최고 기록을 경신하며 새로운 기준을 제시했다.
분자 설계는 AI 기반 신약 개발 분야에서 오랫동안 '성배'와 같은 과제로 여겨져 왔다. 하지만 분자의 복잡한 2D 구조를 컴퓨터 생성 모델로 변환하는 과정에서, 실제로는 존재할 수 없는 부적절한 형태의 분자가 생성되는 문제가 빈번하게 발생했다. 기존 방식들은 새로운 설계를 탐색하면서 동시에 기본적인 화학 규칙을 유지하는 데 상당한 어려움을 겪어왔다.
이러한 문제를 해결하기 위해 KAIST AI 연구진은 계층적 이산 확산(Hierarchical Discrete Diffusion) 모델을 활용한 프레임워크인 MolHIT를 선보였다. 이 시스템은 정보를 무작위로 생성하는 대신 여러 계층으로 구조화한다. 덕분에 AI는 최종 구조를 완성하기 전, 각 원자와 화학 결합의 근본적인 역할을 먼저 이해할 수 있다. 이러한 체계적인 접근 방식은 생성된 분자 그래프가 화학 법칙을 엄격하게 준수하도록 보장한다.
그 결과는 가히 혁신적이다. MolHIT는 업계 표준인 MOSES 데이터셋에서 거의 완벽한 유효성을 입증했으며, 이는 과거 그래프 기반 확산 모델로는 불가능하다고 여겨졌던 성과다. 특히 원자 유형을 화학적 역할에 따라 나누는 '분리된 원자 인코딩' 기술을 통해 다중 속성 유도 합성이나 스캐폴드 확장과 같은 복잡한 작업을 전례 없는 정밀도로 수행해냈다.
연구자와 학생들에게 이번 성과는 프로그래밍 가능한 의학 시대로 나아가는 거대한 도약을 의미한다. 생성된 분자가 처음부터 화학적으로 타당함을 보장함으로써, 과학자들은 비용이 많이 드는 시행착오 단계를 건너뛸 수 있게 됐다. 결과적으로 이는 디지털 설계가 실제 실험실의 혁신적인 돌파구로 이어지는 속도를 획기적으로 가속화할 전망이다.