구글 DeepMind, 100만 염기쌍 분석하는 DNA AI 공개
- •구글 DeepMind의 AlphaGenome이 100만 개의 DNA 염기쌍에 걸친 생물학적 활동을 단일 염기 단위로 예측한다.
- •기존 대비 컨텍스트 윈도우를 2배로 확장하여 유전적 원거리 상호작용을 식별해낸다.
- •새로운 앙상블 증류 기술을 통해 11가지 생물학적 과업을 하나의 통합된 게놈 파운데이션 모델로 구축했다.
구글 DeepMind가 인간 DNA라는 복잡한 '설계도'를 유례없는 규모로 해독하기 위해 설계된 딥러닝 모델인 AlphaGenome을 선보였다. 기존 업계 선두 모델들이 한 번에 최대 50만 개의 DNA 염기만을 분석할 수 있었던 것과 달리, AlphaGenome은 컨텍스트 윈도우를 100만 개의 빌딩 블록 수준으로 두 배 늘렸다. 이러한 확장을 통해 모델은 특정 부위의 유전적 변이가 멀리 떨어진 유전자의 변화를 유발하는 이른바 '원거리 상호작용'을 식별할 수 있게 되었으며, 이는 희귀 질환이나 암 유발 변이를 이해하는 데 매우 중요한 요소로 작용한다.
단순한 규모 확장을 넘어, 이 모델은 단일 염기 해상도에서 핀포인트 수준의 정확도를 제공한다. DNA를 32개 염기 세그먼트로 그룹화했던 이전 모델 Borzoi와 달리, AlphaGenome은 유전 서열 내 단 하나의 '오타'가 11가지의 뚜렷한 생물학적 과정에 어떤 영향을 미치는지 예측할 수 있다. 여기에는 단백질-DNA 상호작용은 물론, 세포가 단백질을 만들기 전 유전 정보를 편집하는 과정인 RNA 스플라이싱 등이 포함된다. 특히 이러한 기능들을 하나의 인터페이스로 통합함으로써, 연구자들은 더 이상 유전적 결과를 파악하기 위해 여러 전문 도구를 번갈아 사용할 필요가 없게 되었다.
모델의 성공 비결은 앙상블 증류라 불리는 기법에 있다. 이는 변이 데이터로 학습된 여러 '교사' 모델로부터 얻은 합의된 지식을 하나의 '학생' 모델이 학습하는 방식이다. 비록 현재는 임상 진단보다는 기초 생물학 연구에 최적화되어 있으나, AlphaGenome은 DNA의 일반적 표상을 향한 중요한 진전으로 평가받는다. 결과적으로 이는 AI가 개별 유전 변이의 복잡한 연쇄 반응을 예측할 수 있는 미래에 한 걸음 더 다가서게 한다.