UC 버클리, 통합 확산 언어 모델 프레임워크 dLLM 공개
- •UC 버클리가 확산 언어 모델의 학습, 추론, 평가를 통합하는 dLLM 프레임워크를 발표했다.
- •새로운 Fast-dLLM 통합을 통해 블록 단위 캐싱 및 병렬 디코딩 기술로 2~4배의 속도 향상을 구현했다.
- •해당 프레임워크는 최소한의 연산만으로 ModernBERT 및 Qwen3 모델을 확산 기반 채팅 시스템으로 성공적으로 전환했다.
텍스트를 왼쪽에서 오른쪽으로 한 번에 한 단어씩 예측하는 자기회귀(Autoregressive) 모델이 현재 시장을 주도하고 있지만, 전체 텍스트 시퀀스를 동시에 정제하는 확산 언어 모델이 유망한 대안으로 떠오르고 있다. 하지만 그동안 파편화된 코드베이스와 일관성 없는 평가 방식이 이 분야의 발전을 가로막는 장애물로 작용해 왔다. 이에 던 송(Dawn Song, UC 버클리 교수) 연구팀을 포함한 UC 버클리 연구진은 대규모 및 소규모 애플리케이션 모두에서 확산 기반 모델링의 핵심 요소를 표준화하도록 설계된 포괄적인 오픈 소스 프레임워크인 dLLM을 출시했다.
dLLM 프레임워크는 모델의 구조와 텍스트 생성에 사용되는 샘플링 알고리즘을 분리하는 플러그 앤 플레이 방식의 추론 시스템을 도입했다. 이러한 유연성 덕분에 사용자는 여러 토큰을 병렬로 예측하고 이전에 계산된 데이터인 KV-cache를 재사용하여 속도를 획기적으로 높이는 Fast-dLLM 기술을 손쉽게 적용할 수 있다. 엄격한 선형 순서로 디코딩하는 기존 모델과 달리, dLLM은 생성 과정 중에 전체 시퀀스에서 토큰이 어떻게 진화하는지 보여주는 시각화 도구를 포함하여 모델이 일관된 언어를 생성하는 과정을 독특한 시각으로 관찰할 수 있게 한다.
프레임워크의 다재다능함을 입증하기 위해 연구팀은 기존의 인코더 전용 모델과 표준 자기회귀 시스템을 확산 기반 챗봇으로 변환하는 성과를 거두었다. 특히 ModernBERT-large-chat 변형 모델은 비전통적인 구조임에도 불구하고 추론 벤치마크에서 여러 인기 소형 모델보다 뛰어난 성능을 기록했다. 또한 재현 가능한 레시피와 사전 학습된 체크포인트를 제공함으로써, dLLM 프로젝트는 연구자들이 더 효율적이고 유연한 언어 생성을 위한 실질적인 경로로서 확산 모델을 탐구할 수 있는 진입 장벽을 크게 낮추었다.