이 기사의 핵심 내용은?

UC 버클리가 확산 언어 모델의 학습, 추론, 평가를 통합하는 dLLM 프레임워크를 발표했다. 새로운 Fast-dLLM 통합을 통해 블록 단위 캐싱 및 병렬 디코딩 기술로 2~4배의 속도 향상을 구현했다. 해당 프레임워크는 최소한의 연산만으로 ModernBERT 및 Qwen3 모델을 확산 기반 채팅 시스템으로 성공적으로 전환했다.

UC 버클리, 통합 확산 언어 모델 프레임워크 dLLM 공개

•UC 버클리가 확산 언어 모델의 학습, 추론, 평가를 통합하는 dLLM 프레임워크를 발표했다.
•새로운 Fast-dLLM 통합을 통해 블록 단위 캐싱 및 병렬 디코딩 기술로 2~4배의 속도 향상을 구현했다.
•해당 프레임워크는 최소한의 연산만으로 ModernBERT 및 Qwen3 모델을 확산 기반 채팅 시스템으로 성공적으로 전환했다.

•UC 버클리가 확산 언어 모델의 학습, 추론, 평가를 통합하는 dLLM 프레임워크를 발표했다.
•새로운 Fast-dLLM 통합을 통해 블록 단위 캐싱 및 병렬 디코딩 기술로 2~4배의 속도 향상을 구현했다.
•해당 프레임워크는 최소한의 연산만으로 ModernBERT 및 Qwen3 모델을 확산 기반 채팅 시스템으로 성공적으로 전환했다.

텍스트를 왼쪽에서 오른쪽으로 한 번에 한 단어씩 예측하는 자기회귀(Autoregressive) 모델이 현재 시장을 주도하고 있지만, 전체 텍스트 시퀀스를 동시에 정제하는 확산 언어 모델이 유망한 대안으로 떠오르고 있다. 하지만 그동안 파편화된 코드베이스와 일관성 없는 평가 방식이 이 분야의 발전을 가로막는 장애물로 작용해 왔다. 이에 던 송(Dawn Song, UC 버클리 교수) 연구팀을 포함한 UC 버클리 연구진은 대규모 및 소규모 애플리케이션 모두에서 확산 기반 모델링의 핵심 요소를 표준화하도록 설계된 포괄적인 오픈 소스 프레임워크인 dLLM을 출시했다.

dLLM 프레임워크는 모델의 구조와 텍스트 생성에 사용되는 샘플링 알고리즘을 분리하는 플러그 앤 플레이 방식의 추론 시스템을 도입했다. 이러한 유연성 덕분에 사용자는 여러 토큰을 병렬로 예측하고 이전에 계산된 데이터인 KV-cache를 재사용하여 속도를 획기적으로 높이는 Fast-dLLM 기술을 손쉽게 적용할 수 있다. 엄격한 선형 순서로 디코딩하는 기존 모델과 달리, dLLM은 생성 과정 중에 전체 시퀀스에서 토큰이 어떻게 진화하는지 보여주는 시각화 도구를 포함하여 모델이 일관된 언어를 생성하는 과정을 독특한 시각으로 관찰할 수 있게 한다.

프레임워크의 다재다능함을 입증하기 위해 연구팀은 기존의 인코더 전용 모델과 표준 자기회귀 시스템을 확산 기반 챗봇으로 변환하는 성과를 거두었다. 특히 ModernBERT-large-chat 변형 모델은 비전통적인 구조임에도 불구하고 추론 벤치마크에서 여러 인기 소형 모델보다 뛰어난 성능을 기록했다. 또한 재현 가능한 레시피와 사전 학습된 체크포인트를 제공함으로써, dLLM 프로젝트는 연구자들이 더 효율적이고 유연한 언어 생성을 위한 실질적인 경로로서 확산 모델을 탐구할 수 있는 진입 장벽을 크게 낮추었다.

텍스트를 왼쪽에서 오른쪽으로 한 번에 한 단어씩 예측하는 자기회귀(Autoregressive) 모델이 현재 시장을 주도하고 있지만, 전체 텍스트 시퀀스를 동시에 정제하는 확산 언어 모델이 유망한 대안으로 떠오르고 있다. 하지만 그동안 파편화된 코드베이스와 일관성 없는 평가 방식이 이 분야의 발전을 가로막는 장애물로 작용해 왔다. 이에 던 송(Dawn Song, UC 버클리 교수) 연구팀을 포함한 UC 버클리 연구진은 대규모 및 소규모 애플리케이션 모두에서 확산 기반 모델링의 핵심 요소를 표준화하도록 설계된 포괄적인 오픈 소스 프레임워크인 dLLM을 출시했다.

dLLM 프레임워크는 모델의 구조와 텍스트 생성에 사용되는 샘플링 알고리즘을 분리하는 플러그 앤 플레이 방식의 추론 시스템을 도입했다. 이러한 유연성 덕분에 사용자는 여러 토큰을 병렬로 예측하고 이전에 계산된 데이터인 KV-cache를 재사용하여 속도를 획기적으로 높이는 Fast-dLLM 기술을 손쉽게 적용할 수 있다. 엄격한 선형 순서로 디코딩하는 기존 모델과 달리, dLLM은 생성 과정 중에 전체 시퀀스에서 토큰이 어떻게 진화하는지 보여주는 시각화 도구를 포함하여 모델이 일관된 언어를 생성하는 과정을 독특한 시각으로 관찰할 수 있게 한다.

프레임워크의 다재다능함을 입증하기 위해 연구팀은 기존의 인코더 전용 모델과 표준 자기회귀 시스템을 확산 기반 챗봇으로 변환하는 성과를 거두었다. 특히 ModernBERT-large-chat 변형 모델은 비전통적인 구조임에도 불구하고 추론 벤치마크에서 여러 인기 소형 모델보다 뛰어난 성능을 기록했다. 또한 재현 가능한 레시피와 사전 학습된 체크포인트를 제공함으로써, dLLM 프로젝트는 연구자들이 더 효율적이고 유연한 언어 생성을 위한 실질적인 경로로서 확산 모델을 탐구할 수 있는 진입 장벽을 크게 낮추었다.

UC 버클리, 통합 확산 언어 모델 프레임워크 dLLM 공개

태그