Claude Opus 4.6 실사용기 (클로드 오푸스)

1970년 1월 1일 (목)

한국 시간으로 오늘 아침, 2026년 2월 6일 — 앤트로픽(Anthropic)이 자사 최고 지능 모델 ‘클로드 오푸스(Claude Opus)’의 최신 버전 4.6을 전격 공개했다.

직전 버전이 4.5였으니, 0.1만 올라간 소심한 마이너 업데이트인가..?

결론부터 말하자면 아니다.

0.1이라는 숫자가 겸손으로 느껴질 만큼 대대적인 기능 추가가 이루어졌다.

특히 최근 오픈클로(OpenClaw)나 클로드 코워크(Cowork) 등의 등장으로 일반인들에게도 주목받기 시작한 ‘AI 에이전트 시대’의 본격적인 개막을 알리는 업데이트라고 볼 수 있다.

발표와 동시에 월스트리트 소프트웨어 주가는 공포에 질려 곤두박질쳤고, AI 업계 관계자들은 흥분과 긴장 사이에서 눈을 떼지 못했다.

이 글에서는 이번 업데이트의 핵심을 누구나 이해할 수 있도록 풀어보려 한다.

기술 용어가 나오더라도 겁먹지 마시라. 최대한 쉽게, 하지만 정확하게 써보겠다.

앤트로픽, 그들은 대체 누구인가?

“오픈AI에서 나온 사람들이 만든 회사”라는 소개는 이제 좀 낡았다.

앤트로픽이 처음 유명세를 얻은 건, 2021년에 오픈AI 출신 연구원들이 독립해 세운 회사라는 브랜드가 한몫한 것은 분명하지만 지금 앤트로픽은 그 ‘출신’ 딱지를 훌쩍 넘어서 있다.

지난 글에도 소개했듯 이들의 차별점은 ‘헌법적 AI(Constitutional AI)’라는 독특한 철학에 있다.

쉽게 말해, AI에게 “이것은 해도 되고, 저것은 하면 안 된다”는 행동 규범, 일종의 ‘헌법’을 심어두는 방식. 인간이 일일이 감시하지 않아도, 모델 스스로 선을 지키며 판단하도록 훈련한다는 뜻인데, 듣기엔 거창하지만 실제로 클로드를 써보면 그 차이가 체감되는 부분이 꽤 있다. 쓸데없는 아부를 떨거나 위험한 답변을 슬쩍 내뱉는 경우가 경쟁 모델에 비해 눈에 띄게 적다.

관련글: 앤트로픽, AI 복지를 담은 새로운 헌법 공개

이번 4.6 발표의 전략적 메시지도 명확하다. AI 시장이 그동안 “누가 더 말을 많이, 빨리 뱉느냐”를 놓고 싸웠다면, 앤트로픽은 판 자체를 바꾸겠다고 나선선 것이다.

“누가 더 자율적이고, 믿음직하게 일을 끝내느냐.” 여기에 사활을 걸었다.

성능은 확실한데, 이름은 조금 어렵다

앤트로픽은 크게 3가지의 AI모델을 개발하고 제공하는데, 각각 성능과 비용의 편차가 크다.

~~또한, 한국어 발음조차 확립되어 있지 않을만큼 이름이 조금 난해하다. 오푸스? 오퍼스?~~

오푸스(Opus)는 오늘의 주인공이자, 클로드 패밀리의 ‘맏형’이다. 최고 수준의 지능을 자랑하며, 복잡한 추론과 고난도 코딩, 기업용 업무 흐름에 최적화되어 있다. 대신 가격이 많이 비싸고 응답 속도도 느린 편이다. 최신 버전은 Opus 4.6 (오늘 업데이트)

소네트(Sonnet)는 속도와 지능 사이에서 기막히게 줄타기하는 ‘주력 상품’이다. 범용 업무에 가성비가 가장 좋아서, 실제로 가장 많이 쓰이는 모델이기도 하다. 일상적인 문서 작성이나 코딩 보조라면 소네트만으로 충분한 경우가 대부분이다. 최신 버전은 Sonnet 4.5

하이쿠(Haiku)는 느닷없이 일본 이름이다. 일본 전통시(詩) 하이쿠(俳句)의 특성 그대로, 단순 분류나 방대한 데이터를 휘릭 처리할 때 진가를 발휘한다. 속도가 생명인 서비스 뒷단에서 묵묵히 일하는 타입이다. 최신 버전은 Haiku 4.5 ~~더 저렴하고 똑똑한 타사 AI모델들 때문에 사실 잘 안쓴다.~~

Generated with Nano Banana

지금부터, 이 삼형제 중에서도 가장 영리한데다가 혼자만 나이를 ‘0.1’ 만큼 더 먹은 맏형, 오푸스(Opus)가 어떻게 한 단계 더 성숙했는지 집중적으로 파헤쳐보겠다.

Opus 4.6. 버전 0.1 차이의 무서운 진실

Opus 4.5가 2025년 11월에 출시됐으니, 고작 석 달 만에 후속 버전이 나온 셈이다.

오픈AI도 그렇고, 요즘 AI시대에는 0.1씩 버전을 올리는 것이 유행이 된 것 같다.

~~과연 구글 제미나이의 다음 버전은 3.1일 것인가?~~

숫자가 작은 이유가 있다. 아키텍처, 그러니까 모델의 기본 뼈대를 완전히 갈아엎은 게 아니기 때문이다.

대신 기존의 강력한 기반 위에 ‘하이브리드 추론 레이어(Hybrid Reasoning Layer)’라는 새로운 사고 방식을 얹었다. 비유하자면, 4.5가 근육량을 확 키운 ‘벌크업’이었다면, 4.6은 그 근육 위에 칼같은 선을 만드는 ‘데피니션’ 작업이다. 몸무게는 비슷한데, 할 수 있는 동작의 정밀도가 완전히 달라지는 거다.

핵심 변화는 ‘에이전트로서의 신뢰성’이다.

이제 클로드는 상황에 따라 즉각적으로 답할지, 아니면 내부에서 길게 곱씹은 뒤 정교한 결론을 내놓을지 스스로 결정한다. 덕분에 다단계 계획 수립이나 코드 디버깅 같은 실전 문제 해결 능력이 전작 대비 눈에 띄게 날카로워졌다.

이 글을 작성하기 위해서 발표 자료 등을 조사한 후, 문법을 체크하고 문장을 다듬는 용도로 사용해본 결과, 0.1이라는 차이가 무색하게 상당히 똑똑해졌다는 것을 느꼈다.

특히, 미리 조사했던 자료들을 취합한 초안을 오푸스 4.6에게 프롬프트 입력했을 때, “블로그에 작성할 글이니까 마크다운 포맷으로 만드는게 좋을거 같다”라는 제안과 함께 세세한 팩트 체크까지 정확한 출처를 보여주며 순식간에 해결해준다.

특히, 인상 깊었던 부분은 아래 제안을 스스로 했다는 점이다. 놀랍도록 솔직하고, 논리적이다.

“클로드가 클로드를 리뷰하는” 인상을 주면, 신빙성이 떨어질 수 있으니까, 독자 신뢰를 위해 “이 글은 필자가 공식 발표와 외부 보도를 기반으로 작성했다”는 디스클레이머를 넣는 걸 추천해.

~~다만, 안그래도 비싼데 자꾸 더 비싼 코워크와 사용하면 더 좋다고 추천하는게 유일한 마이너스 포인트.~~

진짜 볼거리: 적응형 사고와 에포트 조절

적응형 사고(Adaptive Thinking)

— AI가 난이도를 읽는다

이번 Opus 4.6의 백미다. 기존에는 개발자가 “이만큼 생각해라”고 토큰 예산을 일일이 지정해줬어야 했다. 이제 그 구시대적 방식에서 한 발 벗어나, 클로드가 질문의 난이도를 자체적으로 파악해서 ‘생각의 깊이’를 조절한다.

“서울 날씨 알려줘”에 대해서는 굳이 심사숙고하지 않고, “이 코드베이스에서 메모리 누수 원인을 찾아줘”에 대해서는 깊이 파고든다. 당연한 것 같지만, 지금까지의 AI에게는 이게 당연하지 않았다.

특히 ‘인터리브드 싱킹(Interleaved Thinking)’이라는 기술이 눈에 띈다.

외부 도구를 호출하는 중간중간에 AI가 자기만의 ‘메모’를 끼워 넣는 방식인데, 쉽게 말해 “잠깐, 여기서 뭔가 이상한데?”라고 스스로 되짚는 거다. 복잡한 업무를 자동으로 처리할 때 실수를 획기적으로 줄여주는 장치다.

파라미터effort">에포트 파라미터(Effort)

— 지능과 비용의 밸런스 슬라이더

개발자라면 반가울 기능이다.

‘낮음(Low)’, ‘보통(Medium)’, ‘높음(High)’, ‘최대(Max)’ 네 단계로 AI의 집중도를 직접 조절할 수 있다.

속도가 중요한 단순 분류 작업은 낮음으로, 한 치의 오차도 허용 안 되는 금융이나 법률 분석은 최대로 돌리면 된다. 기본값은 ‘높음’인데, 앤트로픽에서도 “모델이 단순한 질문에 너무 깊이 생각하는 것 같으면 ‘보통’으로 낮춰라”고 권장할 정도로 4.6은 생각을 많이 하는 편이라고.

100만 토큰 컨텍스트 창

— 문서 수천 페이지를 한 번에

드디어 오푸스 계열 최초로 100만 토큰의 벽이 뚫렸다.

토큰이란 AI가 텍스트를 이해하는 단위인데, 100만 토큰이면 대략 소설 750권 분량이다.

기업 전체의 코드 저장소나 법률 문서 묶음을 통째로 읽어낼 수 있다는 뜻이다.

여기서 주목할 건 ‘컨텍스트 압축(Compaction)’이란 기술. 대화가 길어지면 이전 맥락을 자동으로 요약해서 토큰 제한에 걸리지 않도록 관리해준다. 쉽게 말해, AI판 ‘회의록 자동 정리’라고 보면 된다. 장시간 작업에서 AI가 “아까 뭐라고 했더라?”하고 헤매는 일이 확 줄어든다.

비용 참고: 기본 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 전작과 동일하다. 다만 200,000 토큰을 초과하는 장문 입력에는 별도의 프리미엄 요율이 적용되니, 100만 토큰 풀로 쓸 생각이라면 비용 계획을 꼼꼼히 세워야 한다. ~~비용이 저렴해질 것이라는 루머가 있었는데, 역시 루머는 루머다...~~

성적표 공개 (건너띄어도 무방함)

숫자 나열만큼 지루한 것도 없지만, 이번 데이터는 좀 놀라울 만하다.

물론 벤치마크 점수의 인플레이션이 심하고, 실사용 성능과의 편차도 크니, 참고로만 보도록 하자.

경제적 가치 업무 (GDPval-AA)

금융, 법률 등 실제 돈이 되는 지식 작업 성과를 평가하는 이 벤치마크에서 클로드 4.6은 1,606 엘로(Elo) 점수를 기록했다. 오픈AI의 GPT-5.2보다 144 포인트, 전작 오푸스 4.5보다 190 포인트 앞서 있다.

엘로 점수에서 이 정도 격차는 체스로 치면 아마추어와 프로의 차이에 가깝다. 현업에서 체감되는 지능 차이가 상당하다는 뜻이다.

agi-2">추상적 추론 (ARC-AGI-2)

인간에게는 쉽지만 AI에게는 어려운 추상적 패턴 인식을 테스트하는 벤치마크다.

클로드 4.6은 68.8%를 기록해, 전작의 37.6%를 거의 두 배 가까이 뛰어넘었다.

GPT-5.2는 54.2%, 구글의 제미니(Gemini) 3 프로는 45.1%에 머물렀다.

이 시험은 단순 암기로는 점수가 안 나오기 때문에, AI의 ‘진짜 일반화 능력’을 가늠하는 척도로 주목받고 있다.

코딩 능력 (터미널 벤치 2.0 / SWE-bench)

에이전트형 코딩 능력을 평가하는 터미널 벤치(Terminal-Bench) 2.0에서 65.4%로 역대 최고점을 찍었다. 전작의 59.8%에서 뚜렷한 상승이다.

다만 SWE-bench Verified에서는 80.8%로, 전작 4.5의 80.9%에서 소폭 후퇴했다. 아주 미세한 차이지만, “모든 지표에서 압도적으로 이겼다”고는 말할 수 없는 것도 사실이다.

앤트로픽 입장에서는 실전 환경을 더 잘 반영하는 터미널 벤치 쪽 결과를 강조하고 싶겠지만, 이런 소소한 퇴보도 눈여겨볼 필요가 있다.

법률과 금융 영역

며칠 전, 월가의 법률 AI테크의 주가를 폭락시킨 주범(?)답게, 법률 분석을 평가하는 빅로 벤치(BigLaw Bench)에서 90.2%, 완벽 정답률 40%를 기록했다. 금융 에이전트 벤치마크에서도 1위를 차지했다.

법률 AI 스타트업 하비(Harvey)의 관계자가 “도구가 아니라 유능한 법률 파트너 같다”고 평가할 만도 하다.

관련글: 법률계 주가를 폭락시킨 AI, 앤트로픽 코워크

보안 취약점 500개를 스스로 발견

벤치마크 성적 말고도 소름 끼치는 에피소드가 하나 있다.

(단, 어디까지 개발사 측의 발표)

앤트로픽의 보안 전담팀은 출시 전 4.6을 격리된 환경에 풀어놓고, 특별한 지침이나 전문 지식 없이 그냥 기본 도구만 준 채, 오픈소스 코드에서 버그를 찾아보라고 맡겼다. 결과가 어땠을까?

놀랍게도 Opus 4.6은 이전에 알려지지 않았던 보안 취약점 500개 이상을 독자적으로 발견했다.

신중을 기하기 위해, 발견된 취약점 모두를 앤트로픽 내부 팀이나 외부 보안 연구자가검증하자, PDF와 포스트스크립트 파일을 처리하는 유명 유틸리티 고스트스크립트(GhostScript)에서 시스템을 멈출 수 있는 결함을 찾아냈고, 스마트카드 데이터를 처리하는 오픈SC(OpenSC)에서는 버퍼 오버플로 취약점까지 잡아냈다.

GIF 처리 도구인 CGIF의 경우, 취약점을 찾은 것도 모자라 자기가 직접 개념 증명 코드까지 작성했다고 한다.

앤트로픽의 레드팀(AI를 공격해서 취약점을 찾는 보안 팀) 책임자는 “방어자와 공격자의 경주”라고 표현하면서, 이 능력을 방어 쪽에 먼저 쥐여주고 싶다고 밝혔다. 물론 이 양날의 검이 공격자 손에 넘어갈 가능성도 있기에, 앤트로픽은 악용 탐지를 위한 새로운 보안 통제 장치 6가지를 이번 모델에 추가했다.

이 능력이 사실이라면, 인상적이면서도 솔직히 약간 무서운 대목이다.

Generated with Nano Banana

월가를 떨게 한 ‘코워크’와 ‘에이전트 팀’

4.6의 기술적 진보만큼이나 시선을 끄는 건 시장 반응이다.

지난 글에 소개한 것처럼, 앤트로픽은 얼마 전 코워크(Cowork)라는 생산성 도구를 출시했고, 발표 직전 주에 법률·금융·영업·마케팅 등 특화 플러그인을 공개했다. 그 순간 월스트리트가 요동쳤다. 소프트웨어 업종 ETF는 하루 만에 약 6% 급락했고, 톰슨 로이터스(Thomson Reuters)는 15.8%, 리걸줌(LegalZoom)은 약 20% 떨어졌다. 나스닥은 4월 이후 최악의 이틀 연속 하락을 기록했다.

세일즈포스(Salesforce)는 연초 대비 25%, SAP는 18%, 인튜잇(Intuit)은 무려 32%가 빠진 상태다.

왜 이런 일이 벌어졌을까?

투자자들이 두려워한 건, AI가 특화 비즈니스 소프트웨어를 통째로 대체할 수 있다는 가능성이다.

“법률 리서치 소프트웨어를 따로 살 필요가 있나? 클로드가 하면 되는데?”라는 질문이 현실이 되기 시작한 것이다.

일반화: AI가 학습한 데이터를 외우는 것을 넘어 처음 보는 새로운 데이터에 대해서도 올바른 답을 내놓는 능력
토큰: 모델이 텍스트를 읽고 생성할 때 사용하는 최소 단위로, 단어 전체 또는 단어의 일부(서브워드), 문자 조합 등이 될 수 있습니다.
범용 인공지능 (AGI): 특정 영역에 한정되지 않고 인간과 유사하거나 그 이상의 지적 능력을 다양한 분야에서 발휘하는 인공지능
AI 에이전트: 사용자가 부여한 목표를 달성하기 위해 자율적으로 판단하고 작업을 수행하는 지능형 소프트웨어 시스템
파라미터: AI 모델이 정보를 처리하고 학습하는 과정에서 조정되는 연결 고리이자 신경망의 크기를 결정하는 지표
벤치마크: AI 모델의 성능이나 안전성을 표준화된 기준에 따라 측정하고 비교하는 평가 지표
추론: 학습된 모델이 새로운 데이터를 입력받아 결과를 도출해내는 과정
SWE-Bench: GitHub의 실제 이슈를 해결하는 AI 모델의 능력을 평가하는 벤치마크
적응형 사고: 문제의 복잡도에 따라 AI가 추론에 사용하는 시간과 자원을 스스로 조절하는 기술
GPT-5.2: 오픈AI가 개발한 차세대 대규모 언어 모델의 가상 버전 혹은 경쟁 모델
Elo: 상대적인 경쟁력을 수치로 나타내는 통계적 평가 시스템으로, 주로 모델 간의 성능 비교에 사용됨
Opus 4.6: 앤스로픽이 개발한 가장 강력한 성능의 대규모 언어 모델 시리즈 중 최신 버전
컨텍스트 압축: 긴 대화나 방대한 데이터를 핵심 위주로 요약하여 처리 효율을 높이는 기능
GDPval-AA: 실제 직업 과제에서의 에이전트 수행 능력을 측정하기 위해 OpenAI의 GDPval에서 파생된 벤치마크
실사: 프로젝트나 투자 전에 수행하는 배경 조사 및 기술적 타당성 검증 과정
GPT-5: OpenAI가 개발 중인 차세대 대형 언어 모델
세일즈포스: 고객 관계 관리(CRM)를 중심으로 클라우드 기반 비즈니스 솔루션을 제공하는 세계적인 소프트웨어 기업
출처: 데이터가 언제, 어디서, 누구에 의해 생성되었는지에 대한 이력과 근거
프롬프트: AI 모델에게 무엇을 하거나 어떤 답을 만들지 지시하는 입력 문장(명령 또는 질문)입니다.
OPUS: 모델의 학습 상태에 맞춰 최적의 데이터를 동적으로 선별하는 프레임워크다.
ARC-AGI-2: 인공지능의 추론 능력과 새로운 상황에 대한 적응력을 측정하는 고난도 벤치마크 테스트
OpenClaw: 자율형 디지털 비서(AI 에이전트)를 배포하고 운영할 수 있게 해주는 AI 에이전트 플랫폼으로, ClawHub라는 마켓플레이스를 통해 에이전트 스킬을 공유하고 관리할 수 있습니다.
하비(Harvey): 법률 조사 및 문서 분석을 자동화하기 위해 대규모 언어 모델을 기반으로 구축된 전문 AI 플랫폼입니다.
엘로 점수: 상대적인 실력이나 성능 수준을 수치화하여 순위를 매기는 평가 지표다.

외부 블로그에서 보기 →