No.009 [ 인사이트 ]

GPT 5.5 공개, 클로드 공식 사과, 화난 유저들이 오픈소스로 떠나고 있다 (주간 AI)

GPT-5.5 출시, Anthropic 가격 사태, Kimi K2.6, Claude 디자인 오픈소스 공개 — AI 업계에서 벌어진 굵직한 사건들을 직접 분석합니다.

OpenAI는 이번 주 이를 박박 갈고 나왔습니다. GPT-5.5를 풀고, 이미지 모델 경쟁에서 구글 나노바나나를 정면으로 겨냥한 새 모델을 내고, Codex를 코딩툴이 아니라 업무 운영체제로 키우겠다고 선언했습니다.

반대로 Anthropic은 가격표로 장난치다가 유저들한테 두드려 맞았습니다. 공식 가격 페이지에서 20달러 Pro 플랜의 Claude Code 표기가 조용히 빠졌고, 한 달 넘게 “Claude Code가 멍청해졌다”고 말하던 유저들의 불만은 공식 사고 보고서로 뒤늦게 인정됐습니다.

이번 주 AI 뉴스의 핵심은 모델 성능표가 아닙니다. 신뢰를 잃은 회사와 통제권을 되찾으려는 유저들의 충돌입니다. OpenAI는 실행 도구를 넓히고, Anthropic은 신뢰를 잃었고, 사람들은 점점 오픈소스로 도망갈 명분을 얻고 있습니다.

핵심 요약

  • GPT-5.5는 구현력과 속도에서 확실히 상한이 올라갔습니다. 아직 들쭉날쭉하지만, 잘 나왔을 때의 고점이 이전보다 높습니다.
  • GPT-Image-2는 다중 패널, 브랜드 키트, 게임 에셋, 한국어 표현까지 밀어붙이며 이미지 생성의 실전성을 크게 끌어올렸습니다.
  • Codex는 브라우저, 컴퓨터 조작, 워크스페이스 에이전트, 메모리까지 붙이며 “코딩 앱”에서 “AI 작업 플랫폼”으로 넘어가고 있습니다.
  • Anthropic은 가격표 논란과 Claude Code 성능 저하 사고로 가장 중요한 자산인 신뢰를 깎아먹었습니다.
  • 그 반작용으로 Kimi K2.6, Claude 디자인 오픈소스, 하이퍼프레임 같은 흐름이 더 중요해졌습니다. 이제 유저들은 “내 작업을 한 회사 손에 맡겨도 되나?”를 묻기 시작했습니다.

GPT-5.5: 코딩과 구현력의 고점이 올라갔다

GPT-5.5 실사용 테스트

GPT-5.5는 유료 사용자에게 적용되기 시작했습니다. 달라진 점은 단순히 답변이 조금 매끄러워진 정도가 아닙니다. 복잡한 구현 과제에서 올라갈 수 있는 천장이 높아졌습니다.

펜실베이니아 와튼스쿨의 이든 교수는 모델들에게 기원전 3000년부터 기원후 3000년까지 도시가 어떻게 진화하는지 볼 수 있는 시뮬레이터를 만들라고 지시했습니다. 다른 AI들은 시간에 따라 건물 에셋을 갈아끼우는 수준에서 끝났습니다. 겉보기만 바뀌는 “도시 진화 코스프레”였던 거죠.

그런데 GPT-5.5 Pro만 실제로 진화하는 도시를 모델링했다는 평가를 받았습니다. 속도도 빨라졌습니다. 5.4가 33분가량 걸린 작업을 5.5는 약 20분 만에 끝냈습니다.

물론 아직 완벽하진 않습니다. 퀄리티가 들쭉날쭉합니다. 그런데 중요한 건 평균점수보다 고점입니다. 이제 잘 터졌을 때 이전 모델보다 훨씬 높은 곳까지 갑니다.

Claude는 여전히 기획과 글에서 강하다

그렇다고 Claude가 끝났다는 뜻은 아닙니다. 비개발자 영역에서는 여전히 Claude가 강합니다. 글쓰기, 기획, 사용자의 말을 알아듣는 능력, 복잡한 내용을 쉽게 풀어주는 설명력은 Claude가 확실히 편합니다.

그래서 지금 가장 좋은 조합은 이겁니다. Opus가 기획하고 GPT가 실행한다. Claude가 방향을 잡고, GPT가 코드를 쓰고, 꼼꼼한 구현을 맡는 구조입니다.

최대 성과를 원하면 이렇게 나눠 써야 합니다. GPT 하나만으로도 많은 일을 처리합니다. 하지만 최고점을 노린다면 역할 분담이 맞습니다. Claude는 생각을 잘 정리하고, GPT는 손을 잘 움직입니다.

GPT-Image-2: 이미지 생성이 “그림 놀이”에서 제작 도구로 넘어간다

이미지 AI 경쟁

OpenAI의 새 이미지 모델은 GPT-Image-2입니다. 이미지 모델 비교 사이트에서 이상할 정도로 성능이 높다는 평가를 받던 모델이 실제 제품으로 나온 겁니다.

코드명이 마스킹테이프 또는 덕테이프였다는 말도 나왔습니다. 그래서 사람들이 “이거 구글 나노바나나 벽에 박제하겠다는 뜻 아니냐”고 반응했죠. 농담처럼 들리지만, 성능을 보면 그냥 농담만은 아닙니다.

진짜 중요한 변화는 다중 패널 구현입니다. 여러 컷을 한 장 안에 일관성 있게 그립니다. 이게 왜 크냐면, 한 프롬프트로 로고, 디자인 스펙, 제품 디테일 샷, 브랜드 카드뉴스를 같은 빛, 질감, 스타일로 묶을 수 있다는 뜻입니다.

이미지 생성 모델이 늘 약했던 영역이 여기였습니다. 한 장은 예쁜데, 두 장째부터 캐릭터 얼굴이 바뀌고, 세 장째부터 제품 정체성이 사라졌습니다. GPT-Image-2는 이 약점을 정면으로 때립니다.

한국어 표현, 매거진 스타일 포스터, 발표 장면, 구역이 나뉜 레이아웃 포스터, 가짜 스팀 페이지, 마인크래프트식 화면, 유튜브 팟캐스트 화면까지 데모가 꽤 공격적이었습니다. 이제 이미지는 “예쁜 그림 한 장 뽑기”가 아니라 실제로 써먹는 제작 파이프라인에 가까워지고 있습니다.

1인 게임 개발자에게는 특히 크다

여기서 제일 미친 쪽은 게임 에셋입니다. 1인 게임 개발자들이 자주 쓰는 방식 중 하나가 스프라이트입니다. 캐릭터가 걷고, 공격하고, 움직이는 장면을 여러 컷으로 따두는 방식이죠.

스프라이트에서 가장 중요한 건 일관성입니다. 같은 캐릭터가 여러 장면에서 같은 얼굴, 같은 의상, 같은 분위기를 유지해야 합니다. 그런데 GPT-Image-2가 잘하는 게 바로 이겁니다. 여러 장면을 같은 스타일로 유지하는 능력.

그래서 캐릭터 스프라이트 시트, 픽셀아트, 인디 게임용 에셋 제작에서 바로 써먹을 여지가 생겼습니다. 실제로 GPT-Image-2로 만든 게임 에셋은 짧은 시간 안에 꽤 괜찮은 결과를 냈습니다. 뱀파이어 서바이벌류 게임처럼 보이지만 자체 캐릭터와 자체 에셋을 갖춘 결과물까지 빠르게 뽑아냈습니다.

이건 취미 그림 생성이 아닙니다. 작은 팀과 1인 제작자의 생산비를 직접 건드리는 변화입니다.

Codex: OpenAI는 코딩툴이 아니라 AI 운영체제를 만들고 있다

코덱스 에이전트 업데이트

Codex 업데이트의 방향은 아주 노골적입니다. OpenAI는 Codex 앱 안에서 코딩, 이미지, 테스트, 브라우저 조작, 컴퓨터 조작, 프로젝트 메모리까지 전부 먹으려고 합니다.

그냥 “코딩을 도와주는 AI”가 아닙니다. 일을 맡기면 알아서 보고, 클릭하고, 고치고, 기억하는 작업 환경을 만들고 있습니다.

AI가 직접 컴퓨터를 조작한다

Codex는 마우스를 움직이고, 클릭하고, 화면을 본 뒤 다음 동작을 결정합니다. 여기서 중요한 건 사용자의 마우스를 빼앗지 않는다는 점입니다.

Claude Code가 내 마우스를 가져가서 이것저것 누르는 방식이라면, Codex는 자기 조작 환경을 따로 가집니다. 사용자는 자기 일을 계속하고, AI는 별도 환경에서 일을 처리합니다. 이 차이는 작아 보이지만 실제 작업에서는 큽니다. AI가 내 작업 흐름을 방해하지 않기 때문입니다.

Codex 안에 자체 브라우저가 생겼다

Codex는 자기가 만든 웹 화면을 직접 열고 클릭합니다. 더 재밌는 건 사용자가 화면에서 버그나 수정하고 싶은 부분을 드래그해 댓글처럼 남기면, Codex가 그걸 읽고 수정한다는 점입니다.

코드와 대화하는 방식이 텍스트에서 화면으로 넘어가고 있습니다. “이 컴포넌트 이상해”라고 말하는 대신, 그냥 화면에서 찍어주면 됩니다. 이게 실무자에게는 훨씬 자연스럽습니다.

워크스페이스 에이전트와 메모리까지 붙는다

OpenAI가 말하는 워크스페이스 에이전트는 24시간 메시지로 일을 맡길 수 있는 방향에 가깝습니다. 여기에 프로젝트, 코드베이스, 문서 맥락을 기억하는 메모리가 붙습니다.

웹 GPT보다 훨씬 진한 버전입니다. 파일을 읽고, 문서를 정리하고, 프로젝트 단위로 움직입니다. 아직 개인 유저가 다 쓸 수 있는 기능은 아니고 비즈니스 플랜부터 제공되는 기능도 있습니다. 하지만 방향은 이미 보입니다.

OpenAI는 Codex를 AI 업무 운영체제로 키우고 있습니다. 그리고 이번 주에 그 방향을 꽤 세게 밀었습니다.

Anthropic 가격표 논란: 신뢰는 이렇게 깨진다

앤트로픽 가격표 논란

OpenAI가 시장을 먹어치우는 동안 Anthropic은 정반대의 일을 했습니다. Anthropic 공식 가격 페이지의 20달러 Pro 플랜에서 Claude Code가 아무 안내 없이 빠졌습니다.

유저 입장에서는 “이제 20달러 플랜에서는 Claude Code 못 쓰게 되는 건가?”라고 받아들일 수밖에 없습니다. 공지가 없었으니까요. 설명도 없었으니까요. 그냥 가격표에서 핵심 기능이 빠져 있었습니다.

당연히 사람들이 폭발했습니다.

결국 Anthropic의 그로스 헤드가 X에 해명글을 올렸습니다. 새로 가입하는 사용자 약 2%에게만 작은 테스트를 한 것이고, 기존 Pro·Max 가입자에게는 영향이 없으며, 가격 페이지가 업데이트된 건 실수였다고 말했습니다.

문제는 “실수였습니다” 한 문장으로 덮을 사건이 아니라는 겁니다. AI 도구에 매달 100달러, 200달러를 내는 사람들은 단순히 기능 하나를 쓰는 게 아닙니다. 자기 작업 습관, 생산성, 프로젝트 흐름을 그 도구에 걸고 있습니다.

그런데 핵심 기능이 공지 없이 가격표에서 빠진다? 유저 머릿속에는 바로 이 생각이 뜹니다.

“곧 내 플랜도 잘리는 거 아닌가?”

이 불안이 진짜 피해입니다. 가격 정책은 바뀔 수 있습니다. 하지만 이렇게 슬그머니 바꾸는 순간, 유저는 회사의 안정성까지 의심합니다. “얘네 돈 없어서 이러나?”라는 말이 나오는 것도 이상하지 않습니다.

OpenAI Codex 담당자 티보가 바로 받아친 것도 이 지점입니다. Codex는 무료 플랜과 20달러 플랜 양쪽에서 계속 제공될 것이고, 중요한 변경이 있으면 미리 소통하겠다고 강조했습니다. 투명성과 신뢰를 깨지 않겠다는 메시지였습니다.

Anthropic의 Pro 페이지는 하루도 지나지 않아 원래대로 돌아왔습니다. 하지만 신뢰는 그렇게 빨리 원복되지 않습니다. 가격표는 되돌려도, “얘네가 말없이 바꾸는구나”라는 기억은 남습니다.

Claude Code 사고 보고서: 유저들이 한 달 전에 말했는데 이제야 인정했다

앤트로픽 사고 보고서

가격표 사건 이틀 뒤, Anthropic은 공식 사고 보고서를 냈습니다. 한 달 넘게 사용자들이 “Claude Code가 멍청해졌다”고 말하던 문제를 드디어 인정한 겁니다.

Anthropic의 설명은 이렇습니다. 모델 자체가 바뀐 게 아니라, 엔지니어링 과정에서 들어간 세 가지 변경이 문제였습니다.

첫째, AI가 얼마나 깊게 생각할 수 있는지를 결정하는 설정이 낮아졌습니다. Effort 레벨이 High에서 Medium으로 내려갔습니다. 사용자가 다시 올리는 옵션은 있었지만, 일반 유저가 이런 내부 설정 변화를 어떻게 압니까. 그냥 당하고 있어야죠.

둘째, AI가 이전에 생각했던 내용을 다음 답변으로 넘어갈 때 지워버리는 문제가 있었습니다. 캐시 데이터를 주기적으로 날리는 업데이트가 역효과를 낸 겁니다.

셋째, “25자 안에서 짧게 말하라”는 지시가 들어가면서 코딩 품질이 망가졌습니다. Anthropic은 지금은 세 문제를 모두 고쳤고, 모든 구독자 대상으로 사용량 리셋도 진행했다고 밝혔습니다.

진짜 문제는 버그가 아니라 태도다

버그는 납니다. 모델이 이상해지는 날도 있습니다. 큰 시스템을 운영하다 보면 사고는 납니다.

진짜 문제는 유저들이 한 달 전부터 계속 말했는데도 늦게 인정했다는 점입니다. 해외 엔지니어들이 화낸 이유도 이겁니다. “뭔가 이상하다, 제발 들여다봐달라”는 신호를 계속 보냈는데, 팀이 일관적으로 무시하다가 이제서야 인정했다는 겁니다.

더 나쁜 건 일부 유저들이 Anthropic의 대응에서 “사용자가 잘못 쓴 것 아니냐”는 뉘앙스를 느꼈다는 점입니다. 이건 최악입니다. 작업 도구가 망가지면 사용자는 자기 실력을 의심하게 됩니다. 그런데 회사가 그 불안을 빨리 확인해주지 않으면 신뢰가 바로 깨집니다.

이번 사건에서 Anthropic이 잃은 건 모델 평판이 아닙니다. 유저들의 신뢰입니다. 보고서 하나 잘 쓰고 세션 토큰 한 번 리셋한다고 회복되는 종류가 아닙니다.

저도 Anthropic을 좋아합니다. 그래서 더 아쉽습니다. 좋아하는 회사가 유저를 이런 식으로 불안하게 만들면, 실망이 더 큽니다.

오픈소스 반란: “Claude 못 믿겠다, 내가 만든다”

오픈소스로 향하는 흐름

이번 주에서 제일 재밌는 건 사실 GPT도 Claude도 아닙니다. 오픈소스입니다.

흐름은 한 줄로 정리됩니다.

AI 회사에 더 이상 의존하지 말고, 내가 직접 만든 내 툴을 통제하자.

Anthropic이 가격표로 장난치고, 본의 아니게 모델을 멍청하게 만들고, 뒤늦게 보고서를 내는 동안 사람들은 신뢰를 잃었습니다. 그리고 동시에 이런 생각을 하게 됐습니다.

“이거 Claude에 의존하다가 나중에 문 한 번 닫히면 나는 망하는 거 아닌가?”

그래서 오픈소스가 살아납니다. 단순히 공짜라서가 아닙니다. 내가 통제할 수 있기 때문입니다. 가격표 하나, 정책 하나, 기능 제한 하나에 내 작업 흐름 전체가 흔들리지 않게 만들고 싶은 겁니다.

Kimi K2.6: 300개 에이전트를 굴리는 오픈소스 모델

Kimi K2.6 에이전트 스웜

중국 Moonshot AI가 만든 Kimi의 새 버전 K2.6이 나왔습니다. 누구나 무료로 쓸 수 있는 오픈소스 모델로 소개됐습니다. 물론 제대로 돌리려면 컴퓨터가 받쳐줘야 합니다.

벤치마크상으로는 Claude 이전 버전인 4.6과 비교해 어떤 영역에서는 이기고, 어떤 영역에서는 근소하게 지는 수준으로 제시됐습니다. 벤치마크는 늘 어느 정도 걸러 봐야 합니다. 그래도 오픈소스 모델이 이 정도까지 따라왔다는 신호는 분명합니다.

이번 업데이트에서 제일 흥미로운 건 에이전트 스웜입니다. 큰 작업을 받으면 알아서 잘게 쪼개고, 최대 300개의 작은 에이전트가 동시에 처리한 뒤, 결과를 다시 모아서 마무리합니다.

이 개념은 앞으로 중요해집니다. 하나의 AI가 모든 걸 순서대로 처리하는 방식은 큰 작업에서 너무 느립니다. 경쟁사 유튜브 채널 500개의 대본을 조사한다고 생각해보세요. 한 에이전트가 하나씩 읽고 있으면 답이 없습니다. 여러 에이전트가 나눠 읽고, 마지막에 결과를 합쳐야 합니다.

Kimi는 그 방향을 제품 기능으로 가져왔습니다. 비용도 Opus 대비 약 20% 수준으로 언급됐습니다. 상용 최상위 모델보다 훨씬 싸게, 꽤 강한 작업 능력을 준다면 개발자와 크리에이터가 안 써볼 이유가 없습니다.

Claude 디자인 오픈소스: 기능을 훔치는 게 아니라 통제권을 가져오는 것

클로드 디자인 오픈소스 공개

Claude 디자인도 오픈소스 쪽에서 크게 움직였습니다. Claude 디자인 시스템 프롬프트가 유출됐고, 사람들은 그걸 단순히 복붙해서 “Claude 디자인 클론”을 만드는 데서 멈추지 않았습니다.

Codex, Kimi, Hermes, OpenClaw 같은 환경에서 Claude 디자인을 구현하는 방법을 정리한 오픈소스 프로젝트들이 나오기 시작했습니다. 핵심은 이겁니다.

Claude 안에서만 되던 기능을 내 에이전트가 통제할 수 있는 기능으로 바꾸는 것.

이건 단순한 클론 싸움이 아닙니다. Anthropic의 정책이나 가격표에 묶이지 않는 제작 환경을 만들려는 움직임입니다. Claude가 문을 닫아도, 기능을 제한해도, 가격을 바꿔도 내 워크플로우가 무너지지 않게 하려는 겁니다.

화샤 디자인과 트위크 인터페이스

대표적인 사례가 화샤 디자인입니다. 중국 디자이너 화숙이 만든 프로젝트로, Claude 디자인의 핵심 개념 중 하나인 트위크를 가져왔습니다.

트위크는 사용자가 슬라이더를 움직이며 웹사이트의 스타일과 구성을 직접 바꾸는 인터페이스입니다. AI가 결과물을 만들고 끝나는 게 아니라, 사람이 그 결과물을 만지고 조정할 수 있게 만드는 장치입니다.

이게 중요합니다. AI 디자인의 다음 단계는 “자동 생성”이 아닙니다. AI가 만들고, 사람이 조정하고, 다시 AI가 반영하는 통제 가능한 제작 환경입니다.

하이퍼프레임: AI 영상 제작은 HTML 쪽으로 갈 수 있다

하이퍼프레임과 HTML 영상 제작

영상 쪽에서도 같은 흐름이 나왔습니다. 영상 회사 HeyGen이 하이퍼프레임이라는 오픈소스 도구를 공개했습니다. 이 도구는 영상을 HTML로 만듭니다.

웹사이트를 만드는 것처럼 HTML을 구성하고, 그 HTML을 프레임 단위로 그려서 합치는 방식입니다. 원래 AI 영상 제작 도구로는 Remotion이 많이 쓰였습니다. Remotion은 오픈소스이고, 인포그래픽 영상 만들 때 정말 좋습니다.

하지만 Remotion에는 큰 문제가 있습니다. React와 TSX 기반이라 AI에게 상대적으로 낯섭니다. AI가 적응하는 데 토큰이 들고, 환경 세팅에도 시간이 듭니다.

반면 하이퍼프레임은 HTML 중심입니다. AI가 학습한 웹 문서 대부분은 HTML 기반입니다. AI 입장에서는 HTML이 거의 모국어에 가깝습니다. 당연히 더 빨리 이해하고, 더 빨리 수정하고, 더 빨리 반복할 수 있습니다.

숫자로도 차이가 납니다. 같은 영상을 만드는 데 하이퍼프레임은 약 60초, Remotion은 약 162초가 걸렸다고 합니다. 환경 세팅에만 4분이 걸리는 경우도 있습니다. 단순 비교로도 3~4배 가까운 차이입니다.

HeyGen도 자체 영상 제작에 Remotion 대신 하이퍼프레임을 쓰기 시작했다고 합니다. 이건 꽤 강한 신호입니다. 도구를 만든 회사가 자기 제작 파이프라인에서 바꿔 쓰고 있다는 뜻이니까요.

AI 영상 제작에서 중요한 건 “멋진 결과물 한 번”이 아닙니다. AI가 빠르게 이해하고, 수정하고, 반복할 수 있는 제작 환경입니다. 그 기준으로 보면 하이퍼프레임은 꽤 설득력 있습니다.

결론: 다음 경쟁은 성능표가 아니라 신뢰와 통제권이다

이번 주를 표면적으로 보면 OpenAI 신모델, Anthropic 사과, Kimi 업데이트, 하이퍼프레임 공개입니다. 그런데 밑바닥에서 움직이는 건 더 큽니다.

OpenAI는 GPT-5.5, GPT-Image-2, Codex로 시장을 더 세게 먹으려 합니다. Anthropic은 가격표 논란과 사고 보고서로 신뢰를 깎아먹었습니다. 그리고 그걸 본 유저들은 오픈소스로 움직이고 있습니다.

이제 질문은 “어느 모델이 더 똑똑한가”에서 끝나지 않습니다.

내가 이 도구를 얼마나 통제할 수 있는가.

회사가 내 작업 흐름을 얼마나 존중하는가.

문제가 생겼을 때 얼마나 빨리 인정하고 투명하게 말하는가.

앞으로 AI 도구를 고를 때 이 세 가지가 더 중요해질 겁니다. 성능은 따라잡힙니다. 가격도 바뀝니다. 하지만 신뢰를 잃은 회사는 유저의 작업 흐름 안에서 점점 밀려납니다.

그리고 지금 그 균열이 보이기 시작했습니다.

#AI#OpenAI#GPT-5.5#Claude#Anthropic#Codex#Open Source#Kimi#HyperFrames