
목차
요즘 AI 커뮤니티를 보다 보면 Claude Opus 4.7이 퇴보한 것 아니냐는 이야기가 자주 보입니다. 특히 Reddit이나 X 같은 곳에서는 “더 멍청해졌다”, “말을 안 듣는다”, “토큰만 더 먹는다” 같은 반응도 꽤 강하게 나옵니다.
그런데 흥미로운 점은, 같은 시기에 좋아졌다는 평가도 분명히 같이 나온다는 겁니다. 공식 발표와 일부 벤치마크, 그리고 특정 실무 사용자들의 반응을 보면 오히려 코딩, 툴 사용, 비전 처리 같은 영역은 더 좋아졌다고 보는 쪽도 적지 않습니다.
즉 지금 Opus 4.7을 둘러싼 논쟁은 단순히 “좋아졌다 vs 나빠졌다”의 문제가 아니라, 어디는 좋아졌고, 어디는 오히려 체감이 나빠졌다고 느끼는 상황으로 보는 편이 더 정확합니다.

공식 기준으로는 왜 좋아졌다고 말하는가
- 고난도 소프트웨어 엔지니어링
- 툴 사용과 에이전틱 코딩
- 비전 성능
- 긴 실행 흐름에서의 일관성
실제로 공개된 숫자 기준으로도 SWE-bench Verified, SWE-bench Pro, MCP-Atlas, OSWorld-Verified 같은 개선 포인트가 강조됩니다.
왜 커뮤니티에선 퇴보 이야기가 나오는가
- 긴 컨텍스트에서 체감이 나빠졌다
- 예전보다 지시를 덜 잘 따른다
- 더 게을러진 느낌이 든다
- 할루시네이션이 늘어난 것 같다
- 말투나 글맛이 바뀌었다
- 토큰이 더 빨리 닳는 느낌이 든다
특히 “더 똑똑해졌다기보다 더 피곤해졌다”는 반응이 꽤 눈에 띕니다.

왜 벤치마크와 체감이 어긋날 수 있는가
벤치마크는 특정 과업을 측정하지만, 사람이 느끼는 좋은 모델은 그보다 훨씬 넓은 경험이기 때문입니다.
- 답이 맞더라도 너무 장황하면 피곤할 수 있고
- 더 정밀하더라도 말투가 차가워지면 덜 좋게 느껴질 수 있고
- 비용 체감이 나빠지면 성능 향상이 있어도 불만이 커질 수 있습니다
왜 토큰 이슈가 특히 불만을 키우는가
공식 가격표 자체는 이전과 같더라도, 실제 입력이 더 많은 토큰으로 계산되거나 사용자가 체감상 제한에 더 빨리 걸리게 되면 불만은 훨씬 커질 수 있습니다.
- 예전보다 얼마 못 썼는데 벌써 제한?
- 왜 똑같이 써도 더 빨리 닳지?
- 성능이 좋아졌다고 해도 이 체감이면 불편한데?
그래서 지금 어떻게 보는 게 맞을까
- Opus 4.7은 어떤 영역에서는 좋아졌고, 특히 코딩과 툴 사용 쪽에선 개선 평가가 있습니다.
- 반대로 긴 컨텍스트, 지시 이행, 대화 품질, 토큰 체감에서는 불만도 꽤 크게 나오고 있습니다.
- 지금의 논쟁은 “퇴보”로 단정하기보다, 용도에 따라 평이 크게 갈리는 모델이 나왔다고 보는 편이 더 정확합니다.

같이 보면 좋은 글