IT Tech News. Claude Opus 4.7은 정말 퇴보했을까? — 좋아졌다는 평가와 불만이 같이 나오는 이유

Claude Opus 4.7을 둘러싼 상반된 평가를 보여주는 일러스트

요즘 AI 커뮤니티를 보다 보면 Claude Opus 4.7이 퇴보한 것 아니냐는 이야기가 자주 보입니다. 특히 Reddit이나 X 같은 곳에서는 “더 멍청해졌다”, “말을 안 듣는다”, “토큰만 더 먹는다” 같은 반응도 꽤 강하게 나옵니다.

그런데 흥미로운 점은, 같은 시기에 좋아졌다는 평가도 분명히 같이 나온다는 겁니다. 공식 발표와 일부 벤치마크, 그리고 특정 실무 사용자들의 반응을 보면 오히려 코딩, 툴 사용, 비전 처리 같은 영역은 더 좋아졌다고 보는 쪽도 적지 않습니다.

즉 지금 Opus 4.7을 둘러싼 논쟁은 단순히 “좋아졌다 vs 나빠졌다”의 문제가 아니라, 어디는 좋아졌고, 어디는 오히려 체감이 나빠졌다고 느끼는 상황으로 보는 편이 더 정확합니다.

벤치마크 개선과 사용자 불만이 함께 나오는 구조를 보여주는 일러스트
Opus 4.7 논란의 핵심은 단순한 퇴보 논쟁이 아니라, 좋아졌다는 평가와 불만이 동시에 나온다는 점에 있습니다.

공식 기준으로는 왜 좋아졌다고 말하는가

  • 고난도 소프트웨어 엔지니어링
  • 툴 사용과 에이전틱 코딩
  • 비전 성능
  • 긴 실행 흐름에서의 일관성

실제로 공개된 숫자 기준으로도 SWE-bench Verified, SWE-bench Pro, MCP-Atlas, OSWorld-Verified 같은 개선 포인트가 강조됩니다.

왜 커뮤니티에선 퇴보 이야기가 나오는가

  • 긴 컨텍스트에서 체감이 나빠졌다
  • 예전보다 지시를 덜 잘 따른다
  • 더 게을러진 느낌이 든다
  • 할루시네이션이 늘어난 것 같다
  • 말투나 글맛이 바뀌었다
  • 토큰이 더 빨리 닳는 느낌이 든다

특히 “더 똑똑해졌다기보다 더 피곤해졌다”는 반응이 꽤 눈에 띕니다.

토큰 사용량과 긴 컨텍스트 체감 불만을 보여주는 일러스트
이번 불만은 성능 문제만이 아니라, 토큰 체감과 사용자 경험 문제까지 같이 얽혀 있다는 점이 중요합니다.

왜 벤치마크와 체감이 어긋날 수 있는가

벤치마크는 특정 과업을 측정하지만, 사람이 느끼는 좋은 모델은 그보다 훨씬 넓은 경험이기 때문입니다.

  • 답이 맞더라도 너무 장황하면 피곤할 수 있고
  • 더 정밀하더라도 말투가 차가워지면 덜 좋게 느껴질 수 있고
  • 비용 체감이 나빠지면 성능 향상이 있어도 불만이 커질 수 있습니다

왜 토큰 이슈가 특히 불만을 키우는가

공식 가격표 자체는 이전과 같더라도, 실제 입력이 더 많은 토큰으로 계산되거나 사용자가 체감상 제한에 더 빨리 걸리게 되면 불만은 훨씬 커질 수 있습니다.

  • 예전보다 얼마 못 썼는데 벌써 제한?
  • 왜 똑같이 써도 더 빨리 닳지?
  • 성능이 좋아졌다고 해도 이 체감이면 불편한데?

그래서 지금 어떻게 보는 게 맞을까

  • Opus 4.7은 어떤 영역에서는 좋아졌고, 특히 코딩과 툴 사용 쪽에선 개선 평가가 있습니다.
  • 반대로 긴 컨텍스트, 지시 이행, 대화 품질, 토큰 체감에서는 불만도 꽤 크게 나오고 있습니다.
  • 지금의 논쟁은 “퇴보”로 단정하기보다, 용도에 따라 평이 크게 갈리는 모델이 나왔다고 보는 편이 더 정확합니다.
벤치마크와 실제 체감을 함께 봐야 한다는 균형적 평가를 보여주는 일러스트
결국 Opus 4.7은 무조건 퇴보했다기보다, 개선된 부분과 불편해진 부분이 동시에 존재하는 모델로 보는 편이 더 현실적입니다.

댓글 남기기