[삼성 이영진] 글로벌 AI/SW

xAI, 논란의 모델 Grok 4 발표 - 엇갈리는 반응, 어떻게 봐야할까

안녕하세요 삼성증권 글로벌 AI/SW 담당 이영진입니다.

일론 머스크가 이끄는 xAI가 버전 업 모델 Grok 4를 발표했습니다. 벤치마크 기준으로 높은 성능을 달성했으나, 반대로 실제 사용감이 아쉽다는 의견도 있는데요

머스크는 발표에서 슈퍼 휴먼 레벨로 Reasoning이 가능하고, 학부생 수준을 넘어 모든 분야에서 박사급 이상의 성능이라는 코멘트를 했습니다. 지능 폭발(Intelligence Explosion)의 시작점이라는 것인데요

여러 벤치마크에서 SOTA 성능을 보여줬고, 특히 수학 및 과학(STEM) 분야에서 높은 점수를 달성한 것은 사실입니다. AIME 2025는 100%를 달성하기도 했네요.

수학 및 물리 문제 해결에서는 극한의 정확도와 높은 문제 인식 능력, 오류 수정 및 다중 해석 가능을 강조했습니다.

물론 높은 벤치마크 달성을 위해 과적합 학습 진행을 했을 것이라는 의견도 있고, 툴 활용에 집착하는 모습도 높은 벤치마크 달성을 위해 짜여진 것이 아닌가하는 의문이 들지만,

현 시점 가장 지능이 높은 AI 모델인 것은 맞습니다. HLE(Humanity's Last Exam)나 ARG-AGI 같은 벤치마크까지 레벨업에 성공했으니까요

높은 벤치마크에 비해 체감되는 성능이 아쉽다는 이야기가 나오는 것은 완성형 모델이 아니기 때문이라고 판단합니다.

강화학습 일반화를 고려해 수학이랑 과학을 열심히 학습했고, 결과로 해당 분야에서 엄청난 고수가 되었지만, 코딩, 글쓰기, 이미지 이해 등 다른 분야 성능이 아직 부족한 상황입니다.

부족한 부분을 채우기 위해 향후 코딩 모델, 멀티 모달 에이전트, 영상 생성 모델 등 업데이트를 시사했습니다

'Grok 4의 핵심 대상은 높은 IQ를 지닌 사람'이라는 일반인을 까는 듯한 의견도 나왔지만, Grok 4 성능을 극한으로 끌어낼 수 있는 질문(ex 책과 인터넷에 없는 재료과학 문제)을 던지기 어렵다는 것을 의미하기도 합니다

(그래도 일반인으로서 불편하긴 하네요..)

현재 버전 Grok 4의 쓰임은 수학 물리 과학 문제 측면 활용입니다. 실제로 머스크는 올해 말 이후 새로운 유용한 기술을 발견하고, 내년에는 새로운 물리 법칙의 발견을 기대 한다는 코멘트를 남겼습니다.

이를 위한 물리 세계와의 상호작용을 강조하며, Grok과 옵티머스의 결합이 진정한 혁신이라고 주장했습니다.

또한 Grok 4의 주요 특징은 보이스 모드 개선입니다. 레이턴시가 감소되었고, 부드러운 대화가 가능하며, 목소리도 추가되었습니다.

타사 챗 봇의 보이스 모드와 직접 비교하는 시연까지하며 자신감을 보여줬는데요. 늦어도 다음 주에는 테슬라 차량에 탑재될 것이라는 포스팅을 남기며 기대감도 높혔습니다.

전체 AI 산업 발전 관점에서 Grok 4가 보여준 주요 의미는 추론 스케일링 강화를 통한 모델 성능 향상이 아직도 가능하다는 것을 증명한 것입니다.

Grok 2 → 3에는 사전 학습 사용 컴퓨팅 자원이 10배 증가했지만, Grok 3 → 4는 강화학습에 컴퓨팅 자원이 추가로 10배 증가했습니다.(Grok 2 → 4는 100배). 20만개 GPU의 Colossus 클러스터가 기반입니다.

또한 Grok 4 Heavy와 같은 멀티 에이전트 처리 시스템을 보여준 것도 유의미한 발전 방향성입니다.

Grok 4는 경쟁의 끝이 아니라 또 다른 Phase의 시작입니다. 오픈AI의 GPT-5와 구글의 Gemini 3.0도 가까워지고 있습니다. 추가 업데이트해 드리겠습니다.

(2025/7/11 공표자료)

👍3❤1

2.5K views00:51