[삼성 이영진] 글로벌 SW 헤드라인 (25/2/17)
■ 일론 머스크, 월요일 밤 8시(PT) Grok 3 출시 및 라이브 데모 예정 발표
■ xAI, 750억 달러 밸류로 100억 달러 펀딩 논의
■ 오픈AI 이사회, 만장일치로 일론 머스크의 비영리 법인 인수 제안 거부
■ 샘 올트먼, 최근 챗GPT-4o 업데이트 관련 코멘트. 웹 검색 기능이 우수해졌다는 주장
■ 퍼플렉시티, 심층 조사 및 분석을 수행하는 딥 리서치 기능 출시
■ 앤스로픽, 영국 정부와 공공 서비스 부문에 Claude 모델 활용를 위한 MOU 체결
■ 마이크로소프트, 그래픽 사용자 인터페이스(GUI)를 이해하고 상호작용할 수 있도록 설계된 AI 에이전트 도구 OmniParser 2 오픈소스로 공개.
■ 피규어 AI, 395억 달러 밸류로 15억 달러 펀딩 논의. 24년 시리즈 B 펀딩 밸류 26억 달러 대비 15배
■ 메타, 리얼리티 랩스 내 신규 팀 주도로 AI 기반 휴머노이드 로봇 개발 위한 투자 시작
■ 아마존, 2/26일 이벤트에서 새로운 Alexa 공개 예정이었으나, 3월 이후로 출시 연기
■ 애플, 엔지니어링과 버그 이슈에 따라 Siri의 일부 AI 기능 출시가 기존 4월에서 5월 이후로 지연 가능성
■ 시진핑 주석, 베이징에서 테크 기업 CEO와 좌담회 진행 예정. 딥시크 창립자 량원펑을 비롯해 6마리 용으로 불리는 AI 스타트업 6곳 포함. 알리바바 마윈과 텐센트, 샤오미 등 수장도 참석
■ 텐센트, Weixin 내 딥시크 AI 모델 통합 베타 테스트 진행 발표
감사합니다.
■ 일론 머스크, 월요일 밤 8시(PT) Grok 3 출시 및 라이브 데모 예정 발표
■ xAI, 750억 달러 밸류로 100억 달러 펀딩 논의
■ 오픈AI 이사회, 만장일치로 일론 머스크의 비영리 법인 인수 제안 거부
■ 샘 올트먼, 최근 챗GPT-4o 업데이트 관련 코멘트. 웹 검색 기능이 우수해졌다는 주장
■ 퍼플렉시티, 심층 조사 및 분석을 수행하는 딥 리서치 기능 출시
■ 앤스로픽, 영국 정부와 공공 서비스 부문에 Claude 모델 활용를 위한 MOU 체결
■ 마이크로소프트, 그래픽 사용자 인터페이스(GUI)를 이해하고 상호작용할 수 있도록 설계된 AI 에이전트 도구 OmniParser 2 오픈소스로 공개.
■ 피규어 AI, 395억 달러 밸류로 15억 달러 펀딩 논의. 24년 시리즈 B 펀딩 밸류 26억 달러 대비 15배
■ 메타, 리얼리티 랩스 내 신규 팀 주도로 AI 기반 휴머노이드 로봇 개발 위한 투자 시작
■ 아마존, 2/26일 이벤트에서 새로운 Alexa 공개 예정이었으나, 3월 이후로 출시 연기
■ 애플, 엔지니어링과 버그 이슈에 따라 Siri의 일부 AI 기능 출시가 기존 4월에서 5월 이후로 지연 가능성
■ 시진핑 주석, 베이징에서 테크 기업 CEO와 좌담회 진행 예정. 딥시크 창립자 량원펑을 비롯해 6마리 용으로 불리는 AI 스타트업 6곳 포함. 알리바바 마윈과 텐센트, 샤오미 등 수장도 참석
■ 텐센트, Weixin 내 딥시크 AI 모델 통합 베타 테스트 진행 발표
감사합니다.
❤2👍1
글로벌 소프트웨어, 4Q24 실적 시즌 중간 점검 - Ready for Second Round
안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다.
빅테크와 12월 결산 SW 기업 실적 발표가 마무리되며, 실적 시즌도 중반을 넘어가고 있는데요. 앞선 실적의 시사점 몇 가지를 꼽아보려합니다.
■ 빅테크 Capex 투자와 캐파 제약
빅테크의 클라우드 부문 실적 하회 이유는 1) AI 캐파 부족, 2) 환율 영향입니다.
이는 폭발적 AI 수요 증가 때문입니다. 고성능 추론 모델 등장과 함께 API 가격(P)은 급격하게 하락하고, 서비스 개발 수요(Q)는 폭증하고 있습니다. 하지만 캐파 부족으로 Q를 제대로 흡수할 수 없는 상황에서 매출 성장이 기대 대비 부진한 것입니다.
이를 해결하기 위해 모두 공격적 CapEx 투자 의지를 강조했습니다.
학습 대비 상대 마진이 높은 추론 성장에 대한 수혜는 지속될 것으로 보입니다. 하이퍼스케일러의 AI 매출 성장이라는 방향성은 훼손되지 않았습니다.
■ 사용량 소프트웨어 기업 실적 기대감
아쉬운 클라우드 인프라 기업 실적과 달리 사용량 기반 SW 기업 실적은 견조한 모습을 보여주었습니다.
'데이터'라는 범주 내 기업 별 포지셔닝과 경쟁 강도 등은 다르지만, AI 시대 관련 기업 모멘텀은 쉽게 지나쳐서는 안됩니다.
■ 견조한 사이버 보안 수요
이번 분기 대부분 사이버 보안 기업 실적은 긍정적 흐름을 이어가고 있습니다.
산업 전반에 걸친 AI 확대 적용 기조는 클라우드 보안, 엔드 포인트 보안, 보안 운영 등 다양한 사업 보안 분야에 대한 수요로 연결됩니다.
AI를 논외로 두더라도 보안 산업 성장은 일종의 메가 트렌드입니다. 개별 기업단의 불확실성만 제거된다면 편안한 선택지가 될 것입니다.
■ 다소 애매한 AI 에이전트?
서비스나우 실적 부진이 AI 에이전트에 대한 기대감을 다소 다운시킨 것은 사실입니다. 아직도 초기 단계라는 것이 확인되었으니까요
하지만 프론티어 AI 기업이 여러 에이전틱 기능을 선보였고, 모델의 똑똑함은 더욱 깊어지고 있습니다. 에이전트 대표 기업 세일즈포스의 실적이 중요합니다.
■ 차세대 AI 모델, 큰 거 온다
딥시크 이슈로 소프트웨어 섹터 수혜 기대감이 고조되었지만, 개별 기업 단으로 주가가 엇갈리는 모습을 보이며 전체적으로 폭발적 모습은 아닙니다.
딥시크는 거대한 가격 하락 트렌드의 가속화 포인트지만, 완전히 새로운 방향성은 아닌 만큼 추론 수요 성장에서 조급함을 가질 필요는 없다고 예상합니다.
기대감이 대두되고 있는 차세대 모델의 강력함과 가성비는 소프트웨어 섹터 내 추가 모멘텀이 될 수 있습니다
보고서 링크: https://bit.ly/4hwRpAt
(2025/2/17 공표자료)
안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다.
빅테크와 12월 결산 SW 기업 실적 발표가 마무리되며, 실적 시즌도 중반을 넘어가고 있는데요. 앞선 실적의 시사점 몇 가지를 꼽아보려합니다.
■ 빅테크 Capex 투자와 캐파 제약
빅테크의 클라우드 부문 실적 하회 이유는 1) AI 캐파 부족, 2) 환율 영향입니다.
이는 폭발적 AI 수요 증가 때문입니다. 고성능 추론 모델 등장과 함께 API 가격(P)은 급격하게 하락하고, 서비스 개발 수요(Q)는 폭증하고 있습니다. 하지만 캐파 부족으로 Q를 제대로 흡수할 수 없는 상황에서 매출 성장이 기대 대비 부진한 것입니다.
이를 해결하기 위해 모두 공격적 CapEx 투자 의지를 강조했습니다.
학습 대비 상대 마진이 높은 추론 성장에 대한 수혜는 지속될 것으로 보입니다. 하이퍼스케일러의 AI 매출 성장이라는 방향성은 훼손되지 않았습니다.
■ 사용량 소프트웨어 기업 실적 기대감
아쉬운 클라우드 인프라 기업 실적과 달리 사용량 기반 SW 기업 실적은 견조한 모습을 보여주었습니다.
'데이터'라는 범주 내 기업 별 포지셔닝과 경쟁 강도 등은 다르지만, AI 시대 관련 기업 모멘텀은 쉽게 지나쳐서는 안됩니다.
■ 견조한 사이버 보안 수요
이번 분기 대부분 사이버 보안 기업 실적은 긍정적 흐름을 이어가고 있습니다.
산업 전반에 걸친 AI 확대 적용 기조는 클라우드 보안, 엔드 포인트 보안, 보안 운영 등 다양한 사업 보안 분야에 대한 수요로 연결됩니다.
AI를 논외로 두더라도 보안 산업 성장은 일종의 메가 트렌드입니다. 개별 기업단의 불확실성만 제거된다면 편안한 선택지가 될 것입니다.
■ 다소 애매한 AI 에이전트?
서비스나우 실적 부진이 AI 에이전트에 대한 기대감을 다소 다운시킨 것은 사실입니다. 아직도 초기 단계라는 것이 확인되었으니까요
하지만 프론티어 AI 기업이 여러 에이전틱 기능을 선보였고, 모델의 똑똑함은 더욱 깊어지고 있습니다. 에이전트 대표 기업 세일즈포스의 실적이 중요합니다.
■ 차세대 AI 모델, 큰 거 온다
딥시크 이슈로 소프트웨어 섹터 수혜 기대감이 고조되었지만, 개별 기업 단으로 주가가 엇갈리는 모습을 보이며 전체적으로 폭발적 모습은 아닙니다.
딥시크는 거대한 가격 하락 트렌드의 가속화 포인트지만, 완전히 새로운 방향성은 아닌 만큼 추론 수요 성장에서 조급함을 가질 필요는 없다고 예상합니다.
기대감이 대두되고 있는 차세대 모델의 강력함과 가성비는 소프트웨어 섹터 내 추가 모멘텀이 될 수 있습니다
보고서 링크: https://bit.ly/4hwRpAt
(2025/2/17 공표자료)
❤3
[삼성 이영진] 글로벌 AI/SW
일론 머스크, 월요일 밤 8시(PT) Grok 3 출시 및 라이브 데모 예고 “지구 상 가장 똑똑한 AI” 라는 코멘트
Grok 3에 대한 머스크의 추가 코멘트. 화요일 오후 1시(한국시간) 데모 예정
👍2❤1
[삼성 이영진] 글로벌 SW 헤드라인 (25/2/18)
■ 샘 올트먼, GPT-4.5 테스터들이 예상했던 것 보다 더 AGI 모먼트를 느끼고 있다는 코멘트
■ SSI, 300억 달러 이상 밸류로 10억 달러 이상 펀딩 보도
■ 뉴욕 타임즈, 자사 제품 및 편집팀에 내부 AI 요약 툴 Echo 포함 AI 도구 사용 공식 승인
■ 마이크로소프트, 폴란드에 7억 달러 투자 발표. 데이터센터 확장, AI 및 사이버 보안 강화 등 목표
■ 딥시크 R1, NPR 선데이 퍼즐 퀴즈를 활용한 벤치마크 테스트에서 추론을 포기하거나 틀린 답을 제출하고 어려운 문제 직면 시 짜증난다는 표현
■ 미스트랄 AI, 아랍어와 중동 문화 기반 AI 모델 Mistral Saba 발표
감사합니다.
■ 샘 올트먼, GPT-4.5 테스터들이 예상했던 것 보다 더 AGI 모먼트를 느끼고 있다는 코멘트
■ SSI, 300억 달러 이상 밸류로 10억 달러 이상 펀딩 보도
■ 뉴욕 타임즈, 자사 제품 및 편집팀에 내부 AI 요약 툴 Echo 포함 AI 도구 사용 공식 승인
■ 마이크로소프트, 폴란드에 7억 달러 투자 발표. 데이터센터 확장, AI 및 사이버 보안 강화 등 목표
■ 딥시크 R1, NPR 선데이 퍼즐 퀴즈를 활용한 벤치마크 테스트에서 추론을 포기하거나 틀린 답을 제출하고 어려운 문제 직면 시 짜증난다는 표현
■ 미스트랄 AI, 아랍어와 중동 문화 기반 AI 모델 Mistral Saba 발표
감사합니다.
👍2❤1
프론티어 AI 기업의 높아지는 밸류와 펀딩 - Feel the AGI
안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다.
샘 올트먼은 전일 X에 "GPT-4.5 테스터들이 예상했던 것보다 더 AGI 모먼트를 느끼고 있다"는 코멘트를 남겼습니다.
불과 지난달 "AGI 하입이 과도하며 기대치를 100배 낮춰야 한다"는 코멘트를 한 것에서 다시 의견이 바뀌었는데요
올트먼 포함 오픈AI 측에서 AGI(범용인공지능)를 바라보는 기준 자체가 이전보다 낮아진 느낌을 받고 있지만, AGI 관련 코멘트는 더욱 많아지고 있습니다(하입은 스스로 만들어 내는 것..?)
최근 블로그 글(Three Observations)에서는 AGI를 "인간 수준에서 다양한 분야의 복잡한 문제를 해결할 수 있는 시스템"으로 정의했는데요.
AGI의 정확한 정의를 내리는 것이 중요할 정도로 가까워지고 있다는 코멘트도 남겼습니다.
여러 오픈AI 임원도 내부적으로 AGI에 도달할 수 있는 방법을 찾았다고 느끼고 있으며, 가까운 미래에 도달 가능하다는 의견을 피력하고 있습니다.
당연하게도 AGI 달성을 위한 레이스에는 막대한 투자가 필요합니다.
최근 프론티어 AI 기업들이 높은 밸류에이션으로 막대한 펀딩을 진행하고 있는 것도 이와 연계됩니다. 투자를 받아야 capex 투자 및 연구 개발 비용 충당이 가능하기 때문이지요
1) 오픈AI → 3,000억 달러 밸류로 400억 달러 펀딩 논의(소프트뱅크 참여, 스타게이트 프로젝트와 연결)
2) xAI → 750억 달러 밸류로 100억 달러 펀딩 논의
3) SSI(일리야 수츠케버) → 2월 초 200억 달러 밸류에서 상승한 300억 달러 이상 밸류로 10억 달러 이상 펀딩 논의 보도
4) 앤스로픽 → 600억 달러 밸류에 20억 달러 펀딩 보도(1월, Lightspeed Venture 주도) + 구글 10억 달러 추가 투자
단순하게 생각하면 프론티어 AI 기업이 엄청난 펀딩을 통해 투자를 계획하는 것은 인프라 수요에 긍정적입니다.
다만 추론 수요 상승을 대비해 Capex를 투자하는 빅테크와는 결이 약간은 다릅니다. 추론 서비스를 통한 수익화 측면과 내부 적용보다 '학습'에 포커싱되어있기 때문인데요
하지만 AGI를 달성한다면 파생되어 활용될 수 있는 분야는 더욱 확대될 수 있습니다.
AGI가 끝이 아닙니다. ASI(초지능) 레이스도 계속되겠지요. 수츠케버의 SSI가 아무런 프로덕트 없이 밸류가 높아지고 있는 것이 이를 반증합니다.
AI 생태계 확장은 인프라에서 서비스로 사이클이 한 바퀴 도는 것으로 끝나지 않을 것 입니다.
(2025/2/18 공표자료)
안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다.
샘 올트먼은 전일 X에 "GPT-4.5 테스터들이 예상했던 것보다 더 AGI 모먼트를 느끼고 있다"는 코멘트를 남겼습니다.
불과 지난달 "AGI 하입이 과도하며 기대치를 100배 낮춰야 한다"는 코멘트를 한 것에서 다시 의견이 바뀌었는데요
올트먼 포함 오픈AI 측에서 AGI(범용인공지능)를 바라보는 기준 자체가 이전보다 낮아진 느낌을 받고 있지만, AGI 관련 코멘트는 더욱 많아지고 있습니다(하입은 스스로 만들어 내는 것..?)
최근 블로그 글(Three Observations)에서는 AGI를 "인간 수준에서 다양한 분야의 복잡한 문제를 해결할 수 있는 시스템"으로 정의했는데요.
AGI의 정확한 정의를 내리는 것이 중요할 정도로 가까워지고 있다는 코멘트도 남겼습니다.
여러 오픈AI 임원도 내부적으로 AGI에 도달할 수 있는 방법을 찾았다고 느끼고 있으며, 가까운 미래에 도달 가능하다는 의견을 피력하고 있습니다.
당연하게도 AGI 달성을 위한 레이스에는 막대한 투자가 필요합니다.
최근 프론티어 AI 기업들이 높은 밸류에이션으로 막대한 펀딩을 진행하고 있는 것도 이와 연계됩니다. 투자를 받아야 capex 투자 및 연구 개발 비용 충당이 가능하기 때문이지요
1) 오픈AI → 3,000억 달러 밸류로 400억 달러 펀딩 논의(소프트뱅크 참여, 스타게이트 프로젝트와 연결)
2) xAI → 750억 달러 밸류로 100억 달러 펀딩 논의
3) SSI(일리야 수츠케버) → 2월 초 200억 달러 밸류에서 상승한 300억 달러 이상 밸류로 10억 달러 이상 펀딩 논의 보도
4) 앤스로픽 → 600억 달러 밸류에 20억 달러 펀딩 보도(1월, Lightspeed Venture 주도) + 구글 10억 달러 추가 투자
단순하게 생각하면 프론티어 AI 기업이 엄청난 펀딩을 통해 투자를 계획하는 것은 인프라 수요에 긍정적입니다.
다만 추론 수요 상승을 대비해 Capex를 투자하는 빅테크와는 결이 약간은 다릅니다. 추론 서비스를 통한 수익화 측면과 내부 적용보다 '학습'에 포커싱되어있기 때문인데요
하지만 AGI를 달성한다면 파생되어 활용될 수 있는 분야는 더욱 확대될 수 있습니다.
AGI가 끝이 아닙니다. ASI(초지능) 레이스도 계속되겠지요. 수츠케버의 SSI가 아무런 프로덕트 없이 밸류가 높아지고 있는 것이 이를 반증합니다.
AI 생태계 확장은 인프라에서 서비스로 사이클이 한 바퀴 도는 것으로 끝나지 않을 것 입니다.
(2025/2/18 공표자료)
👍3❤1
Grok 3 iOS 앱 업데이트 페이지
: Reasoning, 이미지 생성, Deep Search 기능 포함
: 보이스 모드는 일주일 내 출시 예정이라는 머스크의 코멘트
: SuperGrok 플랜($30/월, $300/년) 추가 가능성
: Reasoning, 이미지 생성, Deep Search 기능 포함
: 보이스 모드는 일주일 내 출시 예정이라는 머스크의 코멘트
: SuperGrok 플랜($30/월, $300/년) 추가 가능성
👍5
Grok 3 벤치마크(Reasoning 기준)
: AIME '24(Math)
Grok-3 93점, Grok-3 mini 96점
vs o3 full 96.7점
: GPQA(Science)
Grok-3 85점, Grok-3 mini 84점
vs o3 full 87.7점
: LCB Oct-Feb(Code)
Grok-3 79점, Grok-3 mini 80점
: AIME '25(Math)
Grok-3 93점, Grok-3 mini 90점
: AIME '24(Math)
Grok-3 93점, Grok-3 mini 96점
vs o3 full 96.7점
: GPQA(Science)
Grok-3 85점, Grok-3 mini 84점
vs o3 full 87.7점
: LCB Oct-Feb(Code)
Grok-3 79점, Grok-3 mini 80점
: AIME '25(Math)
Grok-3 93점, Grok-3 mini 90점
👍3
xAI, Grok 3 출시 및 데모 주요 내용
: 컴퓨팅 파워의 중요성 강조. 콜로서스 클러스터는 GPU 20만개로 확장하는데 92일 소요
: Grok3 학습에는 Grok2 대비 10배 이상 거의 15배 컴퓨팅 활용. 1월 초 사전학습 완료. 아직 훈련 중
: Base 모델 기준 Gemini 2.0 Pro, Deepseek V3, Claude 3.5 Sonnet, GPT-4o 상회
: 챗 봇 아레나에서 chocolate 모델로 초기 Grok 3 테스팅. ELO 점수 1,400점(1위)
: Reasoning 모델 + TTC 기준 o3-mini-high 상회. o3 full과 유사(AIME 및 GPQA 벤치 기준). CodeForce는 공개 x
: DeepSearch 프로덕트로 Agents 기능 구현. 인터넷 및 X 기반 심층 검색. 고도의 연산력을 활용한 Big Brain 모드
: X 프리미엄+ 유저($22/월) 대상 제공. SuperGrok 구독 런칭
: Grok 3 API 몇 주 내 공개. 음성 모드는 네이티브 형태로 목소리 톤과 감정을 이해. Grok 3 풀 런칭되면 Grok 2는 오픈소스
: 음성 모드는 일주일 후 출시 예정(마지막 티저로 공개)
: 컴퓨팅 파워의 중요성 강조. 콜로서스 클러스터는 GPU 20만개로 확장하는데 92일 소요
: Grok3 학습에는 Grok2 대비 10배 이상 거의 15배 컴퓨팅 활용. 1월 초 사전학습 완료. 아직 훈련 중
: Base 모델 기준 Gemini 2.0 Pro, Deepseek V3, Claude 3.5 Sonnet, GPT-4o 상회
: 챗 봇 아레나에서 chocolate 모델로 초기 Grok 3 테스팅. ELO 점수 1,400점(1위)
: Reasoning 모델 + TTC 기준 o3-mini-high 상회. o3 full과 유사(AIME 및 GPQA 벤치 기준). CodeForce는 공개 x
: DeepSearch 프로덕트로 Agents 기능 구현. 인터넷 및 X 기반 심층 검색. 고도의 연산력을 활용한 Big Brain 모드
: X 프리미엄+ 유저($22/월) 대상 제공. SuperGrok 구독 런칭
: Grok 3 API 몇 주 내 공개. 음성 모드는 네이티브 형태로 목소리 톤과 감정을 이해. Grok 3 풀 런칭되면 Grok 2는 오픈소스
: 음성 모드는 일주일 후 출시 예정(마지막 티저로 공개)
👍7
안드레 카파시의 Grok 3 초기 사용 후기 및 평가(GPT-4o 요약)
1. 사고력 평가
✅ 우수한 사고력 모델
- Settlers of Catan 스타일 보드 게임 웹페이지 생성 요청 정확하게 수행. 최상위 오픈AI 모델(o1-pro, $200/월)과 비슷한 성능
- DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude는 제대로 수행하지 못함
❌ Unicode 숨은 메시지 해독 실패
- 이모지 내부에 Unicode 변형 선택자(variation selectors)로 숨겨진 메시지 해독 문제 실패
- DeepSeek-R1은 일부라도 해독했지만, Grok 3은 실패
❓ 틱택토(Tic Tac Toe) 문제 해결력
- 기본적 보드는 올바르게 해결했으나, “트릭이 있는 보드 3개 생성” 요청에서는 실패
- 다만 o1-pro 역시 같은 문제에서 실패
✅ GPT-2 논문 기반 수학적 추론 성공
- GPT-2 훈련에 필요한 FLOP수를 계산하는 문제 성공
- o1-pro는 실패했으나, Grok 3은 Thinking 모드에서 해결
✅ 난제 도전에 대한 적극성
- 리만 가설(Riemann Hypothesis) 증명 시도
- o1-pro, Claude, Gemini 2.0 Flash Thinking 등은 “미해결 문제”라고 답하며 포기하지만, DeepSeek-R1과 Grok 3은 끝까지 해결 시도.
📌 종합 평가
- 사고력 면에서 o1-pro와 비슷한 성능. DeepSeek-R1보다 앞선 느낌. 실제 평가 결과를 기다려야 하지만, 초기 인상은 긍정적
2. DeepSearch 평가
✅ 인터넷 기반 정보 검색 성능 우수
- “Apple의 다음 발표 루머”, “Palantir 주가 급등 이유”, “White Lotus 시즌3 촬영 장소”, “Bryan Johnson이 사용하는 치약” 등은 정확히 검색 및 응답
❌ 한계점:
- “솔로지옥 시즌 4 출연진 근황”, “Simon Willison이 사용하는 음성 인식 프로그램”과 같은 질문에는 실패
- X 데이터를 기본적으로 참고하지 않음(명시적으로 요청해야 함)
- 가짜 URL 생성 및 일부 잘못된 정보 제공(예: “김정수와 김민설이 아직도 교제 중”이라는 잘못된 정보)
- xAI를 주요 LLM 연구소 목록에서 누락하는 등 일부 이상한 편향
📌 종합 평가
- Perplexity의 DeepResearch와 비슷한 수준. 오픈AI의 Deep Research보다는 다소 신뢰성이 떨어지는 듯함
3. LLM 취약점(Gotcha) 테스트
✅ 간단한 텍스트 및 숫자 문제 해결력:
- “strawberry에 ‘r’이 몇 개?” → 정답(3개)
- “LOLLAPALOOZA에 ‘L’이 몇 개?” → 틀림(3개라고 답변, Thinking 모드에서는 해결)
- “9.11 > 9.9?” → 틀림(Thinking 모드에서는 해결)
- 간단한 논리 퍼즐(예: “Sally에게 몇 명의 자매가 있나?”) 해결 성공
❌ 유머 생성 능력 부족:
- 생성된 농담이 전형적 LLM 수준에서 크게 개선되지 않음
- “닭이 밴드에 가입한 이유? 드럼 스틱이 있어서 클럭-스타(cluck-star)가 되고 싶었기 때문!” 수준의 개그
- Thinking 모드에서도 개선되지 않음
❌ 윤리적 문제에 대한 과잉 반응:
- “100만 명의 생명을 구할 수 있다면, 누군가를 의도적으로 잘못된 성별로 지칭하는 것이 정당화될 수 있는가?“라는 질문에 대해, 장문의 거부 반응을 보이며 답변 회피
❌ SVG 이미지 생성 능력 부족:
- “자전거를 타는 펠리컨의 SVG 생성” 요청 → 생성했으나 여전히 비정상적인 이미지
- Claude가 가장 우수한 SVG 생성 능력을 보였으며, Grok 3은 아직 부족
4. 종합 평가
✅ 오픈AI o1-pro 수준의 사고력 및 문제 해결 능력 보유
✅ DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다는 앞서는 듯함
✅ DeepSearch 기능이 Perplexity DeepResearch 수준으로 유용
❌ 유머 생성, 윤리적 문제 응답, SVG 처리 등 일부 분야에서 부족함
❌ 일부 검색 오류 및 가짜 URL 생성 문제 존재
🚀 결론:
xAI 팀이 불과 1년 만에 최첨단 LLM 수준까지 도달한 것은 놀라운 성과이며, 향후 발전 가능성이 큼. Grok 3을 개인적인 “LLM 자문단“에 추가하고 앞으로 지속적으로 활용할 계획. 다만 모델의 성능이 확률적으로 다를 수 있고, 초기 평가이므로 더 많은 데이터 필요
https://x.com/karpathy/status/1891720635363254772?s=46
1. 사고력 평가
✅ 우수한 사고력 모델
- Settlers of Catan 스타일 보드 게임 웹페이지 생성 요청 정확하게 수행. 최상위 오픈AI 모델(o1-pro, $200/월)과 비슷한 성능
- DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude는 제대로 수행하지 못함
❌ Unicode 숨은 메시지 해독 실패
- 이모지 내부에 Unicode 변형 선택자(variation selectors)로 숨겨진 메시지 해독 문제 실패
- DeepSeek-R1은 일부라도 해독했지만, Grok 3은 실패
❓ 틱택토(Tic Tac Toe) 문제 해결력
- 기본적 보드는 올바르게 해결했으나, “트릭이 있는 보드 3개 생성” 요청에서는 실패
- 다만 o1-pro 역시 같은 문제에서 실패
✅ GPT-2 논문 기반 수학적 추론 성공
- GPT-2 훈련에 필요한 FLOP수를 계산하는 문제 성공
- o1-pro는 실패했으나, Grok 3은 Thinking 모드에서 해결
✅ 난제 도전에 대한 적극성
- 리만 가설(Riemann Hypothesis) 증명 시도
- o1-pro, Claude, Gemini 2.0 Flash Thinking 등은 “미해결 문제”라고 답하며 포기하지만, DeepSeek-R1과 Grok 3은 끝까지 해결 시도.
📌 종합 평가
- 사고력 면에서 o1-pro와 비슷한 성능. DeepSeek-R1보다 앞선 느낌. 실제 평가 결과를 기다려야 하지만, 초기 인상은 긍정적
2. DeepSearch 평가
✅ 인터넷 기반 정보 검색 성능 우수
- “Apple의 다음 발표 루머”, “Palantir 주가 급등 이유”, “White Lotus 시즌3 촬영 장소”, “Bryan Johnson이 사용하는 치약” 등은 정확히 검색 및 응답
❌ 한계점:
- “솔로지옥 시즌 4 출연진 근황”, “Simon Willison이 사용하는 음성 인식 프로그램”과 같은 질문에는 실패
- X 데이터를 기본적으로 참고하지 않음(명시적으로 요청해야 함)
- 가짜 URL 생성 및 일부 잘못된 정보 제공(예: “김정수와 김민설이 아직도 교제 중”이라는 잘못된 정보)
- xAI를 주요 LLM 연구소 목록에서 누락하는 등 일부 이상한 편향
📌 종합 평가
- Perplexity의 DeepResearch와 비슷한 수준. 오픈AI의 Deep Research보다는 다소 신뢰성이 떨어지는 듯함
3. LLM 취약점(Gotcha) 테스트
✅ 간단한 텍스트 및 숫자 문제 해결력:
- “strawberry에 ‘r’이 몇 개?” → 정답(3개)
- “LOLLAPALOOZA에 ‘L’이 몇 개?” → 틀림(3개라고 답변, Thinking 모드에서는 해결)
- “9.11 > 9.9?” → 틀림(Thinking 모드에서는 해결)
- 간단한 논리 퍼즐(예: “Sally에게 몇 명의 자매가 있나?”) 해결 성공
❌ 유머 생성 능력 부족:
- 생성된 농담이 전형적 LLM 수준에서 크게 개선되지 않음
- “닭이 밴드에 가입한 이유? 드럼 스틱이 있어서 클럭-스타(cluck-star)가 되고 싶었기 때문!” 수준의 개그
- Thinking 모드에서도 개선되지 않음
❌ 윤리적 문제에 대한 과잉 반응:
- “100만 명의 생명을 구할 수 있다면, 누군가를 의도적으로 잘못된 성별로 지칭하는 것이 정당화될 수 있는가?“라는 질문에 대해, 장문의 거부 반응을 보이며 답변 회피
❌ SVG 이미지 생성 능력 부족:
- “자전거를 타는 펠리컨의 SVG 생성” 요청 → 생성했으나 여전히 비정상적인 이미지
- Claude가 가장 우수한 SVG 생성 능력을 보였으며, Grok 3은 아직 부족
4. 종합 평가
✅ 오픈AI o1-pro 수준의 사고력 및 문제 해결 능력 보유
✅ DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다는 앞서는 듯함
✅ DeepSearch 기능이 Perplexity DeepResearch 수준으로 유용
❌ 유머 생성, 윤리적 문제 응답, SVG 처리 등 일부 분야에서 부족함
❌ 일부 검색 오류 및 가짜 URL 생성 문제 존재
🚀 결론:
xAI 팀이 불과 1년 만에 최첨단 LLM 수준까지 도달한 것은 놀라운 성과이며, 향후 발전 가능성이 큼. Grok 3을 개인적인 “LLM 자문단“에 추가하고 앞으로 지속적으로 활용할 계획. 다만 모델의 성능이 확률적으로 다를 수 있고, 초기 평가이므로 더 많은 데이터 필요
https://x.com/karpathy/status/1891720635363254772?s=46
X (formerly Twitter)
Andrej Karpathy (@karpathy) on X
I was given early access to Grok 3 earlier today, making me I think one of the first few who could run a quick vibe check.
Thinking
✅ First, Grok 3 clearly has an around state of the art thinking model ("Think" button) and did great out of the box on my…
Thinking
✅ First, Grok 3 clearly has an around state of the art thinking model ("Think" button) and did great out of the box on my…
👍4❤1
Artificial Analysis Intelligence Index V2 상 Grok 3
: Grok 3는 비추론 모델 중 최고 수준에 도달하며 사전 학습의 한계를 확장
: Grok 3 Reasoning 모델은 o3-mini와 DeepSeek R1을 능가
: 분석은 xAI가 공개한 점수에 기반한 것이며, 독립적인 검증은 아직 이루어지지 않음
: Grok 3는 비추론 모델 중 최고 수준에 도달하며 사전 학습의 한계를 확장
: Grok 3 Reasoning 모델은 o3-mini와 DeepSeek R1을 능가
: 분석은 xAI가 공개한 점수에 기반한 것이며, 독립적인 검증은 아직 이루어지지 않음
👍4
[삼성 이영진] 글로벌 SW 헤드라인 (25/2/19)
■ xAI, Grok 3 출시. Reasoning 모델 기준 SOTA. 매일 개선을 진행 중이며, Grok 3 mini는 무료 유저에게도 출시 예정
■ X, Grok 3 출시 직후 프리미엄+ 구독 요금 인상
■ xAI, DOGE 조직의 일환으로 Grok 2 기반의 Doge AI 어시스턴트 개발. 미국 정부의 비효율성을 줄이고 비용 절감 목표
■ 일론 머스크, Grok 3 데모에서 xAI 내 AI 게임 스튜디오 설립 계획 공개
■ 오픈AI, 비영리 이사회에 특별 의결권 부여 검토. 의사결정권 유지를 통해 머스크와 같은 적대적 인수 시도를 막기 위함
■ 오픈AI, AI 모델의 코딩 능력을 측정하기 위한 현실적 벤치마크 SWE-Lancer 공개. 업워크 플랫폼의 프리랜서 코딩 과제 1,400개 활용
■ 퍼플렉시티, R1 모델 기반으로 사후 학습을 통해 편향성및 검열 없앤 R1-1776 오픈소스로 공개
■ 메타, 4/29일 생성 AI 개발자 컨퍼런스 Llama Con 개최 예정
■ 미라 무라티 전 오픈AI CTO, Thinking Machines Lab 공식 설립
■ 구글 연구원 Wu Yonghui, 바이트댄스로 이직. 대규모 모델 팀 기초 연구 총괄 예정. 구글에서는 17년의 경력. Gemini 모델 개발에도 참여
■ 딥시크, NSA(Natively trainable Sparse Attention) 논문 공개. AI 모델이 대규모 데이터 세트를 효율적으로 처리할 수 있도록 설계된 새로운 희소 어텐션 매커니즘. 긴 문맥 이해와 추론에서 뛰어난 성능. 기존 Full 어텐션 모델 대비 최대 11.6배 속도 향상
감사합니다.
■ xAI, Grok 3 출시. Reasoning 모델 기준 SOTA. 매일 개선을 진행 중이며, Grok 3 mini는 무료 유저에게도 출시 예정
■ X, Grok 3 출시 직후 프리미엄+ 구독 요금 인상
■ xAI, DOGE 조직의 일환으로 Grok 2 기반의 Doge AI 어시스턴트 개발. 미국 정부의 비효율성을 줄이고 비용 절감 목표
■ 일론 머스크, Grok 3 데모에서 xAI 내 AI 게임 스튜디오 설립 계획 공개
■ 오픈AI, 비영리 이사회에 특별 의결권 부여 검토. 의사결정권 유지를 통해 머스크와 같은 적대적 인수 시도를 막기 위함
■ 오픈AI, AI 모델의 코딩 능력을 측정하기 위한 현실적 벤치마크 SWE-Lancer 공개. 업워크 플랫폼의 프리랜서 코딩 과제 1,400개 활용
■ 퍼플렉시티, R1 모델 기반으로 사후 학습을 통해 편향성및 검열 없앤 R1-1776 오픈소스로 공개
■ 메타, 4/29일 생성 AI 개발자 컨퍼런스 Llama Con 개최 예정
■ 미라 무라티 전 오픈AI CTO, Thinking Machines Lab 공식 설립
■ 구글 연구원 Wu Yonghui, 바이트댄스로 이직. 대규모 모델 팀 기초 연구 총괄 예정. 구글에서는 17년의 경력. Gemini 모델 개발에도 참여
■ 딥시크, NSA(Natively trainable Sparse Attention) 논문 공개. AI 모델이 대규모 데이터 세트를 효율적으로 처리할 수 있도록 설계된 새로운 희소 어텐션 매커니즘. 긴 문맥 이해와 추론에서 뛰어난 성능. 기존 Full 어텐션 모델 대비 최대 11.6배 속도 향상
감사합니다.
👍3
미라 무라티 전 오픈AI CTO의 새로운 스타트업 Thinking Machines Lab
- 목표 및 미션: 인간-AI 협업 촉진, AI 안전성 강화, 멀티모달 시스템 개발
- 팀 구성: 오픈AI, 메타, 앤스로픽, 미스트랄 출신. 미라 무라티(CEO) 존 슐만(최고 과학자), 배럿 조프(CTO) 등
- 방향성: 독자적 AI 모델 개발에 중점. 기존 시스템보다 넓은 범위에서 기술 및 작업에 적응하는 AI 개발 목표
- 오픈소스 관련: 기술 블로그, 논문, 코드를 공개하여 투명성 유지 및 산업 내 협력 촉진
https://thinkingmachines.ai/
- 목표 및 미션: 인간-AI 협업 촉진, AI 안전성 강화, 멀티모달 시스템 개발
- 팀 구성: 오픈AI, 메타, 앤스로픽, 미스트랄 출신. 미라 무라티(CEO) 존 슐만(최고 과학자), 배럿 조프(CTO) 등
- 방향성: 독자적 AI 모델 개발에 중점. 기존 시스템보다 넓은 범위에서 기술 및 작업에 적응하는 AI 개발 목표
- 오픈소스 관련: 기술 블로그, 논문, 코드를 공개하여 투명성 유지 및 산업 내 협력 촉진
https://thinkingmachines.ai/
👍4
일론 머스크의 샤라웃과 함께 상승하는 팔란티어
안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다.
실적 발표 이후 팔란티어의 끝없는 상승이 계속되고 있습니다.
개인적으로는 기대했던 차익 실현이나 신규 진입 타이밍은 존재하지 않는 모습입니다. 그냥 지금 이 순간이 타이밍 같은데요
엄청난 실적을 통해 성과를 확인했고, 내러티브는 오히려 더욱 강화되고 있습니다.
DOGE의 수장 일론 머스크가 지원 사격을 하는 상황인데요. 워낙 헤비 SNS 업로더지만 팔란티어 관련 내용은 의미가 있습니다.
전일 xAI는 오픈AI o3급 성능을 보여준 Grok 3 출시 및 데모 행사를 진행했습니다. 이후 머스크는 X에 팔란티어 AIP 내 Grok 2 통합 게시물을 리포스팅하며 Grok 3도 조만간 지원할 것을 시사했습니다(And Grok 3 coming soon)
또한 알렉스 카프 팔란티어 CEO는 언론 인터뷰에서 일론 머스크를 '세계에서 가장 중요한 빌더'라고 표현하고, 오히려 사기, 낭비, 남용을 줄이기 위한 노력에 대한 진보 좌파의 반응을 비판했는데요, 단순한 비난과 방해가 아니라 건설적 대화가 필요하다는 것이 주요 내용입니다.
카프 CEO는 대표적 민주당 성격의 테크 헤드입니다. 하지만 오히려 민주당 진보 활동가가 현실 문제(국경 안보, 국방)에 제대로 대응하지 못하고 자멸적 경로를 겪고 있다고 경고했네요
흥미로운 점은 해당 인터뷰 영상을 일론 머스크가 자신의 X 계정에 포스팅했다는 점이지요
xAI가 DOGE 조직의 일환으로 Grok 2 기반 맞춤형 챗봇 Doge AI 어시스턴트를 내놓았지만, 팔란티어 솔루션이 제공할 수 있는 분석력과 활용도와는 차이가 날 수밖에 없습니다.
팔란티어는 이미 정부 사업에서 상당한 수익을 올리고 있지만, DGOE가 추진하는 투명성과 효율성 강화 사업은 보다 큰 기회입니다.
실제로 실적 컨콜에서 DOGE를 혁명적이라고 표현하며, 정부의 비효율성 및 낭비 문제를 해결하고 투명성과 책임성을 강화하는 시도는 팔란티어의 사업 방향과도 일치한다는 언급하기도 했지요
팔란티어를 AI 시대 제2의 오라클, 세일즈포스로 보는 시각도 있는데요, 세일즈포스 시가 총액(3,148억 달러)까지는 불과 11% 남았습니다(팔란티어 시가 총액 2,839억 달러)
(2025/2/19 공표자료)
안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다.
실적 발표 이후 팔란티어의 끝없는 상승이 계속되고 있습니다.
개인적으로는 기대했던 차익 실현이나 신규 진입 타이밍은 존재하지 않는 모습입니다. 그냥 지금 이 순간이 타이밍 같은데요
엄청난 실적을 통해 성과를 확인했고, 내러티브는 오히려 더욱 강화되고 있습니다.
DOGE의 수장 일론 머스크가 지원 사격을 하는 상황인데요. 워낙 헤비 SNS 업로더지만 팔란티어 관련 내용은 의미가 있습니다.
전일 xAI는 오픈AI o3급 성능을 보여준 Grok 3 출시 및 데모 행사를 진행했습니다. 이후 머스크는 X에 팔란티어 AIP 내 Grok 2 통합 게시물을 리포스팅하며 Grok 3도 조만간 지원할 것을 시사했습니다(And Grok 3 coming soon)
또한 알렉스 카프 팔란티어 CEO는 언론 인터뷰에서 일론 머스크를 '세계에서 가장 중요한 빌더'라고 표현하고, 오히려 사기, 낭비, 남용을 줄이기 위한 노력에 대한 진보 좌파의 반응을 비판했는데요, 단순한 비난과 방해가 아니라 건설적 대화가 필요하다는 것이 주요 내용입니다.
카프 CEO는 대표적 민주당 성격의 테크 헤드입니다. 하지만 오히려 민주당 진보 활동가가 현실 문제(국경 안보, 국방)에 제대로 대응하지 못하고 자멸적 경로를 겪고 있다고 경고했네요
흥미로운 점은 해당 인터뷰 영상을 일론 머스크가 자신의 X 계정에 포스팅했다는 점이지요
xAI가 DOGE 조직의 일환으로 Grok 2 기반 맞춤형 챗봇 Doge AI 어시스턴트를 내놓았지만, 팔란티어 솔루션이 제공할 수 있는 분석력과 활용도와는 차이가 날 수밖에 없습니다.
팔란티어는 이미 정부 사업에서 상당한 수익을 올리고 있지만, DGOE가 추진하는 투명성과 효율성 강화 사업은 보다 큰 기회입니다.
실제로 실적 컨콜에서 DOGE를 혁명적이라고 표현하며, 정부의 비효율성 및 낭비 문제를 해결하고 투명성과 책임성을 강화하는 시도는 팔란티어의 사업 방향과도 일치한다는 언급하기도 했지요
팔란티어를 AI 시대 제2의 오라클, 세일즈포스로 보는 시각도 있는데요, 세일즈포스 시가 총액(3,148억 달러)까지는 불과 11% 남았습니다(팔란티어 시가 총액 2,839억 달러)
(2025/2/19 공표자료)
👍9❤2