주린이 개소리하는 채널
5.02K subscribers
7.88K photos
153 videos
150 files
9.08K links
여의도에서 개 짖는 소리가 난다면 주개챈을 돌아보라
Download Telegram
Forwarded from [하나 Global ETF] 박승진 (박승진 하나증권)
» 메모리반도체 테마 ETF인 DRAM(Roundhill Memory ETF, 4월2일 상장)이 상장 이후 빠른 속도의 자금 유입 기조를 보이며 AUM이 2.4억달러 돌파

» SK하이닉스, Micron, 삼성전자 중심으로 집중된 포트폴리오를 구성
Forwarded from Market News Feed
IRANIAN FOREIGN MINISTRY: IT IS NATURAL NOT TO REACH AN AGREEMENT IN A SINGLE MEETING ...
Market News Feed
IRANIAN FOREIGN MINISTRY: IT IS NATURAL NOT TO REACH AN AGREEMENT IN A SINGLE MEETING ...
이란 외교부: 한 번의 회담에서 합의에 이르지 못하는 것은 정상적인 일입니다.
내 계좌가 비정상이잖아 씨발라마 라고 할랬는데 다시 보니 ATH라 그래 정상적인 일이지 싶은 개붕이들은 개추
👎1🥰1
주식 해먹기 조온나 피곤하네여... 드러눕고 놀러가고싶네

왈왈
2
고도로 발전된 과학은 마법과 구분할 수 없다 어쩌구ㅋㅋㅋㅋ
1
Forwarded from 카이에 de market
성과급 충당 여부를 반영하면 SK하이닉스의 영업이익이 사실상 컨센서스를 상회한 것이라는 분석도 나온다. 김동원 KB증권 리서치본부장은 “SK하이닉스의 경우 영업이익의 10%를 연말 성과급으로 지급해야 하기에 이를 미리 비용으로 처리하는 성과급 충당금이 반영됐다”며 “이러한 일회성 비용 등을 제외한 수정 영업이익 기준으로 1분기를 바라보면 사실상 42조원을 기록해 실질적인 어닝 서프라이즈를 낸 것”이라고 했다.



** 충당금 반영 제외하면 42조


https://n.news.naver.com/article/366/0001159306?sid=101
This media is not supported in your browser
VIEW IN TELEGRAM
효중 실적을 기다리고 있는 채널주의 모습
이야ㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑㅑ앗호우ㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜㅜ
1🗿1
경쟁하는 건 어느 섹터나 마찬가지인데 유독 바이오가 같은 섹터 내에서 남 잘 되는 꼴을 못 보는 경향이 있음...
1
Forwarded from 받/돌았슈
받)
KTX 요금 인하를 위해 정부는 수차례 원가표를 제시하도록 코레일에 요구를 해왔는데 그런일이 있을때마다 코레일 노조는 여야 전방위로 로비하면서 거부해왔음.
빡친 정부가 SRT를 만들어서 3년간 운영을 해보고 거기서 나온 원가를 활용해서 KTX요금을 재조정하기로 했는데 마침 코로나가 터지는 바람에 평균적인 수치데이터를 확보할 수가 없었음.
코로나 종료이후 다시 데이터 수집을 진행중인데 이게 완성될 경우 현재 폭리에 가까운 KTX요금은 큰 폭으로 삭감이 가능할 것으로 예상되고 코레일 역시 구조조정(인력감축)이 불가피한 상황.
👍7
260513_Wafer-scale Computing: Advancements, Challenges, and Future Perspectives

https://ar5iv.labs.arxiv.org/html/2310.09568

https://www.sec.gov/Archives/edgar/data/2021728/000162828026025762/cerebras-sx1april2026.htm

(1) 일반적으로 H/W 컴퓨팅 성능의 증가는 1) 트랜지스터 밀도 증가, 2) 칩 면적 확대에 의해 추진됨

(2) 그러나 1) 트랜지스터 밀도 증가는 무어의 법칙/데나드 스케일링 한계에 다다르고 있으며, 2) 면적 확대는 기존 반도체 제조 장비 및 공정을 크게 바꾸기 어렵기 때문에 제약을 받고 있음

(3) 특화 아키텍처 설계로 얻을 수 있는 성능 향상도 점차 줄어들고, 결국 상한에 부딪히게 되는데 이를 Accelerator Wall이라고 함

(4) 즉, AI 컴퓨팅 수요는 계속 커지는데 가속기 성능 향상은 둔화되고 있으며 이 격차를 해결하는 가장 직접적인 방법은 "여러 개의 개별 가속기를 "하나의 클러스터"로 묶는 것

(5) 가속기 클러스터에서 AI 작업을 실행 할 때는 보통 위의 그림처럼 1) Data Parallel(데이터 병렬), 또는 2) Model Parallel(모델 병렬)을 사용

(6) 그림에서 Worker는 각각 하나의 GPU, ASIC 또는 클러스터 노드라고 이해하면 됨

(7) DP의 경우 데이터를 Worker 0/1/2가 나눠서 각자 데이터 일부를 처리함. 즉, 학생 3명이 모두 같은 풀이법을 알고 있고, 각자 다른 문제를 푸는 형식
■ 각 GPU가 따로 공부 → 각자 계산한 답안을 모음 → 평균을 내서 모델을 업데이트함 이 과정에서 GPU 간 네트워크 대역폭이 중요

(8) 데이터가 많을수록 효과가 좋으며, GPU 여러 장을 붙여 학습할 때 가장 기본적으로 사용되는 방식임

(9) 다만, 모델이 너무 커지면 문제가 생김. 모델 하나가 GPU 메모리보다 크면, 데이터 병렬만으로는 실행이 어렵기 때문

(10) Tensor Model Parallel(TMP)의 경우에는 데이터는 모든 Worker가 함께 보고, 모델 내부의 텐서를 쪼개는 형식임

(11) Tensor란, AI 모델 안의 거대한 행렬, 즉 Weight Matrix를 뜻함

(12) 예를 들어 어떤 레이어의 가중치 행렬이 너무 크면, 이 행렬을 Worker 0, Worker 1, Worker 2가 나눠서 가지고 계산

(13) 즉, 하나의 큰 계산 문제를 여러 명이 부분 계산으로 나눠 푸는 방식

(14) TMP는 모델 하나가 너무 커서 단일 GPU나 단일 가속기에 안 들어갈 때 유용함. 특히 대형 Transformer 모델에서 큰 행렬 연산을 나누는 데 많이 사용

(15) 다만, 레이어 계산마다 Worker간 통신이 엄청나게 발생. 계산 자체는 나눌 수 있지만, 중간 결과를 계속 주고받아야 하기에 "대역폭과 지연시간"이 매우 중요
■ NVLink, NVSwitch, HBM 대역폭, 패키징 내부 연결이 중요한 이유

(16) Pipeline Model Parallel(PMP)의 경우, 모델의 레이어를 순서대로 나눠서 여러 GPU에 배치하는 방식

(17) 공장 생산라인과 비슷함. Worker 0이 앞공정 처리 → Worker 1이 중간공정 처리 → Worker 3이 후공정 처리

(18) 장점은 모델 전체를 여러 GPU에 나눠 담을 수 있다는 점. 그래서 모델이 너무 커서 GPU 하나에 안 들어갈 때 효과적

(19) 그러나, 앞 단계가 끝나야 다음 단계가 시작되는 단점이 있음. 그래서 중간에 놀고 있는 GPU가 생길수도 있고, 레이어별 연산량이 다르면 GPU마다 부하 불균형이 발생해 H/W 관리가 어려움

(20) AI 모델이 커질수록 여러 가속기를 묶는 클러스터가 필요하고, 그 안에서 DP/TMP/PMP 같은 병렬화가 필수적

(21) 그런데 이 방식들은 모두 GPU 간 통신을 많이 요구. 대역폭이 병목인 이유

(22) 기존 GPU 클러스터는 여러 GPU/서버/랙이 떨어져 있음

(23) 그러다 보니 GPU끼리 데이터를 주고받을 때 거리도 멀고, 지연도 크고, 전력도 많이 필요

(24) 그러나 Wafer Scale Chip은 여러 연산 유닛을 하나의 거대한 웨이퍼 위에 훨씬 가깝게 붙임

(25) 웨이퍼 스케일의 대표주자로는 미국 AI 반도체 스타트업 Cerebras가 있음. 곧 IPO

(26) Cerebras의 대표 제품은 WSE 시리즈

(27) WSE는 Wafer Scale Engine의 약자. 웨이퍼 스케일 단위의 초대형 AI 가속기를 의미

(28) 현재 NVIDIA의 GPU처럼 작은 칩을 여러 개 묶는 방식이 아니라, 8인치급 실리콘 웨이퍼 전체를 하나의 거대한 AI 프로세서처럼 쓰는 "웨이퍼 스케일"의 AI 반도체

(29) 즉, GPU 클러스터를 칩 하나 안에 최대한 집어 넣어서 통신 병목을 줄이려는 아키텍처 시도를 지향하고 있음

(30) Cerebras는 웨이퍼 스케일 통합을 통해 1) 훨씬 더 빠른 메모리를 사용할 수 있고, 2) 수천 개의 GPU를 연결하기 위해 필요한 스위치/라우터 및 그에 수반하는 엄청난 복잡성을 피할 수 있다고 강조하고 있음

(31) 또한 현재까지 가장 빠른 메모리인 3) SRAM을 충분히 많이 넣을 수 있는 거대한 공간을 확보하는 아키텍처로 칩을 설계

(32) B200 칩보다 58배 더 큰 칩을 만들어, B200 대비 1) 2,625배 더 높은 메모리 대역폭을 제공, 2) SRAM이 제공하는 막대한 대역폭의 이점을 누릴 수 있음

(33) 이를 통해 비싸고, 전력소모가 큰 스위치와 복잡한 케이블 등 GPU 솔루션을 구축하는 데 필요한 네트워킹 스택 상당 부분의 필요성, 비용, 관리 복잡성, 전력 소모를 줄일 수 있는 장점을 어필하고 있음

(34) 즉, Cerebras는 AI계의 "웨이퍼 스케일 솔루션"의 대표 주자

(35) Cerebras는 반도체 제조 공장에서 웨이퍼 레벨에서 서로 독립적이던 다이들을 연결하는 기술을 발명
■ 파운드리의 경우 TSMC 파운드리를 사용(WSE-2: 7nm, WSE-3: 5nm)

(36) 이 다이 간 연결은 당사의 전체 제조 공정에 통합된 독자적인 "Cross-Reticle Connection[크로스 레티클 연결]"을 사용
■ 반도체 리쏘 장비는 한 번에 찍을 수 있는 면적, 즉 레티클 한계가 있음. Cerebras는 여러 노광 구역을 이어 붙여, 원래 독립적이어야 할 다이들을 웨이퍼 수준에서 전기적으로 연결
■ 웨이퍼 전체를 하나의 칩처럼 쓰면 결함 가능성이 커짐. Cerebras는 결함을 완전히 피하기보다, 결함 영역을 우회하고 정상 영역으로 대체해 계속 동작하는 구조를 지향(결함을 피하기보다는 견디도록 설계했다는데, 정확히 무슨 말인지는 잘 모르겠음)

(37) Cerebras는 단순히 AI 칩을 디자인하는 회사가 아니라, 궁극적으로는 1) 웨이퍼 스케일 칩 디자인 → 2) CS-3 시스템 제작 → AI 추론 최적화 컴퓨팅 → 소프트웨어 스택까지 통째로 파는 전략
■ CS-3 시스템: 열팽창 대응 패키징, 균일한 전력 공급, 전체 표면 냉각 기술을 통해 웨이퍼 스케일 칩을 안정적으로 구동
■ AI 컴퓨팅: 여러 대의 CS-3와 클러스터 소프트웨어, AI 실행 환경을 함께 제공해 고객의 GPU 클러스터 설계·튜닝 부담을 축소
■ S/W 스택: CSoft 컴파일러는 PyTorch 모델을 WSE에 자동 매핑해 CUDA 같은 저수준 하드웨어 언어 부담을 줄임

-

[Implication]

(1) NVIDIA가 GPU+HBM +NVLink+서버 +CUDA 생태계로 시장을 장악했다면, Cerebras는 그 반대편에서 초대형 단일 칩+온칩 메모리+초고대역폭+단순한 프로그래밍 모델로 차별화 전략을 구상하고 있음

(2) 특히 앞으로 AI 사용량이 학습보다 추론 중심으로 커질 경우, 중요한 지표는 단순 FLOPS가 아닌 1)응답 속도, 2)Tokens당 비용, 3)긴 컨텍스트 처리 성능, 4)동시 사용자 처리 능력, 5)전력 대비 처리량 등의 요소로 다변화 됨

(3) 이런 영역에서 Cerebras가 실제로 우위를 입증하면, GPU 중심 AI 인프라 시장에서 특정 추론 워크로드에 대한 대체재가 될 수 있음