Aspiring Data Science
384 subscribers
465 photos
12 videos
12 files
2.16K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#aws #hardware #trainium

"Представленные в прошлом году чипы работают в четыре раза быстрее предшественников: один инстанс EC2 с 16 ускорителями Trainium2 предлагает производительность до 20,8 Пфлопс. Это значит, что при развёртывании масштабной модели Meta✴️ Llama 405B на платформе Amazon Bedrock клиент получит «трёхкратный прирост скорости генерации токенов по сравнению с другими доступными предложениями крупных облачных провайдеров». Можно будет также выбрать систему EC2 Trn2 UltraServer с 64 ускорителями Trainium2 и производительностью 83,2 Пфлопс. Отмечается, что показатель 20,8 Пфлопс относится к плотным моделям и точности FP8, а 83,2 Пфлопс — к разреженным моделям и FP8. Для связи между ускорителями в системах UltraServer используется интерконнект NeuronLink.

Совместно со своим партнёром в лице Anthropic, основным конкурентов OpenAI в области больших языковых моделей, AWS намеревается построить крупный кластер систем UltraServer с «сотнями тысяч чипов Trainium2», где стартап сможет обучать свои модели. Он будет в пять раз мощнее кластера, на котором Anthropic обучала модели текущего поколения — по оценке AWS, он «станет крупнейшим в мире вычислительным кластером для ИИ, о котором сообщалось до настоящего времени». Проект поможет компании превзойти показатели, которые обеспечиваются актуальными ускорителями Nvidia, которые по-прежнему пользуются высоким спросом и остаются в дефиците. Хотя в начале следующего года Nvidia готовится запустить ускорители нового поколения Blackwell, которые при 72 чипах на стойку предложат до 720 Пфлопс для FP8.

Возможно, поэтому AWS уже сейчас анонсировала ускорители нового поколения Trainium3, которые предлагают ещё один четырёхкратный прирост производительности для систем UltraServer — ускорители будут производиться с использованием техпроцесса 3 нм, а их развёртывание начнётся в конце 2025 года. "

https://3dnews.ru/1114962/aws-razvernula-sistemi-na-uskoritelyah-trainium2-novoe-pokolenie-viydet-god-spustya
1
#hardware #cameras #vr

"Это первая в мире коммерческая камера, предназначенная для съёмки пространственных видео для гарнитуры Apple Vision Pro.

Устройство обойдётся в $30 тысяч. Камера оборудована двумя сенсорами разрешения 8K (8160 × 7200 пикселей) на каждый глаз; поддерживается съёмка видео с полем зрения 180°, частотой 90 кадров в секунду и поддержкой пространственного звука. 16 ступеней динамического диапазона обеспечивают точную цветопередачу и высокую детализацию в каждом кадре.

Камера комплектуется парой 5-дюймовых сенсорных экранов с HDR и внешним цветным ЖК-дисплеем для вывода технической информации. Для подключения внешних устройств есть выход 12G-SDI, 10-гигабитный Ethernet, USB Type-C, аудиопорты XLR и 8-контактный разъём Lemo для питания. В комплект входит твердотельный накопитель Blackmagic Media Module ёмкостью 8 Тбайт — его хватит для записи около двух часов пространственного видео в разрешении 8K и формате Blackmagic RAW. Для быстрой загрузки и синхронизация данных поддерживается функция Cloud Store."

https://3dnews.ru/1115544/blackmagic-vipustila-3dkameru-ursa-cine-immersive-za-30-tisyach-ona-snimaet-video-dlya-apple-vision-pro
#hardware #storage #ssd

"Micron анонсировала этот накопитель как первый в индустрии PCIe 6.0 SSD, заявив скорость чтения в 26 Гбайт/с. Однако испытания на стенде Astera Labs позволили превзойти эти ожидания — скорость чтения достигла 27,14 Гбайт/с для каждого из двух SSD в тестовой системе. Для сравнения, самый быстрый из протестированных PCIe 5.0 SSD, Crucial T705, показал максимум 14,5 Гбайт/с, что составляет лишь половину нового рекорда Micron.

Достичь таких показателей помог сетевой коммутатор Astera Scorpio P-Series Fabric Switch, поддерживающий до 64 линий PCIe 6.0. Этот коммутатор был разработан для высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ), обеспечивая быструю связь между процессорами, видеокартами и хранилищами. Кроме того, в тестах использовалась технология Nvidia Magnum IO GPUDirect (GDS), позволяющая устройствам хранения данных напрямую взаимодействовать с памятью GPU, минуя центральный процессор и уменьшая задержки.

Отметим, что стандарт PCIe 6.x продолжает совершенствоваться и развиваться (актуальная версия — PCIe 6.3), обещая стать новым отраслевым стандартом как для корпоративных решений, так и в перспективе для потребительских устройств. Если PCIe 5.0 обеспечивает двустороннюю пропускную способность до 128 Гбайт/с на шине x16, то PCIe 6.x удвоит этот показатель до 256 Гбайт/с."

https://3dnews.ru/1119456/micron-pokazala-samiy-bistriy-ssd-v-mire-s-pcie-60-i-skorostyu-do-27-gbayts
#hardware #inference

"В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор будет использоваться в Google Cloud и поставляться в системах двух конфигураций: серверах из 256 таких процессоров и кластеров из 9216 таких чипов.

Анонс Ironwood состоялся на фоне усиливающейся конкуренции в сегменте разработок проприетарных ИИ-ускорителей. Хотя Nvidia доминирует на этом рынке, свои технологические решения также продвигают Amazon и Microsoft. Первая разработала ИИ-процессоры Trainium, Inferentia и Graviton, которые используются в её облачной инфраструктуре AWS, а Microsoft применяет собственные ИИ-чипы Cobalt 100 в облачных инстансах Azure.

Ironwood обладает пиковой вычислительной производительностью 4614 Тфлопс или 4614 триллионов операций в секунду. Таким образом кластер из 9216 таких чипов предложит производительность в 42,5 Экзафлопс.

Каждый процессор оснащён 192 Гбайт выделенной оперативной памяти с пропускной способностью 7,4 Тбит/с. Также чип включает усовершенствованное специализированное ядро ​​SparseCore для обработки типов данных, распространённых в рабочих нагрузках «расширенного ранжирования» и «рекомендательных систем» (например, алгоритм, предлагающий одежду, которая может вам понравиться). Архитектура TPU оптимизирована для минимизации перемещения данных и задержек, что, по утверждению Google, приводит к значительной экономии энергии.

Компания планирует использовать Ironwood в своём модульном вычислительном кластере AI Hypercomputer в составе Google Cloud."

https://3dnews.ru/1121018/google-predstavila-svoy-samiy-moshchniy-iiprotsessor-ironwood-do-46-kvadrilliona-operatsiy-v-sekundu
#hardware #ram #cudimm

"Такое бывает довольно редко, но получается, что технология CUDIMM несёт сплошные плюсы. Она позволяет улучшить стабильность DDR5-памяти и, как следствие, поднять частоту работы модулей и увеличить пропускную способность подсистемы памяти, не прибегая к серьёзным изменениям сложившейся экосистемы. Нет никаких сомнений, что по мере распространения модули CUDIMM будут поддерживаться всё большим числом платформ и в конечном итоге станут стандартным компонентом игровых ПК и рабочих станций высокого уровня.

Сейчас же преимущества модулей этого типа могут распробовать только обладатели систем на базе процессоров Intel Core Ultra. Именно им мы и рекомендуем обратить пристальное внимание на комплекты памяти, подобные рассмотренному в этой статье. С одной стороны, он не дороже обычного комплекта DDR5-8200-памяти аналогичного объёма, а с другой — открывает куда более широкое поле для экспериментов, в первую очередь в части разгона."

https://3dnews.ru/1121222/pochemu-ddr5-cudimm-eto-shag-vperyod
#hardware #datacenters

"Современная стандартная стойка 42U с набором оборудования весит порядка 680–1150 кг, максимально допустимая масса для многих составляет около 1360 кг. При этом стойка для ИИ-серверов в полной комплектации с системами охлаждения и сетевыми модулями может весить более 1800 кг. Десятки или даже сотник таких стоек в среднем ЦОД гиперскейлера могут серьёзно повлиять на всё устройство помещения.

В Dell'Oro Group отмечает, что в машинных залах всё реже используются фальшполы, под которыми часто размещают кабели, элементы системы охлаждения и др., поскольку установка такой конструкции — довольно дорогая задача. В JLL оговаривают, что во многих ЦОД фальшполы всё же используются, поскольку они нужны для кабелей и труб, но их высота может быть уже в районе 30 см, а не традиционных 60 см. Операторы по-прежнему опасаются прокладывать трубы сверху из-за возможных протечек."

https://servernews.ru/1123925
#hardware #cpu

"Флагманом линейки стал Ryzen Threadripper PRO 9995WX с 96 ядрами, 192 потоками и 384 Мбайт кеша L3. Компания оценила его в $11 699. Модель Ryzen Threadripper PRO 9985WX (64 ядра, 128 потоков, частота от 3,2 до 5,4 ГГц, 256 Мбайт кеша L3) AMD оценила в $7999. С остальными моделями серии и их ценами можно ознакомиться в таблице ниже. Самая доступная 16-ядерная модель оценивается в $1649."

https://3dnews.ru/1126141/amd-raskrila-tseni-samih-dorogih-protsessorov-dlya-pk-threadripper-pro-9000wx-viydut-23-iyulya
#hardware #ssd

"Для накопителя заявлена скорость последовательного чтения до 14 800 Мбайт/с и последовательной записи до 13 400 Мбайт/с. Производительность в операциях случайного чтения и записи составляет 2,2 млн IOPS и 2,6 млн IOPS соответственно. Модель на 8 Тбайт получила 8192 Мбайт кеш-памяти LPDDR4X, то есть вдвое больше, чем модель на 4 Тбайт."

https://3dnews.ru/1128031/flagmanskiy-ssd-samsung-9100-pro-vishel-v-versii-na-8-tbayt-za-999