Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.
Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».
Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.
Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.
cuPyNumeric
— аналог NumPy
, который переносит вычисления с CPU на GPU буквально заменой импорта.Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.
Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.
Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.
@ai_machinelearning_big_data
#AI #ML #Python #CUDA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173👍77❤30🤓1
Небольшая статья, которая погружает в создание системы машинного перевода на базе модели T5, сочетая теорию с практикой: как настроить пайплайн перевода, генерировать альтернативные варианты и оценивать их через BLEU-метрику. Гайд балансирует между технической детализацией и понятным языком. Советы по установке библиотек, обработке ошибок и ссылки на документацию сэкономят время тем, кто только начинает работать с Transformers.
Примеры кода на Python, разбор параметров
num_beams
, length_penalty
и честные замечания о слабых местах модели (проблемы с испанским) будут полезны для разработчиков, которые хотят быстро внедрить перевод в свои проекты.Помимо базовой настройки есть объяснение, как расширить функционал: например, модифицировать метод
translate()
для вывода нескольких вариантов перевода с оценкой уверенности модели, как работает beam search
и переходные вероятности. Качество перевода — больная тема для NLP, и автор не идеализирует T5. Он показывает расхождения между внутренними баллами модели и объективной оценкой BLEU: даже высокие вероятности токенов не гарантируют точный перевод. Единственный минус — нет сравнения T5 с другими моделями (mBART). Но даже в таком виде статья - мастрид для всех, кто работает с мультиязычным NLP.
@ai_machinelearning_big_data
#tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥18🥰10❤4
Media is too big
VIEW IN TELEGRAM
🤖 Fourier Intelligence выпустила Fourier N1 — первого полностью open-source гуманоидного робота!
Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.
За плечами более 1000 часов полевых испытаний.
🌟 Всё открыто: → список комплектующих (BOM)
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub
⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.
🔜 Github
🔜 Документация (включайте автоперевод)
#ai #robots #opensource
Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.
За плечами более 1000 часов полевых испытаний.
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub
⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.
#ai #robots #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥41❤17
This media is not supported in your browser
VIEW IN TELEGRAM
Sonic генерирует говорящих аватаров (или даже поющих!) с выразительной мимикой и качественным липсинком.
👉 Что нового?
1️⃣ Оживляем статичные изображения на вход подается одна фотография + любое аудио → речь, пение
2️⃣ Temporal Audio Learning — использует аудио дорожку для точной синхронизации губ и естественной мимики
3️⃣ Decoupled Motion Control — управляет движением головы и выражениями лица отдельно
4️⃣ Time-aware Fusion — обеспечивает плавный переход между кадрами для непрерывного видеоряда
▪ Модель демонстрирует очень качественный липсинк, разнообразие движений головы и мимики, натуральность и стабильность анимаций
▪ Поддерживает генерацию длинных видео (подойдет для влогов, реклаы) в один клик
▪ Кинематографичное качество: реалистичные позы, эмоции и сохранение идентичности референса
#ml #lipsync #opensource #hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥25❤12🥱2😁1
Media is too big
VIEW IN TELEGRAM
🐬 DolphinGemma — это проект Google, направленный на расшифровку коммуникации дельфинов на архитектуре Gemma (кто бы мог подумать), оптимизированной под open-source задачи.
Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов
🔍 Исследование коммуникации дельфинов
С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:
- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.
- Импульсные звуки во время конфликтов.
- Щелчки, сопровождающие ухаживание или охоту.
🌟 Модель DolphinGemma
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.
В модели используются данные за40 лет из уникальной коллекции доктора Дениз Герцин.
Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.
Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.
🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.
Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.
Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖
🔜 Подробнее о проекте можно узнать в официальном блоге Google: DolphinGemma: How Google AI is helping decode dolphin communication.
@ai_machinelearning_big_data
#Gemma #google #ml #science
Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов
🔍 Исследование коммуникации дельфинов
С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:
- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.
- Импульсные звуки во время конфликтов.
- Щелчки, сопровождающие ухаживание или охоту.
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.
В модели используются данные за40 лет из уникальной коллекции доктора Дениз Герцин.
Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.
Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.
🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.
Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.
Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖
@ai_machinelearning_big_data
#Gemma #google #ml #science
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥88❤22🐳22👍15😁6❤🔥2🥱1🤗1
🔥 OpenAI выкатили сразу три новые модели — 4.1, 4.1 mini и 4.1 nano!
📏 Контекст — до миллиона токенов
💡 Обещают значительные Улучшения в коде
⚡Модели уже доступны через API
GPT-4.1, набрал 55% на бенчмарке SWE-Bench Verified, это — хоороший результат, особенно с учётом того, что GPT-4.1 не оптимизировалась конкретно под задачи логического или многошагового рассуждения.
💬 На презентации одним промптом собрали веб-приложение для изучения языков.
Честно говоря, выглядит не супер. Практически та же цена, что у Gemini 2.5 Pro (у Gemini дешевле входные токены, что важно), и, судя по всему, она не превосходит модели Гугла ни на одном бенчмарке.
Попробовать бесплатно можно здесь и в Cursor.
💲 Цены
@ai_machinelearning_big_data
#openai #chatgpt
📏 Контекст — до миллиона токенов
💡 Обещают значительные Улучшения в коде
⚡Модели уже доступны через API
GPT-4.1, набрал 55% на бенчмарке SWE-Bench Verified, это — хоороший результат, особенно с учётом того, что GPT-4.1 не оптимизировалась конкретно под задачи логического или многошагового рассуждения.
💬 На презентации одним промптом собрали веб-приложение для изучения языков.
Честно говоря, выглядит не супер. Практически та же цена, что у Gemini 2.5 Pro (у Gemini дешевле входные токены, что важно), и, судя по всему, она не превосходит модели Гугла ни на одном бенчмарке.
Попробовать бесплатно можно здесь и в Cursor.
💲 Цены
@ai_machinelearning_big_data
#openai #chatgpt
👍64🔥29🥱21❤13👏3🤬1
DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤85👍40🔥16🤔5
Китайская THUDM выпустила обновление семейства GLM: базовую GLM-4-32B-0414, оптимизированную для инференса GLM-Z1-32B-0414 и GLM-Z1-Rumination-32B-0414 с ризонингом. Новая архитектура с 32 млрд. параметров обгоняет DeepSeek-R1 (671 млрд. параметров) в математических задачах, выдавая до 200 токенов в секунду — это в 8 раз быстрее, чем R1.
GLM-Z1-Rumination умеет искать данные в сети, анализировать их и проверять гипотезы, как человек. Попробовать новые модели можно в демо-спейсе на новом продуктовом домене ChatGLM - Z.ai.
ChatGLM в X (ex-Twitter)
Fabula объявила о партнерстве с Runway, чьи технологии будут использоваться на всех этапах: от разработки концепций и раскадровок до визуальных эффектов. В Fabula заверили: несмотря на скепсис в киноиндустрии вокруг ИИ, технологии будут внедрятся ответственно, с акцентом на контроль со стороны режиссеров.
По словам CEO Runway Кристобаля Валенсуэлы, сотрудничество с Fabula — часть стратегии по интеграции ИИ в кино без ущерба для авторского видения. Уже сейчас инструменты помогают создавать питч-материалы, которые раньше требовали больше времени и ресурсов.
deadline.com
Nvidia объявила о масштабной экспансии в США: сборка чипов Blackwell уже стартовала на заводах TSMC в Фениксе, а в Хьюстоне и Далласе совместно с Foxconn и Wistron строятся новые мощности. К 2028 году компания планирует создавать инфраструктуру для ИИ на $500 млрд.
«Двигатели мирового ИИ теперь впервые создаются в Штатах», — заявил CEO Nvidia, подчеркнув укрепление цепочек поставок. Решение частично связано с экспортными ограничениями: недавно администрация Белого дома смягчила санкции на чип H20 для Китая после обещаний Nvidia инвестировать в американские дата-центры.
wsj.com
Alphabet и Nvidia присоединились к группе венчурных инвесторов, чтобы поддержать Safe Superintelligence (SSI), стартап, один из основателей которого - бывший главный научный сотрудник OpenAI Илья Суцкевер, быстро ставший одним из самых ценных стартапов в области ИИ спустя несколько месяцев после запуска.
Финансирование свидетельствует о возобновлении интереса крупных технологических и инфраструктурных компаний к стратегическим инвестициям в стартапы, разрабатывающие передовой ИИ, требующий огромных вычислительных мощностей.
reuters.com
Apple объявила о новом методе обучения своих ИИ-моделей: теперь анализировать данные пользователей будут прямо на устройствах, не передавая их на серверы. Это позволит улучшить алгоритмы сохраняя конфиденциальность. Вместо файлов система сравнивает синтетические данные — искусственно созданные тексты с примерами из приложений вроде «Почты».
Хотя конкуренты активно используют реальные данные из открытых источников, Apple делает ставку на гибридный метод. Это может помочь компании догнать лидеров рынка без рисков для репутации.
machinelearning.apple.com
Multy-Elements 1.6 — качественно редактирует всё в кадре: добавляй.
Motion Control 1.6 — анимирует персонажей по одному промпту.
KOLORS 2.0 — генератор картинок с фотореалистичной детализацией.
Kling
В руководство включен подробный "агентный промпт" (Agentic Prompt).
Именно этот промпт OpenAI использовала для достижения рекордно высокого балла в сложном бенчмарке по разработке ПО SWE-bench Verified.
Руковосдтво
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40👍35🔥7🥰2
В бета-тесте — новая версия YandexGPT 5 с режимом рассуждений. В отличие от режима CoT в YandexGPT 4, YandexGPT 5 reasoning — это отдельная модель, обученная отвечать через цепочки рассуждений.
Ризонинг — это не про обычный чат. Это про сложные задачи, где LLM должна не просто ответить, а продумать цепочку действий. Такие модели работают медленнее, но точнее в задачах, где важна логика.
🔍 Что под капотом:
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍71❤🔥22🥰8😁7❤6🗿5🤣4🥱3
3D-сегментация объектов на семантические части — задача не новая, но большинство методов до сих пор работают только с видимыми поверхностями, игнорируя скрытые области. Это ограничивает их применение в задачах анимации и редактирования геометрии, где нужны полные части.
HoloPart — модель, разработанная VastAI, которая решает проблему амодальной сегментации для 3D-объектов, восстанавливая скрытые фрагменты. С HoloPart можно, например, изменить размер колес у машины, добавить детали или перераспределить материалы между частями. Для художников и инженеров это экономит часы ручной работы.
Модель работает в 2 этапа: сначала стандартная сегментация выделяет видимые части, а затем HoloPart достраивает их до полных 3D-форм, используя комбинацию из локального и глобального внимания. Локальные механизмы фокусируются на деталях каждой части, а контекстное внимание следит, чтобы восстановленные элементы не конфликтовали с общей структурой объекта.
Эксперименты на датасетах ABO и PartObjaverse-Tiny показали, что HoloPart обходит конкурентов - PatchComplete и DiffComplete по всем метрикам. Средний Chamfer Distance (показывает точность совпадения форм) у HoloPart — 0.026 против 0.087 у DiffComplete на ABO. А F-Score, оценивающий полноту восстановления, достигает 0.848 против 0.371 у аналогов.
⚠️ Перед тем, как загрузить целевой glb-файл в HoloPart ytj необходимо выполнить сегментацию сторонними средствами. Разработчики рекомендуют SAMPart3D и SAMesh.
# Clone the repo
git clone https://github.com/VAST-AI-Research/HoloPart.git
cd HoloPart
# Create a conda env
conda create -n holopart python=3.10
conda activate holopart
# Install dependencies
pip install torch torchvision --index-url https://download.pytorch.org/whl/{your-cuda-version}
pip install -r requirements.txt
# Step 1: Prepare segmented mesh with a mesh file and mask
import trimesh
import numpy as np
mesh = trimesh.load("mesh.glb", force="mesh")
mask_npy = np.load("mask.npy")
mesh_parts = []
for part_id in np.unique(mask_npy):
mesh_part = mesh.submesh([mask_npy == part_id], append=True)
mesh_parts.append(mesh_part)
mesh_parts = trimesh.Scene(mesh_parts).export("input_mesh.glb")
# Step 2: Decompose the 3D mesh into complete parts:
python -m scripts.inference_holopart --mesh-input assets/example_data/file.glb
@ai_machinelearning_big_data
#AI #ML #3D #HoloPart #Segmentation #VastAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥21❤14
Инструмент позволяет вводить "пошлины" на Python-библиотеки, замедляя загрузку определённых пакетов, чтобы подчеркнуть идею "экономического протекционизма" в коде.
Имитация тарифов на импорты: пользователь может установить "тарифы" (в процентах) на определённые пакеты, например:
import tariff
tariff.set({
"numpy": 50, # 50% тариф на numpy
"pandas": 200, # 200% тариф на pandas
"requests": 150 # 150% тариф на requests
})
▪ Замедление импорта: при импорте указанных пакетов время загрузки увеличивается пропорционально установленному тарифу.
Вывод сообщений: при каждом "обложенном тарифом" импорте выводится сообщение в стиле политической риторики, например:
JUST IMPOSED a 50% TARIFF on numpy! Original import took 45000 us, now takes 67500 us. American packages are WINNING AGAIN! #MIPA
Библиотека использует monkey-patching для перехвата и модификации процесса импорта.
▪Github
@ai_machinelearning_big_data
#fun #python
Please open Telegram to view this post
VIEW IN TELEGRAM
😁153❤25🥱16👍11🔥6🌚4🤣4👏2🎉2😴2🙊1
NVIDIA выпустила новое семейство языковых моделей Nemotron-H, сочетающих архитектуры Mamba и Transformer. Эти гибриды обещают до 3х ускорения инференса по сравнению с чистыми Transformer-моделями аналогичного размера (Qwen или Llama).
Семейство поддерживает английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский языки.
Основной фокус Nemotron-H — баланс между эффективностью и интеллектом: даже при меньшем числе параметров (47–56 млрд.) модели демонстрируют точность, близкую к DeepSeek-V3-671B.
Особенность Nemotron-H — использование FP8 для претрейна. 56B-версию обучали на 20 трлн. токенов с квантованием тензоров «на лету», а сжатую в FP4 модель c 47B можно запускать на потребительской RTX 5090 с поддержкой контекста до 1 млн. токенов. Правда, пришлось пожертвовать частью слоев самовнимания — их заменили на более легкие Mamba-блоки, чтобы ускорить генерацию.
NVIDIA не стала тренировать компактные версии модели с нуля. Вместо этого использовали дистилляцию: 47B-модель получили из 56B, удалив половину «тяжелых» слоев и дообучив на 63 млрд токенов. Результат — почти та же точность, но на 1.2x быстрее.
В бенчмарках Nemotron-H обходит конкурентов в математике и коде: на GSM8k 56B-версия дает 93.7% против 90.9% у Qwen-72B. А 8B-модель, хоть и уступает в MMLU, вырывается вперёд в HumanEval+ (56.1%) — ожидаемо, с учетом ее instruct-оптимизации.
Пока модели доступны на HF как базовые, но NVIDIA обещает добавить инструктивные и мультимодальные версии.
@ai_machinelearning_big_data
#AI #ML #LLM #NemotronH #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53❤26🔥10🤔6❤🔥2