225K subscribers
3.89K photos
661 videos
17 files
4.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Яндекс запускает бета-версию reasoning-модели YandexGPT 5

В бета-тесте — новая версия YandexGPT 5 с режимом рассуждений. В отличие от режима CoT в YandexGPT 4, YandexGPT 5 reasoning — это отдельная модель, обученная отвечать через цепочки рассуждений.

✔️Зачем это нужно:
Ризонинг — это не про обычный чат. Это про сложные задачи, где LLM должна не просто ответить, а продумать цепочку действий. Такие модели работают медленнее, но точнее в задачах, где важна логика.

🔍 Что под капотом:
🟢на претрейн-модели делают SFT на ответах YandexGPT 5 Pro
🟢 online-RL GRPO на реворде с однозначными ответами
🟢 offline-RL-фаза: сравнение и дообучение на лучших генерациях (порядок определяется экспериментами)
🟢разношерстный датасет — например, кроме задач на математику еще добавили B2B-задачи: классификацию, извлечение данных, суммаризацию
🟢 обучение идёт быстрее благодаря YaFSDP — библиотеке, ускоряющей обучение моделей

🔥В бете сейчас есть две модели

🟡Задача — собрать датасет и понять поток запросов на рассуждение, а также понять: где пользователю действительно нужны размышления, а где хватит базовой LLM
🟡 Использование и своих решений, и опенсорса — кажется верной стратегией. Похоже на то, что делает Perplexity — использует сразу несколько SOTA-моделей, предоставляя пользователям выбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍71❤‍🔥22🥰8😁76🗿5🤣4🥱3
🌟 HoloPart: генеративная 3D-сегментация.

3D-сегментация объектов на семантические части — задача не новая, но большинство методов до сих пор работают только с видимыми поверхностями, игнорируя скрытые области. Это ограничивает их применение в задачах анимации и редактирования геометрии, где нужны полные части.

HoloPart — модель, разработанная VastAI, которая решает проблему амодальной сегментации для 3D-объектов, восстанавливая скрытые фрагменты. С HoloPart можно, например, изменить размер колес у машины, добавить детали или перераспределить материалы между частями. Для художников и инженеров это экономит часы ручной работы.

Модель работает в 2 этапа: сначала стандартная сегментация выделяет видимые части, а затем HoloPart достраивает их до полных 3D-форм, используя комбинацию из локального и глобального внимания. Локальные механизмы фокусируются на деталях каждой части, а контекстное внимание следит, чтобы восстановленные элементы не конфликтовали с общей структурой объекта.

Эксперименты на датасетах ABO и PartObjaverse-Tiny показали, что HoloPart обходит конкурентов - PatchComplete и DiffComplete по всем метрикам. Средний Chamfer Distance (показывает точность совпадения форм) у HoloPart — 0.026 против 0.087 у DiffComplete на ABO. А F-Score, оценивающий полноту восстановления, достигает 0.848 против 0.371 у аналогов.

⚠️ Перед тем, как загрузить целевой glb-файл в HoloPart ytj необходимо выполнить сегментацию сторонними средствами. Разработчики рекомендуют SAMPart3D и SAMesh.


▶️Локальный инференс:

# Clone the repo
git clone https://github.com/VAST-AI-Research/HoloPart.git
cd HoloPart

# Create a conda env
conda create -n holopart python=3.10
conda activate holopart

# Install dependencies
pip install torch torchvision --index-url https://download.pytorch.org/whl/{your-cuda-version}
pip install -r requirements.txt

# Step 1: Prepare segmented mesh with a mesh file and mask
import trimesh
import numpy as np
mesh = trimesh.load("mesh.glb", force="mesh")
mask_npy = np.load("mask.npy")
mesh_parts = []
for part_id in np.unique(mask_npy):
mesh_part = mesh.submesh([mask_npy == part_id], append=True)
mesh_parts.append(mesh_part)
mesh_parts = trimesh.Scene(mesh_parts).export("input_mesh.glb")

# Step 2: Decompose the 3D mesh into complete parts:
python -m scripts.inference_holopart --mesh-input assets/example_data/file.glb


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3D #HoloPart #Segmentation #VastAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥2114
🌟 TARIFF — инструмент, который вы реально ждали, Python-пакет, который делает импорты «Великими» снова.

Инструмент позволяет вводить "пошлины" на Python-библиотеки, замедляя загрузку определённых пакетов, чтобы подчеркнуть идею "экономического протекционизма" в коде.​

✔️ Основные особенности
Имитация тарифов на импорты: пользователь может установить "тарифы" (в процентах) на определённые пакеты, например:​



import tariff

tariff.set({
"numpy": 50, # 50% тариф на numpy
"pandas": 200, # 200% тариф на pandas
"requests": 150 # 150% тариф на requests
})


Замедление импорта: при импорте указанных пакетов время загрузки увеличивается пропорционально установленному тарифу.​

Вывод сообщений: при каждом "обложенном тарифом" импорте выводится сообщение в стиле политической риторики, например:​

JUST IMPOSED a 50% TARIFF on numpy! Original import took 45000 us, now takes 67500 us. American packages are WINNING AGAIN! #MIPA

Библиотека использует monkey-patching для перехвата и модификации процесса импорта.​

Github

@ai_machinelearning_big_data

#fun #python
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15325🥱16👍11🔥6🌚4🤣4👏2🎉2😴2🙊1
🌟 Cемейство гибридных моделей Nemotron-H от NVIDIA.

NVIDIA выпустила новое семейство языковых моделей Nemotron-H, сочетающих архитектуры Mamba и Transformer. Эти гибриды обещают до 3х ускорения инференса по сравнению с чистыми Transformer-моделями аналогичного размера (Qwen или Llama).

Семейство поддерживает английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский языки.

Основной фокус Nemotron-H — баланс между эффективностью и интеллектом: даже при меньшем числе параметров (47–56 млрд.) модели демонстрируют точность, близкую к DeepSeek-V3-671B.

Особенность Nemotron-H — использование FP8 для претрейна. 56B-версию обучали на 20 трлн. токенов с квантованием тензоров «на лету», а сжатую в FP4 модель c 47B можно запускать на потребительской RTX 5090 с поддержкой контекста до 1 млн. токенов. Правда, пришлось пожертвовать частью слоев самовнимания — их заменили на более легкие Mamba-блоки, чтобы ускорить генерацию.

NVIDIA не стала тренировать компактные версии модели с нуля. Вместо этого использовали дистилляцию: 47B-модель получили из 56B, удалив половину «тяжелых» слоев и дообучив на 63 млрд токенов. Результат — почти та же точность, но на 1.2x быстрее.

В бенчмарках Nemotron-H обходит конкурентов в математике и коде: на GSM8k 56B-версия дает 93.7% против 90.9% у Qwen-72B. А 8B-модель, хоть и уступает в MMLU, вырывается вперёд в HumanEval+ (56.1%) — ожидаемо, с учетом ее instruct-оптимизации.

Пока модели доступны на HF как базовые, но NVIDIA обещает добавить инструктивные и мультимодальные версии.

▶️В опенсорсный релиз были выпушены чекпоинты с контекстом 8 тыс. токенов:

🟢Nemotron-H-56B-Base-8K

🟢Nemotron-H-47B-Base-8K

🟢Nemotron-H-8B-Base-8K


📌 Лицензирование: NVIDIA Internal Scientific Research and Development Model License.


🟡Страница проекта
🟡Коллекция на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NemotronH #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5326🔥10🤔6❤‍🔥2
✔️ OpenAI разрабатывает собственную соцсеть

По данным нескольких источников, OpenAI работает над собственной социальной платформой.
Внутренний прототип уже существует — он включает социальную ленту с генерацией изображений от ChatGPT. Сэм Альтман также собирает обратную связь от внешних тестировщиков.

Собственная соцсеть даст OpenAI прямой доступ к реальным пользовательским данным — как у X, которые используют их для обучения своих ИИ.
Один из мотиваторов — интеграция Grok в X, с которой пользователи создают вирусный контент прямо в реальном времени.

✔️ Groq запускает ИИ-систему Compound Beta с функциями поиска в Интернете и выполнения кода.

Groq объявила о предварительном запуске Compound Beta, своей первой системы искусственного интеллекта, размещенной на GroqCloud. Она позволяет пользователям осуществлять поиск в Интернете и выполнять программный код. Система предназначена для разработки агентов с расширенным функционалом и ее хвалят бета-тестеры, получившие ранний доступ. Попробовать Compound Beta можно в Groq Console.
Groq в X (ex-Twitter)

✔️ Anthropic анонсировала голосовой режим для Claude и интеграцию с Google Workspace.

Anthropic анонсировала 2 обновления для Claude, ориентированных на корпоративных пользователей. Первое — интеграция с Google Workspace, которая позволяет Claude работать с Gmail, Google Calendar и Google Docs. Функция доступна в бета-режиме для подписчиков планов Max, Team, Enterprise и Pro.

Второе — режим «Исследование», меняющий подход к поиску информации. Вместо стандартных запросов Claude автономно проводит цепочку взаимосвязанных поисков, формируя детальные ответы. Сейчас функция тестируется в США, Японии и Бразилии для планов Max, Team и Enterprise, а вскоре станет доступна и для Pro.

Также Anthropic готовит голосовой режим с 3 вариантами озвучки: Airy, Mellow и Buttery. Он появится для подписчиков премиум-плана Max.
bloomberg.com

✔️ Cohere выпустила Embed 4.

Cohere объявила о релизе Embed 4 — эмбединг-модели, которая упрощает поиск в сложных бизнес-документах. Технология поддерживает мультимодальность: анализирует текст, изображения, графики и рукописные заметки, избавляя компании от ручной обработки данных.

Модель работает с документами до 128 тыс. токенов (это примерно 200 страниц) и понимает 100+ языков. Embed 4 также оптимизирована для регулируемых отраслей: в финансах она анализирует отчеты, в здравоохранении — медицинские карты, а в производстве — спецификации. Embed 4 уже доступна на платформах Cohere, Azure AI Foundry и Amazon SageMaker.
cohere.com

✔️ OpenAI обновила Preparedness Framework и вводит трехкомпонентный режим инцидентов ИИ.

OpenAI внесла существенные изменения в свою систему Preparedness Framework, предназначенную для отслеживания и подготовки к продвинутым возможностям ИИ, которые могут привести к серьезному ущербу.

В результате пересмотра была исключена категория убеждения и введен новый мониторинг рисков, связанных с самовоспроизведением и "sandbagging". Обновленная структура поясняет, как OpenAI классифицирует риски ИИ на основе определенных критериев, подчеркивая, что риски должны быть правдоподобными, измеримыми, серьезными, новыми и либо мгновенными, либо неустранимыми.
openai.com

✔️ Adobe инвестирует в ИИ-стартап Synthesia.

Adobe Ventures сделала стратегическую инвестицию в Synthesia, британский стартап, разрабатывающий ИИ-аватары для корпоративных видео. Решение последовало после того, как компания преодолела отметку в $100 млн годовой выручки.

Synthesia позволяет создавать реалистичные видео с цифровыми персонажами (готовыми или записанными с реальных людей). Платформа уже используется 60 тыс. компаний, включая 70% из Fortune 100, для обучения, маркетинга и коммуникаций.

Synthesia планирует развивать новые продукты — AI-ассистент для видео, мультиязыковой дубляж, кастомизируемые аватары и готовит платформу Synthesia 2.0 для масштабируемых решений. С поддержкой Adobe и растущей клиентской базой стартап намерен перейти от экспериментов с ИИ к устойчивому бизнесу.
maginative.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥1910❤‍🔥2🥰2🤔2
🔥 FireEdit — новая методика редактирования изображений по инструкции

🌟 В основе FireEdit — усовершенствованная Vision Language Model (VLM), способная выполнять тонкое и точное редактирование изображений на основе текстовых промптов.

🌟 Что внутри:
🟢Region Tokens
Позволяют VLM точно определять редактируемые объекты даже в сложных сценах, не затрагивая остальное изображение.
🟢Time-Aware Target Injection
Динамически регулирует степень редактирования на разных этапах шумоподавления, интегрируя информацию о времени с текстовыми эмбеддингами.
🟢Hybrid Visual Cross-Attention
Позволяет сохранить высокочастотные визуальные детали и семантическую согласованность изображения.

✔️Результаты
FireEdit превосходит другие SOTA-методы на датасете Emu Edit — как по точности локализации, так и по качеству результата.

✔️ Визуальные сравнения показывают, что FireEdit:
🟢Лучше локализует редактируемые области
🟢Меньше искажает фон и окружающие детали
🟢Сохраняет высокую семантическую точность

🔜 Статья
🔜Проект

@ai_machinelearning_big_data


#AI #VLM #Diffusion #ImageEditing #FireEdit #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4714🔥12😁3
🌟Демис Хассабис попал на обложку Times и вошел в TIME100 самых влиятельных людей 2025 года​

TIME включил Демиса Хассабиса, генерального директора Google DeepMind, в список 100 самых влиятельных людей мира в 2025 году. Это признание его выдающегося вклада в развитие искусственного интеллекта и науки.​

В 2024 году Хассабис был удостоен Нобелевской премии по химии за создание AlphaFold — ИИ-системы, способной предсказывать структуру белков, что значительно ускорило научные исследования в области медицины и биологии. ​

Однако Хассабис не останавливается на достигнутом. Он активно работает над созданием AGI, который сможет решать сложнейшие задачи, такие как борьба с болезнями, изменение климата и дефицит ресурсов. Хассабис считает, что AGI может быть разработан в течение ближайших 5–10 лет. ​
Time

Тем не менее, он осознаёт риски, связанные с развитием AGI, включая возможные угрозы демократии и потенциальное использование технологий в военных целях. Хассабис призывает к международному сотрудничеству и созданию надёжных механизмов безопасности для обеспечения того, чтобы AGI служил на благо человечества. ​
Time

🔜 Подробнее об этом можно прочитать в статье TIME: Demis Hassabis Is Preparing for AI's Endgame​

@ai_machinelearning_big_data


#AI #AGI #DeepMind #DemisHassabis #TIME100 #Наука #Технологии
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7619🔥12😁7💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ReZero — маленькая модель, которая никогда не сдаётся

🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.

🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.

Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.

Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.

Обучается с помощью RL — формируя привычку "не сдаваться".


🔜Github
🔜 Модель

@ai_machinelearning_big_data


#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥3316🤣14
🖥 OpenAi представлют новые модели o-серии (o3 и o4-mini)

OpenAI утверждает, что эти модели способны генерировать новые и полезные идеи.

Обе будут добавлены с сегодняшнего дня в ChatGPT и API.

Впервые модели рассуждений могут использовать и комбинировать все инструменты ChatGPT, включая веб-поиск, Python, анализ изображений, работу с файлами и генерацию изображений.

Модель o3 установила новый рекорд на AIME 2025 с точностью 98.4%.

А вот o4-mini, набрала 99.5% — лучший результат среди всех моделей.

На Codeforces модели набирают более 2700 баллов, что помещает их в число 200 лучших программистов в мире!

На Humanity Last Exam её показатели находятся на уровне флагманской модели Deep Research.

API — о3 сильно дешевле о1: 10/40$ вместо 15/60$, а o4-mini будет доступна для БЕСПЛАТНЫХ пользователей

С помощью внутренних инструментов модель также умеет рассуждать и работать с изображениями (например, использовать Python для их преобразования).

Эти способности к рассуждению достигнуты благодаря масштабированию как во время обучения, так и во время инференса.

Трансляция: https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_machinelearning_big_data

#openai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5322🔥14😁6🌭2🤷2
🚀 Codex CLI

"Модели o3 и o4-mini настолько сильны в программировании, что мы решили упростить их использование и выпустить новый продукт"" — Codex CLI - написал в своем аккаунт Альтман

💻 Codex CLI — это мощный программирующий агент, который работает локально на вашем компьютере.

- Чат-ориентированная разработка: Позволяет взаимодействовать с вашим репозиторием через диалоговый интерфейс.​

- Выполнение кода: Способен запускать код, манипулировать файлами и выполнять итерации прямо в терминале.​

- Интеграция с системами контроля версий: Обеспечивает работу под управлением систем контроля версий, таких как Git.​

🌟 Полностью open source и уже доступен для скачивания!

npm install -g @openai/codex

https://github.com/openai/codex

@ai_machinelearning_big_data

#AI #OpenSource #CodexCLI #Coding #LLM #DevTools
171👍44🔥7🥰6🗿6😁4🤔4
🔥 Classifier Factory от Mistral

Classifier Factory — это интуитивно понятное руководство для создания и обучения собственных моделей классификации на базе компактных LLM от Mistral AI.

С его помощью — как через веб‑интерфейс La Plateforme, так и через API — можно быстро разворачивать решения для модерации контента, детекции намерений, анализа тональности, кластеризации данных, обнаружения мошенничества, фильтрации спама, рекомендательных систем и других задач

Classifier Factory поможет упростить весь цикл работы с custom‑классификаторами: от подготовки данных до развёртывания готовой модели в продакшене.

🔜 Docs
🔜Cookbook: Moderation Classifier
🔜Cookbook: Intent Classification
🔜Cookbook: Classification of Food

@ai_machinelearning_big_data


#Mistral #api
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥2814😁7
✔️ OpenAI ведет переговоры о приобретении Windsurf.

OpenAI ведет переговоры о приобретении компании Windsurf, ИИ-инструмента для программирования, ранее известного как Codeium, за 3 млрд. долларов. Если сделка будет завершена, это станет крупнейшей покупкой для OpenAI на сегодняшний день и укрепит ее позиции на конкурентном рынке ИИ-кодинга.
bloomberg.com

✔️ Microsoft опубликовала веса крупнейшей 1-битной модели.

Microsoft представила BitNet b1.58 2B4T — модель с квантованием весов до трех значений (-1, 0, 1). Она может работать на CPU и доступна на HuggingFace под MIT-лицензией. Это первая модель такого типа с 2 млрд. параметров, обученная на 4 трлн. токенов (примерно 33 млн книг).

По заявлению разработчиков, BitNet превосходит модели Lllama, Google и Alibaba в тестах на решение математических задач (GSM8K) и проверку логики (PIQA). При этом скорость инференса вдвое выше, а память расходуется экономнее.

Но есть нюанс: для работы требуется фреймворк bitnet.cpp, который пока не поддерживает GPU.
techcrunch.com

✔️ Huawei презентовала серверную ИИ-систему CloudMatrix.

Huawei представила новую стоечную систему AI CloudMatrix 384, которая должна конкурировать с GB200 NVL72 от Nvidia. Хотя CloudMatrix 384 менее энергоэффективна, а ее производительность в 2,6 раза ниже в показателе FLOP на ватт, это не считается ограничивающим фактором в Китае, поскольку страна располагает достаточными энергетическими ресурсами.

Система использует ускоритель Huawei Ascend 910C AI и позиционируется как мощное внутреннее решение в китайском технологическом ландшафте. Появление CloudMatrix 384 - результат продолжающейся технологической войны между США и Китаем.
scmp.com

✔️ Дрон, управляемый ИИ впервые победил чемпионов-людей в гоночных соревнованиях.

Автономный дрон от Делфтского университета выиграл чемпионат A2RL, а затем в напряжённом турнире одолел 3 экс-чемпионов DCL, развив скорость до 95,8 км/ч на сложной трассе.

Ключевым аспектом победы стала нейросеть, которая управляла моторами напрямую, минуя традиционные контроллеры. Технология, которая была разработана ESA для космических аппаратов, позволила дрону работать с ограниченными ресурсами — всего одна камера и минимум вычислений. Как и люди, ИИ учился методом проб и ошибок, что помогло приблизиться к физическим пределам системы.
techxplore.com

✔️ MIT разработал метод машинного обучения для решения сложных логистических задач.

Исследователи MIT разработали метод L-RHO, объединяющий машинное обучение с традиционными методами оптимизации в задачах планирования. Система учится «замораживать» повторяющиеся переменные в подзадачах, сокращая время решения на 54% и повышая качество результатов до 21%.

Технология анализирует данные предыдущих решений, выделяя элементы, которые не требуют пересчёта. Оставшиеся переменные обрабатываются стандартным решателем, ускоряя процесс без потери точности. Метод уже проверен на реальных сценариях, включая сбои оборудования и перегрузки, показав стабильную эффективность.

L-RHO адаптивен к изменяющимся условиям: от расписания поездов до планирования медперсонала. В планах — интеграция метода в задачи управления запасами и маршрутизацией транспорта.
news.mit.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍6120🔥14🤔2