Machine learning Interview

📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.

🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.

Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.

⚡ Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.

🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.

🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.

🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.

❤14🔥5👍3😱3🥰2

3.5K views14:03

Machine learning Interview

⚙️ Задача по машинному обучению: Классификация текстовых отзывов с использованием современных LLM.

Условие:
Дана выборка текстовых отзывов о продуктах с метками настроения (позитивный/негативный).
Необходимо:
1️⃣ Разделить данные на обучающую и тестовую выборки (80/20)
2️⃣ Обучить классификатор на основе Claude 3
3️⃣ Сравнить качество с GPT-4 и Gemini 1.5
4️⃣ Оценить точность и время обработки

Решение:


import anthropic
import openai
import google.generativeai as genai
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import time

# Пример данных (в реальной задаче - загрузка датасета)
reviews = ["Отличный товар, всем рекомендую!", 
           "Ужасное качество, не покупайте..."]
labels = [1, 0]  # 1=позитивный, 0=негативный

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(reviews, labels, test_size=0.2)

def classify_with_claude(text):
    client = anthropic.Anthropic(api_key="your_api_key")
    response = client.iss.onessages.create(
        model="claude-3-opus-20240229",
        max_tokens=100,
        messages=[{"role": "user", "content": f"Классифицируй отзыв: '{text}'. Ответь только '1' (позитивный) или '0' (негативный)"}]
    )
    return int(response.content[0].text)

# Аналогичные функции для GPT-4 и Gemini...

# Тестирование
models = {"Claude 3": classify_with_claude, 
          "GPT-4": classify_with_gpt4,
          "Gemini 1.5": classify_with_gemini}

for name, model in models.items():
    start = time.time()
    preds = [model(text) for text in X_test]
    elapsed = time.time() - start
    acc = accuracy_score(y_test, preds)
    print(f"{name}: Accuracy = {acc:.2f}, Time = {elapsed:.1f} сек")

Пишите свои варианты решения в комментариях👇

@machinelearning_interview

#junior

🤣22❤7👍6🥰4😁2

3.06K views09:04

Machine learning Interview

🧠 SpikingBrain-7B: Модели, вдохновленные нейробиологией

SpikingBrain-7B представляет собой архитектуру, основанную на механизмах мозга, которая использует гибридное внимание и модули MoE для эффективного обучения. Она обеспечивает высокую производительность при минимальных затратах данных и адаптирована для кластеров без NVIDIA, что позволяет значительно ускорить обучение и вывод.

🚀Основные моменты:
- Интеграция гибридного внимания и MoE.
- Поддержка низкопрофильного обучения с использованием менее 2% данных.
- Оптимизирована для кластеров MetaX.
- Достигает более чем 100-кратного ускорения в обработке длинных последовательностей.
- Включает версии для HuggingFace и квантованную версию.

📌 GitHub: https://github.com/BICLab/SpikingBrain-7B

@machinelearning_interview

👍9❤5🔥3

3.25K viewsedited 09:20

Machine learning Interview

🚀 Новый набор в Яндекс Лицей на курс по большим данных. Только для школьников и студентов техникумов и колледжей.

Три месяца бесплатного обучения основном обработки и визуализации больших данных. Будете работать с кластерами YTsaurus, SQL. Изучать архитектуру ETL, вычислительные графы. Анализировать данные и визуализировать их в Data Lens.

После обучения получите именной сертификат, который поможет получить дополнительные баллы при поступлении в вузах-партнёрах.

Онлайн-курс в Яндекс Лицее бесплатный, но есть отбор до 23 сентября. Переходите по ссылке и регистрируйтесь

❤6🔥3🥰3

3.22K views15:01

Machine learning Interview

⚛️🔬🚀 PsiQuantum привлекла рекордные $1 млрд для строительства квантового компьютера с 1 млн кубитов к 2028 году — это крупнейший раунд финансирования в истории квантовых технологий.

📈 Теперь компания оценена в $7 млрд и напрямую конкурирует с Google и IBM в гонке за создание полнофункциональной машины.

💰 Среди инвесторов: BlackRock, Temasek, Baillie Gifford и венчурное подразделение Nvidia.

Квантовые компьютеры рассматриваются как ключ к созданию новых материалов и разработке лекарств, с чем классические методы справиться не могут. Но реальная польза от них появится только тогда, когда кубиты будут достаточно стабильны, а коррекция ошибок станет рабочим стандартом. PsiQuantum делает ставку на фотонные кубиты — частицы света, которые можно производить на обычных полупроводниковых фабриках и использовать с меньшим количеством криогенного оборудования. Именно эта ставка может позволить компании обойти конкурентов.

⚠️ Вызовы
- Полной коррекции ошибок пока нет
- Ранее цель на 2024 год по готовой системе была сорвана
- 1 млн физических кубитов нужен, чтобы получить лишь несколько надёжных логических кубитов для долгих программ

🌍 Контекст
- Конкуренты активно растут: Quantinuum собрал $600M (оценка $10B), IQM — $300M
- IonQ, Rigetti и D-Wave взлетели в капитализации до $22B (с <$5B в ноябре)
- Nvidia участвует в проекте, несмотря на осторожные прогнозы (20 лет до работающих систем), делая ставку на гибридный путь: квантовые + GPU суперкомпьютеры

🏗️ Первую полную квантовую установку PsiQuantum планирует построить в Австралии при поддержке правительства (A$940M), а вторую — в Чикаго.

🔗 Подробнее: https://ft.com/content/0a16281f-6bb4-4e60-a6f0-3a9d6f8d764a

#quantum #ai #nvidia #google #ibm #hardware #future

🔥9🤩6👍4🥰4😁2

23K views17:03

Machine learning Interview

🚀 Ring-mini-2.0 — мощная, но лёгкая модель на 16B-A1B!

💡 Обучена с использованием новой стратегии stable RLVR + RLHF, что дало сбалансированное и надёжное качество на разных задачах.
🧠 По логическому рассуждению обгоняет денс-модели такого же размера.
⚡ Скорость — более 300 токенов/сек (в 7 раз быстрее, чем dense-модели).

🔥 Ещё одно доказательство, что маленькие "thinking models" становятся всё умнее и быстрее!

https://huggingface.co/inclusionAI/Ring-mini-2.0

❤9👍6

3.19K views08:29

Machine learning Interview

🔥 Нашёл классный ресурс по истории ИИ

Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд.

Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте.

Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ.

aislowdown.replit.app

👍14🔥5❤4💊2🌭1🍌1

3.58K views10:04

Machine learning Interview

🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество.

В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).

Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.

🟢Почему это интересно:
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.

🟢

Итог
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.

⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot

#Unsloth #LLM #Quantization #AI #AiderPolyglot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍6✍1

3.47K views11:00

Machine learning Interview

🐍 Изучаем MCP на Python — серия уроков от Microsoft

Пошаговое руководство для Python-разработчиков по Model Context Protocol (MCP):
как понять концепцию и построить свой MCP-сервер в интерактивном формате.

📚 Репозиторий с гайдом

#python #MCP #tutorial #developers

👍13❤9🔥7

4.06K views14:00

Machine learning Interview

🧠

Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️

Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️

Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤11🥰3👏1

4.08K views08:37

Machine learning Interview

❓ Как большие языковые модели могут избежать катастрофического забывания во время файнтюнига?

Ответы пишите в комменариях👇

🤔 Проблема
Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания.

Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки.

✅ Подходы на практике:

1️⃣ LoRA / параметро-эффективное дообучение:
- Обновляются не все веса, а только адаптеры.
- Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения.
2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание)
- К кастомному датасету подмешивают данные из предобучения.
- Обычно берут в 2–3 раза больше примеров из базового корпуса.
- Так сохраняется «фон» общих знаний модели.
3️⃣ Dataset mixing (смешивание датасетов)
- Не дают модели «зарыться» в узкий домен.
- Сочетание специализированных и базовых данных удерживает баланс.
4️⃣ Variation across epochs (вариативность между эпохами)
- На каждой эпохе берут новые сэмплы из предобученного корпуса.
- Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству.

📌 Как ответить на собеседовании
«Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых».

@machinelearning_interview

#AI #LLM #MachineLearning #Forgetting #FineTuning

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14🔥7❤3😘3💯1

3.73K views13:42

Machine learning Interview

🇫🇷 Интервью Артура Менша (CEO и сооснователя Mistral AI)

Ключевые моменты:

- Крупное финансирование: Mistral привлекла €1.7 млрд, из них €1.3 млрд вложила ASML. Оценка компании превысила €10 млрд.
- Стратегический альянс: партнёрство с ASML направлено на повышение точности литографических машин. ИИ будет использоваться в производстве полупроводников, включая управление плазмой и другие критичные процессы.
- Модель бизнеса:
- базовые модели остаются open source,
- доход строится на корпоративных продуктах, консалтинге и облачной инфраструктуре.
- Использование капитала: новые средства пойдут на масштабирование вычислений во Франции и международное развитие.
- Принципы и ценности: Mistral подчёркивает независимость, развитие европейского ИИ в сотрудничестве с индустриальными чемпионами, прозрачность в управлении пользовательской памятью. В интервью звучит критика «пассивного UX» и концентрации доступа к информации в руках нескольких американских платформ.

⚡ Mistral позиционирует себя как флагман европейского ИИ с глобальными амбициями.

youtube.com/watch?v=bvX5m4wRiZM

❤8👍8🔥2🥰2

3.56K views06:10

Machine learning Interview

🚀 ИИ ускоряет кодинг, но стопорится на людях

ИИ уже заметно меняет работу команд разработчиков: они закрывают на 21% больше задач и мёржат на 98% больше pull request’ов.
Но есть проблема: время на ревью выросло на 91%. Получается, что главный тормоз теперь — человеческое одобрение кода.

Пока процессы проверки, тестирования и релизов остаются старыми, весь выигрыш от ИИ сводится на нет.
Это и есть закон Амдала в действии: система движется только со скоростью своего самого медленного звена.

Чтобы ИИ реально раскрыл потенциал в разработке, нужно модернизировать весь цикл разработки, а не только генерацию кода.

🔗 Подробнее: https://faros.ai/blog/ai-software-engineering

😁25🤣8❤6👍4🔥3🤔3

4.58K views11:02

Machine learning Interview

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:

🟢

Проект: https://tencent.github.io/srpo-project-page/

🟢

Статья: https://arxiv.org/abs/2509.06942

🟢

Модель: https://huggingface.co/tencent/SRPO

🟢

Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview

#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM