Machine learning Interview

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Базы данных: t.iss.one/sqlhub
Мл собес t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
МЛ: t.iss.one/machinelearning_ru
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Физика: t.iss.one/fizmat
SQL: t.iss.one/databases_tg

Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: https://t.iss.one/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.iss.one/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤20👍9🔥6😁4👨‍💻2

5.2K views10:18

Machine learning Interview

💣 Higgsfield — фреймворк для распределённого обучения ML-моделей, который обещает избавить разработчиков от адской настройки окружений и конфигов. Проект сочетает в себе оркестрацию GPU-ресурсов с готовыми шаблонами для обучения больших языковых моделей, таких как LLaMA 70B.

Репозиторий интегрируется с GitHub Actions для автоматического развертывания экспериментов на выделенных нодах. Вместо тонн YAML-конфигов Higgsfield предлагает простой Python-интерфейс, поддерживающий как стандартные PyTorch-практики, так и сложные сценарии вроде Zero-3 шардинга.

🤖 GitHub

@machinelearning_interview

👍22❤9🔥5🐳5👨‍💻3

5.64K views11:20

Machine learning Interview

🧠 Intern-S1 — мощная open-source модель для мультимодальных научных задач

Команда InternLM представила Intern-S1 — продвинутую модель, способную обрабатывать и текст, и изображения, включая научные данные.

Что под капотом:
– Языковая модель 235B (MoE) + визуальный энкодер 6B
– Предобучена на 5 триллионах токенов, больше половины — научные данные
– Понимает молекулярные формулы, белковые последовательности, сейсмические сигналы — благодаря динамическому токенизатору
– Сопоставима по качеству с закрытыми коммерческими моделями в научных бенчмарках

🤗 HuggingFace: https://huggingface.co/internlm/Intern-S1-FP8
💻 GitHub: https://github.com/InternLM/Intern-S1
🌐 Онлайн-демо: https://chat.intern-ai.org.cn

@machinelearning_interview

#ml #ai #Intern

❤24🔥11👍7😁2👨‍💻2

5.38K views14:01

Machine learning Interview

🧠 NVIDIA выпустила обновлённые модели Llama Super v1.5 и *Nemotron Super v1.5* — они помогут делать AI-агентов точнее и эффективнее.

Что нового:
— *Llama Super v1.5* — улучшенная версия модели для диалогов, логических задач и RLHF
— *Nemotron Super v1.5* — набор для обучения, ориентированный на код, инструкции и математику
— Используются методы DPO и rejection sampling для более стабильных и полезных ответов

Обе модели работают с NeMo и оптимизированы под GPU NVIDIA, включая H100.

Если вы строите собственного ИИ-ассистента, пишете агента для задач или просто экспериментируете с LLM — можно попробовать.

🔗Скачать модель: https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
🔗 Блог NVIDIA:
https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/

👍25❤7🔥4👨‍💻3

4.77K views11:01

Machine learning Interview

😤 Anthropic становится с каждым днём всё хуже:

— Ужасные лимиты
— Дорогие тарифные планы
— Теперь ещё и недельные ограничения

Единственное, что их спасает — лучшая кодинг‑модель.

Но как только выйдет GPT‑5 или кто-то сделает что-то лучше — их сметут.

⏳ Ждём смены лидера для вайбкодина.

🫡34👍13❤5🔥4👨‍💻2

4.95K views09:16

Machine learning Interview

📊 MLU — практический курс по табличными данным. Бесплатный образовательный проект от Amazon для погружения в машинное обучение. Включает видео-лекции, Jupyter-ноутбуки и реальные датасеты для отработки методов работы с табличными данными.

Курс охватывает все этапы — от разведочного анализа до нейросетей и AutoML. Особый акцент сделан на feature engineering и классические алгоритмы.

🤖 GitHub

@machinelearning_interview

👍40🔥8❤5🥰2😁2👨‍💻2

5.1K views10:04

Machine learning Interview

🔥 Реализация ResNet‑34 с нуля на TensorFlow (Keras)!

Модель, выигравшая ILSVRC 2015, — всего в ~40 строк кода 🥳

Писать было просто...
Понимать — не очень 🤯🤢

📌 Residual блоки
📌 Shortcut соединения
📌 Keras Functional API
📌 Полная архитектура ResNet‑34

Попробуй повторить проект и разобраться глубже — отличный способ прокачаться в CNN!

Вот гист с реализацией 👇
https://gist.github.com/TM23-sanji/3e50c165b33999af0a57816251afc12b

@machinelearning_interview

❤28👍11🥴9🔥5👨‍💻2

5.36K viewsedited 09:41

Machine learning Interview

🖥

120 ключевых вопросов по SQL за 2025 год

Статья содержит 120 ключевых вопросов по SQL для собеседований, разделённых по темам и уровням сложности, с краткими пояснениями.

Основываясь на актуальных требованиях 2025 года, вопросы охватывают базу данных, оптимизацию, практические задачи и нюансы СУБД (MySQL, PostgreSQL, SQL Server).

🔜

Подробности

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥7❤6👨‍💻1

4.95K views08:38

Machine learning Interview

🚀 Step 3 — новая звезда среди мультимодальных open-source моделей

StepFun представили Step 3 — мощную и удивительно быструю VLM‑модель, которая может работать даже на доступных GPU.

🔷 321B параметров (38B активных) — всё для топ‑производительности и дешёвого инференса
🔷 Новые подходы MFA + AFD — ускоряют работу модели и снижают требования к железу
🔷 Обучена на 20+ трлн токенов, из них 4T мультимодальные (текст + изображение)
🔷 До 4 039 токенов/сек/на GPU — на 70% быстрее, чем DeepSeek‑V3
🔷 Минимум галлюцинаций, максимум логики — особый фокус на качество данных

💎 Step 3 устанавливает новую Pareto‑границу между мощностью, скоростью и реальной практичностью.

🔗 Попробовать: https://huggingface.co/stepfun-ai/step3
📖 Блог: https://stepfun.com/research/zh/step3

👍21❤12🔥4👨‍💻2

5.09K views15:30

Machine learning Interview

👀 ByteDance тоже радует диффузионные LLM!

🚀 Seed Diffusion Preview – сверхбыстрый LLM для кодинга на базе дискретной диффузии.
⚡ 2 146 токенов/с на H20 GPU – опережает Mercury & Gemini Diffusion, при этом не уступая им по качеству на бенчмарках.
🏆 Новый SOTA на Pareto-фронтире «скорость–качество».

🟠

Paper: https://lf3-static.bytednsdoc.com/obj/eden-cn/hyvsmeh7uhobf/sdiff_updated.pdf

🟠

Project: https://seed.bytedance.com/seed_diffusion

🟠

Demo: https://studio.seed.ai/exp/seed_diffusion

@machinelearning_interview

#AI #LLM #Diffusion #ByteDance #SeedDiffusionPreview

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25👍10❤7👨‍💻1

5.36K views07:54

Machine learning Interview

🚀 MLE‑STAR от Google Research — новый state‑of‑the‑art агент для ML-инжиниринга

Google представил MLE‑STAR — агент на основе LLM, который автоматизирует ML-задачи разных типов (табличные данные, изображения, текст и др.) и достигает высот в сравнении с предыдущими подходами.

Что нового:

• Использует веб‑поиск для поиска современных моделей и примеров кода, чтобы создать начальное решение
• Делает абляционный анализ (ablation study), чтобы определить наиболее влиятельный компонент в ML-пайплайне, и итеративно дорабатывает его
• Развивает энсемблирование: генерирует несколько решений и собирает их в одно улучшенное, опираясь на стратегию агента
• Включает модули контроля: дебаггер, проверку утечек данных и контроль использования всех источников данных, чтобы избежать плохих практик

🧪 Результаты:
MLE‑STAR выигрывает медали в 63–64 % из бенчмарка MLE‑Bench‑Lite (Kaggle), обгоняя лучшие существующие методы (~25–26 %)

🛠 В чем плюсы:
- Снижает порог входа в ML для инженеров и организаций
- Обеспечивает адаптивность: агент извлекает свежие знания из сети, поэтому решения автоматически улучшаются с развитием ML
- Открытый исходный код — можно протестировать или встроить в собственные пайплайны

💡 Как работает:
1. Поиск нужных моделей через веб
2. Генерация и слияние лучших кандидатов
3. Абляционный анализ → выбор блока → уточнение этого блока
4. Итеративное улучшение и объединение ансамблей
5. Контрольные модули: дебаг, утечки, использование данных

🔜

Подробнее

@machinelearning_interview

#Google #GoogleResearch #ml #mle #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤29🔥12👍3👨‍💻1

7.98K views07:56

Machine learning Interview

Forwarded from Machinelearning

🌟

Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. .

Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.

Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.

🟢

На первом этапе система училась писать корректный и компилируемый CUDA-код.

Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.

🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные.

🟢Самое интересное - третий этап.

Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:

🟠Почему kernel_v2 настолько быстрее?
🟠Какая стратегия оптимизации сработает еще лучше?
🟠Напиши ядро, которое превзойдет их все.

Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.

🟡

Отдельная история - как победили reward hacking.

После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.

Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.

Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.

🟡

Пришлось строить многоуровневую защиту.

Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.

Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.

И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.

🟡

После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными.

Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.

Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.

Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.

🟡

Самое важное - это переносимость оптимизаций.

Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.

Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).

▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU.

📌Лицензирование: GPL-3.0 License.

🟡

Страница проекта

🟡

Arxiv

🟡

Demo

🖥

Github

@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce #ContrastiveRL

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM