Машинное обучение RU

🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля

В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:

> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)

Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.

💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.

Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.

Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).

А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K

🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.

🟠

GitHub:https://github.com/karpathy/nanochat

🟠

Технические детали: https://github.com/karpathy/nanochat/discussions/1

@ai_machinelearning_big_data

#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤4👍1

1.91K views20:12

Машинное обучение RU

🚀 Microsoft представила MAI-Image-1 - новую модель генерации изображений, которая уже вошла в топ-10 на LMArena

MAI-Image-1 создаётся с упором на реализм, разнообразие и художественную точность, а не шаблонные стили.
Она особенно сильна в фотореалистичных сценах - свет, тени, отражения и текстуры выглядят максимально естественно.

Microsoft отмечает, что обучение велось на тщательно отобранных данных с участием художников и дизайнеров, чтобы улучшить восприятие и применимость модели в реальных проектах.

Главное преимущество — скорость и качество: можно мгновенно визуализировать идею, а затем доработать её в привычных инструментах.

💡 В ближайшее время модель появится в Copilot и Bing Image Creator, но уже сейчас её можно протестировать и оценить в LMArena.

🔗 Подробнее здесь: https://microsoft.ai/news/introducing-mai-image-1-debuting-in-the-top-10-on-lmarena/

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥2

2K views09:37

Машинное обучение RU

🔥 Команда AI VK открыла регистрацию на VK RecSys Challenge

Ребята из RecSys VK снова придумали что-то интересное и снова запустили соревнование по созданию рекомендательных алгоритмов. В этом году задача непростая: построить модель, которая предскажет, кому может понравиться новый клип, даже если его еще никто не видел.

Участникам предстоит работать с реальными данными большого датасета VK-LSVD, включающего 40 млрд обезличенных взаимодействий с 20 млн коротких видео.

📊 Основные условия:
- участие индивидуально или в команде до 4 человек;
- регистрация открыта до 15 декабря;
- призовой фонд: 2,5 млн руб.

Все решения автоматически проверяются на закрытой тестовой выборке с расчетом метрики качества, а лучшие модели будут представлены 17 января.

🔗 Регистрация

❤5🔥3👏2😁1

2.07K viewsedited 10:49

Машинное обучение RU

🚀 Высокопроизводительный движок полнотекстового поиска на Go

Blaze — это мощный движок для быстрого полнотекстового поиска с использованием инвертированных индексов. Он идеально подходит для приложений, которые требуют эффективного поиска по текстовым документам без зависимости от внешних поисковых систем.

🚀 Основные моменты:
- Инвертированный индекс для мгновенного поиска
- Поддержка булевых запросов и фразового поиска
- Алгоритм BM25 для оценки релевантности
- Безопасный для потоков с поддержкой конкурентного индексирования
- Компактное бинарное хранилище для данных

📌 GitHub: https://github.com/wizenheimer/blaze

❤3👍2🔥1

2.55K views14:14

Машинное обучение RU

😁3🤔1

2.29K views21:24

Машинное обучение RU

⚡️ Microsoft представила новый стандарт оценки ИИ для кибербезопасности - ExCyTIn-Bench

Microsoft запустила ExCyTIn-Bench - открытую платформу, которая тестирует, как ИИ справляется с реальными инцидентами безопасности, а не просто отвечает на теоретические вопросы.

Что делает ExCyTIn-Bench

- Имитация настоящего SOC (Security Operations Center) с логами, инцидентами и хаосом реальных атак.
- Проверяет не только ответы, но и логику рассуждений ИИ: шаги, объяснения, приоритизацию угроз.
- Включает 57 таблиц логов из Microsoft Sentinel — максимально приближено к практике.
- Поддерживает сравнение разных моделей и метрик, включая reasoning-оценку (пошаговое мышление).

Зачем это нужно

Обычные тесты “вопрос-ответ” не отражают реальную сложность киберугроз.
ExCyTIn-Bench поднимает планку: теперь модели должны мыслить как аналитики SOC.

Microsoft уже использует этот бенчмарк для проверки своих продуктов — Security Copilot, Defender и Sentinel.
Первые результаты показывают, что продвинутые LLM вроде GPT-5 уже уверенно анализируют инциденты и выстраивают цепочку атак.

🔗 Подробнее: https://www.microsoft.com/en-us/security/blog/2025/10/14/microsoft-raises-the-bar-a-smarter-way-to-measure-ai-for-cybersecurity/

#Microsoft #CyberSecurity #AI #SecurityCopilot

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

2.72K viewsedited 09:54

Машинное обучение RU

🚀 Создание AI-агентов без кода

Open Agent Builder — это визуальный конструктор для разработки и развертывания рабочих процессов AI-агентов. Используя интерфейс перетаскивания, вы можете легко создавать сложные потоки, включая автоматизацию исследований и веб-скрапинг.

🚀 Основные моменты:
- Интуитивно понятный интерфейс для создания рабочих процессов
- Поддержка реального времени с обновлениями
- Интеграция с Firecrawl для веб-скрапинга
- Многофункциональные узлы для различных задач
- Поддержка аутентификации и управления пользователями

📌 GitHub: https://github.com/firecrawl/open-agent-builder

🔥6❤1

2.35K views12:51

Машинное обучение RU

🚀 Новый курс на Stepik: Computer Vision Engineer

Соберёте продакшн-CV: датасет → обучение (YOLO/RT-DETR/SAM, OCR/Doc-AI) → экспорт в ONNX/TensorRT/OpenVINO → API на FastAPI → мониторинг (Prometheus/Grafana). Практика на реальных кейсах: пустые полки, дефекты, документы.

🎯 Результат — сервис с метриками mAP/IoU, p95-latency и cost/req.

🔥 Скидка 30% по промо COMPUTERVISION (48 ч)

👉 Пройти со скидкой

❤1

1.9K views09:51

Машинное обучение RU

🧠 Новая работа показывает, что даже небольшая open-source модель может решать сложные математические задачи — если заставить её "думать дольше" с помощью циклов саморазвития рассуждений.

Исследователи взяли 8B-модель на базе DeepSeek и заставили её проходить долгие итеративные reasoning-loops, где каждая итерация — это маленький шаг к более точному решению.
Если модель находит улучшение хоть чуть-чуть лучше предыдущего ответа, цикл продолжается.

Результат: модель решила 5 задач AIME, которые раньше не могла, и даже превзошла точность своего «учителя» — 600B-модели, если брать голосование по итоговым ответам из множества параллельных циклов.

Метод прост:
1️⃣ Проверить текущий ответ
2️⃣ Исправить ошибки
3️⃣ Повторять несколько десятков итераций

Такой подход увеличивает время вычислений на тесте, но даёт гораздо более надёжные решения, фактически расширяя пределы возможностей малых моделей.

📄 Paper: arxiv.org/abs/2510.17498

❤8🔥5

2.18K views11:51

Машинное обучение RU

Forwarded from Machinelearning

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🎥

Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B

ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео.

- Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.

⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.

🟠

Github: https://github.com/bytedance/Video-As-Prompt

🟠

HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B

@ai_machinelearning_big_data

#AI #VideoGeneration #ByteDance #Wan2 #HuggingFace

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

1.75K views15:06

Машинное обучение RU

🎮 Погружение в мир AI-социума

Microverse — это песочница, где AI-герои взаимодействуют в открытом мире, развивая свои социальные связи. Проект включает демо-версию игры, созданной на Godot 4, и предлагает уникальный опыт общения с многофункциональными AI-персонажами.

🚀 Основные моменты:
- Песочница с AI-экосистемой для социальных взаимодействий
- Поддержка многопользовательских AI-диалогов
- Долговременная память для персонажей
- Автономное управление задачами и взаимодействиями
- Интеграция с различными AI-сервисами

📌 GitHub: https://github.com/KsanaDock/Microverse

#gdscript

❤3🔥1

1.96K views13:02

Машинное обучение RU

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Иногда полезно выйти за пределы привычных pet-проектов и Kaggle-соревнований — просто, чтобы напомнить себе, зачем ты этим вообще занимаешься.

В Yandex Cup ты не соревнуешься ради бейджа или рейтинга. Здесь задачи максимально приближены к реальности: нужно балансировать между скоростью, качеством и интерпретируемостью решений.

Формат гибкий: сначала онлайн-этап, потом финал — офлайн, в Стамбуле. Призовой фонд — 12 млн рублей, но для многих главная мотивация — не деньги, а люди.

Сильные ML-инженеры из Яндекса и других компаний, открытые дискуссии, возможность показать себя и прокачаться рядом с теми, кто двигает индустрию вперёд.

Отбор заканчивается совсем скоро. Если ты чувствуешь, что уже перерос курсы и туториалы, — вот твой шанс проверить себя в реальном бою.

👉 yandex.ru/cup/2025

👍2👎2❤1🔥1

1.67K views08:10

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

🧢CAP4D🧢!

Модель можно генерировать анимируемые 4D-аватары из любых изображений + управляющего видео.
🤩 Поддерживаются даже стилизованные фото!

👉 Код: github.com/felixtaubner/cap4d
🏠 Проект: felixtaubner.github.io/cap4d/

❤4👍1👎1

1.77K views10:10

Машинное обучение RU

AIJ Deep Dive – must-attend событие для профессионалов в AI!

Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.

Будет два тематических дня:

1️⃣ День Науки (19 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.

2️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.

Почему это событие нельзя пропустить?

✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии

Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive

Приходи и стань частью сообщества, которое пишет будущее!

1.71K views11:02

Машинное обучение RU

🤖 NanoChat теперь живёт на Modal!

Разработчик перенёс мод для NanoChat от Карпаты на платформу @modal - теперь он обучается на 8× H100 и разворачивается на 1× A10G.

💡 Всё открыто:

Исходники и инструкция — github.com/Echen1246/smarternano

Онлайн-демо space3--nanochat-serve-chat.modal.run

Отличный пример того, как LLM можно поднять на своих GPU - просто, гибко и без огромной инфраструктуры.

👍2👎2

1.66K views13:01

Машинное обучение RU

Компании всё чаще переносят ИИ-модели в облако

В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.

Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.

🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka

#AI #GenerativeAI #Agents #RAG

😁3❤2👍1

1.92K views15:00

Машинное обучение RU

🚀 DeepSeek-OCR на Rust

Репозиторий представляет собой реализацию DeepSeek-OCR на Rust с быстрой командной строкой и совместимым с OpenAI HTTP-сервером. Он включает в себя модели для обработки изображений и текстов, позволяя создавать локальные решения для понимания документов.

🚀 Основные моменты:
- Быстрая CLI и сервер для OCR задач.
- Поддержка Apple Metal и экспериментальная CUDA.
- Оптимизирован для работы на Apple Silicon.
- Совместимость с клиентами OpenAI.
- Безопасная память и низкие накладные расходы.

📌 GitHub: https://github.com/TimmyOVO/deepseek-ocr.rs

#rust

🔥5👍1

1.91K views10:18

Машинное обучение RU

Forwarded from Machine learning Interview

⚡️

vLLM представила режим Sleep Mode для мгновенного переключения моделей

В публикации на блоге vLLM описан новый режим работы - Sleep Mode - который позволяет резко ускорить переключение между языковыми моделями. Традиционные методы требуют либо держать обе модели загруженными (что удваивает нагрузку на GPU), либо перезагружать их по очереди с паузой в 30–100 секунд. Sleep Mode предлагает третий вариант: модели «усыпляют» и «просыпают» за считанные секунды, сохраняя уже инициализированное состояние.

Доступны два уровня сна: уровень 1 - веса сбрасываются на RAM, быстрый подъём, но требуется много оперативной памяти; уровень 2 - веса выгружаются полностью, минимальное использование RAM, подъём чуть медленнее. Оба уровня дали прирост производительности: переключения моделей стали от 18 до 200 раз быстрее, а время инференса после пробуждения - на 61–88 % выше, поскольку сохраняется память процессов, CUDA-графы и JIT-компиляция.

Sleep Mode идеально подходит для сценариев с частым использованием разных моделей и делает практичным мульти-модельное обслуживание даже на GPU среднего уровня - от A4000 до A100.

Блог: https://blog.vllm.ai/2025/10/26/sleep-mode.html

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥3🤔2❤1

1.67K views12:00

About

Blog

Apps

Platform