Дратути Антон
4.07K subscribers
161 photos
28 videos
203 links
Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiksvg
Download Telegram
Руководитель и код. Часть 2/2

В прошлом посте вы постарались набрать очень быстро необходимое число лайков. Тем не менее, пишу пост только сейчас. Вообще ваши реакции — практически единственная форма фидбека мне. Поэтому если вам что-то нравится или, наоборот, не нравится, вы смело приходите ко мне с этим (куда угодно: личка, сообщения канала, комменты). Ну и реакции ставьте 😍


Мы в команде очень сильно заботимся о качественных метриках. Достаточно строго собираем наборы данных и оцениваем качество метрик, валидаторов. Вообще замеры — это очень сложная тема, требующая понимания не только того, как работаем сам процесс (данные, валидаторы и природа метрик), но и то, как всё работает под капотом: какой режим семплирования, какой бэкенд используется, на каком железе, есть ли батчевание и т.д. И ясное дело за всем уследить не всегда возможно.

И тут возникли проблемы разного характера из мира инженерии, в абсолютно разных местах, но на KPI метриках. Где-то начало флапать, где-то онлайн (внутренний) не сходится с оффлайном на одних и тех же данных. В общем, какой-то бред.

По людям история такая: кто-то ушёл в отпуск, кому-то нужно допинать текущие задачи, кому-то просто пока не дашь эти задачи, потому что нужно починить быстро, а опыта работы именно с этим еще не было. И не то, что нельзя вырвать какого-то знающего человека из текущих задач и дать ему раздебажить проблему — всё-таки важные KPI метрики. Просто только-только случился очередной релиз и хочется дать ребяткам выдохнуть, да и тем более я сам понимал, что примерно нужно копать. Посмотрел по своим приоритетам, поранжировал, решил, что нужно мне сделать.

Спойлер: решил обе задачи. С флапающими тестами всё сложно, описывать не буду, а вот про оффлайн и онлайн рассказать можно. В режиме фоновых задач запускали эксперименты, где пытались зафиксировать стейт данных. И вот уже всё фиксированное — но числа разные.

Ну бред, думаю я. А потом вспоминаю, что оффлайн замеряется на одном коде, а онлайн — на другом (специфика реализации). Код оффлайна читать было бессмысленно — я его читал 100500 раз и там ничего не менялось. А вот в онлайне нужно было поднапрячься.

И, к слову, баг описывает классический мем — вроде знаешь, что он есть, но как найти — ну вот фиг знает. После получаса пристального чтения кода нахожу примерно следующую конструкцию:

// some code
if (currentPrompt.size() == 0) {
currentPrompt = userData.content;
}
currentPrompt += userData.content;
// some code


Ну в общем, в ситуация смешная, забыли if. Хорошо, что куда-то наружу не ухеало. Ну и замечательно, что это была единственная проблема.

Но я так легко всё рассказываю. В реальности: погрузился детально во все процессы текущих тестирований, сильно больше стал понимать в инференсе для онлайна, узнал для себя несколько новых вещей. И заняли обе задачки примерно недельку неполного рабочего моего времени. Для себя вижу в том числе плюсы, что подсобрал некоторые инфраструктурные боли, которые смогу либо решить на своём уровне, либо странслировать выше (что, имхо, полезно).

Теперь я сплю спокойнее 😀. Такие дела.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥223👎2
Forwarded from БАШНЯ
СОЗВОН-ПОДКАСТ❗️

Новый онлайн-подкаст состоится уже 6 августа (среда) в 19:00 🔥

Наш гость - Антон Клочков, руководитель R&D команды в Яндексе 💸

Тема подкаста: «ML-инженерия и что из себя представляет профессия ML-инженера» 👨‍💻

О чем поговорим?
🟣Чем интересная профессия ML-инженера?
🟣Как эффективно расти в сфере ML-инженерии?
🟣Как вырасти из линейного сотрудника до руководителя команды?

Не пропусти! И не забудь позвать своих друзей и коллег 💖
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12💯6🏆5👎2
AdamW, это ты?
😁335👎2
По мотивам @boris_again
9👍6👎3
Intern-S1

В мультимодалках пополнение:
— 235B MoE LLM (Qwen3) + 6B Vis Encoder (InternViT);
— 5T мультимодальных токенов в обучении;
— Thinking и Non-Thinking Modes;
— По уровню такая же или чуть лучше текущих опенсорсов, как по мне, по идее хуже gemini 2.5 pro;
— Бенчмарков маловато, хотелось бы побольше общеупотребимых, будем ждать народного инференса;
— Важным выделяют то, что половина трейна — это научные данные.

Страничка на HF: https://huggingface.co/internlm/Intern-S1
Тех репорт: ждём 🙂
Потыкаться можно здесь: https://chat.intern-ai.org.cn/

Если кто-то развернёт у себя на маке, скиньте гайд, тож попробую 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👎21
Visual SKETCHPAD

Давайте в это прекрасное воскресенье не про менеджерское, а про техническое 😍.

Читал я, значит, очередную статью про мультимодальный ризонинг и натыкаюсь в ней на другую годовалой давности. Не знаю, по каким причинам я её пропустил тогда (а их могут быть тысячи), но идея очень прикольная.

Когда только вышли мультимодальные системы серии O от OpenAI, вау-эффектом было то, что в рассуждениях они часто кропали, зумили и всячески модифицировали картинки. И вау было не от того, что как-то система учитывает их в контексте (это как раз база), а откуда и как она эти картинки модифицирует.

И тут меня опытный чтец остановит и спросит: а чо всмысле система? Почему не модель? И будет прав, потому что никто, кроме самих сотрудников, не знает, чо там под капотом, поэтому мне легче рассуждать в терминах системы.


И вот статья Visual SKETCHPAD как раз отвечает на то, как это можно попробовать реализовать чисто инженерно, без всяких обучений. Давайте просто из модели сделаем агента, которому мы дадим определённый набор инструментов для работы с картинками, такие, как: нарисовать линию, сегментировать, нарисовать график, сделать кроп, зазумить область и т.д. И будем просить генерировать CoT с учётом того, что она может использовать эти тулы.

Результаты репортят ещё на тогдашней GPT4o, в целом, растёт на всём, где-то прям очень много (задачи на графы, детекции на high-res картинках), где-то не так много (математика, геометрия).

Очень забавный подход, интересно, как он работает спустя год. А может быть это он и работает под капотом в рассуждающих моделях. Не знаю 😊

P.S. Когда писал пост, наткнулся на обзор https://t.iss.one/gonzo_ML/2823. Почему я пропустил мне интереснее всё больше и больше 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👎2🔥2
Или зелёного A/B 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
25👎2
Простите, не могу не прислать 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
43👍8👎52😁1🤣1
Data Dojo в Питере!

Я стараюсь посещать местные тусовки, хотя бы те, которые организованы Яндексом, просто потому что я о них узнаю внутри. ML Party, Data Dojo и многие другие. В первую очередь потому что люблю пообщаться с ребятами из разных компаний, послушать разные байки, да и самому чего-нибудь порассказывать 😀.

В этот раз я не смогу быть (из-за командировки 😊), тем не менее, можете придти вы! Программа классная, будут выступать очень классные гости, таких не часто встретишь на конференциях:
— Коля Савушкин, руководитель команды рекомендашек, расскажет про тренды в его области;
— Лёша Колесов, руководитель всея NLP, расскажет про весь R&D — чего сделали прикольного и чего хотим сделать.

Ещё будет разбор ML-задачки 🧠. Если вам есть что рассказать — записывайтесь!

Ну и самое важное — нетворк. Кажется, его должно быть много!

Записаться можно на лендосе: записаться.

P.S. Я не в курсе, будет ли кисель на мероприятии, но если будет — набирайте в своё удовольствие 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🤣3👎2
https://github.com/huggingface/transformers/pull/39923/commits

Допустим
Будем верить, что оно и правда работает 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥4👎2
Оказывается, ещё один релиз вышел — https://www.anthropic.com/news/claude-opus-4-1

за мем спасибо @denissexy
24👎2
Forwarded from БАШНЯ
СОЗВОН-ПОДКАСТ ❗️

Новый онлайн-подкаст состоится уже сегодня в 19:00 🔥

Наш гость - Антон Клочков, руководитель R&D команды в Яндексе 💸

Тема подкаста: «ML-инженерия и что из себя представляет профессия ML-инженера»👨‍💻

Не пропусти! Пиши свои вопросы в комментарии под этим постом и не забудь позвать своих друзей и коллег 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥93👎21
Приходите сегодня на подскаст, задавайте вопросики в комменты к посту https://t.iss.one/bashnya_education/518 😍
Выберу самый интересный вопрос и чего-нибудь подарю тому человечку (менторская сессия, тг-премиум на полгода или чего-нибудь из нашего мерча) 🔼

В общем — Ж Д У
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🍾4❤‍🔥2👎2
Допустим 😀

Техрепорт GPT-5: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

GPT-5 is a unified system (не одна модель).
Please open Telegram to view this post
VIEW IN TELEGRAM
👀14😁5👎2🏆21
😂
Please open Telegram to view this post
VIEW IN TELEGRAM
75👎2
Надеюсь, за мной не придут 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
😁57326👍2👎2
SIMD

Я тут узнал (просто случайно), что в C++26 завезли data-parallel types и можно делать так:


void sinuses(std::span<float> data) {
using floatv = std::simd<float>;
auto it = data.begin();
for (; it <= data.end() - floatv::size(); it += floatv::size()) {
// Прочитает сразу floatv::size() чисел, допустим 8
floatv vec(it);

// Сразу для 8 чисел посчитает синус и запишет результат обратно в data
std::sin(vec).copy_to(it);
}
for (; it < data.end(); ++it) {
*it = std::sin(*it);
}
}

[source]

Выглядит как фантастика! Господа плюсовики, есть кто в канале, расскажите, как это работает, пробовали ли уже тыкаться в это? Звучит как очень вкусный сахар!
🔥11👎2🤣1
🤖 Делаем универсального мультимодального телеграм-бота на мастер-классе

Если вы вдруг понимаете не все слова в этом заголовке, то ничего страшного: как раз на событии и разберётесь. Обещаем, что интересно будет вне зависимости от уровня подготовки.

План на вечер 19 августа такой:

🔴 Обсуждаем тренды в AI
🔴 Генерируем код-шаблон в YandexGPT
🔴 Делаем иллюстрации и стикеры в Шедевруме
🔴 Интегрируем всю эту красоту в вашего нового телеграм-бота

💫 Готово! Можно пользоваться… и рассказывать всем, что вы умеете вайбкодить.

Вести мастер-класс будут Антон Клочков, который руководит нашей командой распознавания текста в VLM в Яндексе, и Даниил Трабун, ИИ-евангелист, блогер, креативный директор и к тому же экс-яндексоид.

🛎 Собираемся к 18:30 — чтобы все успели прийти и порадоваться небольшому фуршету. Сам мастер-класс начнётся в 19:00 и закончится в 21:00.

Зарегистрироваться можно здесь
📆 19 августа
🗺 Коворкинг Яндекса в ротонде Маяковки (Невский, 20)

💻 И главное — обязательно возьмите с собой ноутбук: без него сделать бота не получится!

Подписывайтесь:
💬 Коворкинг Яндекса в ротонде Маяковки
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7🙈4👎3👍1🤣1
Про канал

Когда я затевал свой канал 3 года назад, я даже не и мечтать не мог о том, что нас здесь станет так много. Спасибо, что всё это время вы меня читаете, поддерживаете, пишите комментарии и ставите реакции! 😍

Мой канал претерпел множество изменений 😊. Из технического-бэкендового он сначала превратился в MLный, а затем стал больше менеджерским. Знаю, что некоторых стало расстраивать уменьшение числа технических постов здесь, а кому-то наоборот заходят топики про личное и управленческое. Это происходит просто с течением моей жизни и сменой ролей, ведь блог больше про меня самого, мой опыт и находки здесь и сейчас.

В последнее время частота моих постов снизилась 🥺. И не потому, что у меня как-то времени уменьшилось на канал, вовсе нет. Я просто временно потерял интуицию, что интересно моей аудитории, чем бы я мог быть вам полезен. У меня есть десятки идей, о чём можно было бы написать, но каждый раз я думаю, что это будет не интересно. И как бы я не эксперементировал с форматами, пока что-то как-то не заходит. Я создавал этот канал не только для того, чтобы делиться какими-то новостями про себя, но быть полезным вам. ☺️

Я очень не хочу скатываться в формат новостей, для этого есть десятки-сотни других каналов, которые делают это и вы на них подписаны. Не хочу превращать канал во флуд, коих тоже приличное множество. Хочу его оставить самобытным, где мы с вами можем друг другу полезны.

Я бы хотел сделать новую рубрику — вопросы от подписчиков. Раз-два в неделю я буду выпускать посты, в котором буду отвечать на любой ваш вопрос в развёрнутом виде. Это может быть любой вопрос, но в каких-то рамках (не смогу ответить про NDA, похейтить какую-то компанию, дать реакцию на какое-то событие или рассказывать подробности личной жизни).

Вы можете присылать свои вопросы либо в сообщения канала, либо ко мне в личку — она всегда открыта для вас 🤯!

Между рубрикой я продолжу вести канал в его привычном режиме, делиться разными мыслями и событиями из жизни. Очень надеюсь на вашу поддержку и я буду счастлив, если рубрика вам зайдёт 😍!

P.S. ну и напишите в комментарии, что думаете про идею? может быть я не прав и она не нужна?
Please open Telegram to view this post
VIEW IN TELEGRAM
22🔥6👎22
окак 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
😁70👎2