[31/100] Витя Тарнавский
6.55K subscribers
158 photos
27 videos
2 files
198 links
Head of AI в T-Bank
Канал про будущее продуктов в AI

Нет, я не скажу, что значит счетчик в названии

Рекламу не даю

@the_real_jkee
Download Telegram
Перевел для вас потрясающую пасту с x про внедрение копилотов

В прошлом квартале я выкатил Microsoft Copilot на 4 000 сотрудников.

$30 за место в месяц.

$1,4 млн в год.

Я назвал это «цифровой трансформацией».

Совет директоров обожает такие слова.

Они утвердили всё за одиннадцать минут.

Никто не спросил, что именно это будет делать.

Включая меня.

Я всем сказал, что это «увеличит продуктивность в 10 раз».

Это не настоящее число.

Но звучит как настоящее.

HR спросили, как мы будем измерять эти 10x.

Я сказал, что «подключим аналитические дашборды».

Они перестали спрашивать.

Через три месяца я заглянул в отчёты по использованию.

Copilot открыли 47 человек.

12 пользовались больше одного раза.

Один из них — я.

Я использовал его, чтобы пересказать письмо, которое мог прочитать за 30 секунд.

Это заняло 45 секунд.

Плюс время на исправление галлюцинаций.

Но я назвал это «успешным пилотом».

Успех — это когда пилот заметно не провалился.

CFO спросил про ROI.

Я показал ему график.

График рос вверх и вправо.

Он измерял «AI enablement».

Я придумал эту метрику на месте.

Он одобрительно кивнул.

Теперь мы «AI-enabled».

Я не знаю, что это значит.

Но это есть в нашем инвесторском деке.

Сеньор-разработчик спросил, почему мы не взяли Claude или ChatGPT.

Я сказал, что нам нужна «enterprise-grade security».

Он спросил, что это значит.

Я сказал: «комплаенс».

Он спросил: какой именно комплаенс.

Я сказал: «весь».

Он посмотрел скептически.

Я поставил ему «разговор про карьерное развитие».

Он перестал задавать вопросы.

Microsoft прислали команду для кейс-стади.

Они хотели сделать из нас историю успеха.

Я сказал, что мы «сэкономили 40 000 часов».

Я посчитал это, умножив число сотрудников на число, которое придумал.

Они не проверяли.

Они никогда не проверяют.

Теперь мы на сайте Microsoft.

«Глобальная корпорация получила 40 000 часов прироста продуктивности с Copilot».

CEO запостил это в LinkedIn.

Собрал 3 000 лайков.

Он ни разу не пользовался Copilot.

Никто из руководителей не пользовался.

У нас есть исключение.

«Стратегический фокус требует минимальных цифровых отвлечений».

Эту политику написал я.

Лицензии продлеваются в следующем месяце.

Я запрашиваю расширение.

Ещё 5 000 мест.

Мы не использовали первые 4 000.

Но в этот раз мы «продавим адопшен».

Адопшен — это обязательное обучение.

Обучение — это 45-минутный вебинар, который никто не смотрит.

Но прохождение будет трекаться.

Прохождение — это метрика.

Метрики живут в дашбордах.

Дашборды идут в презентации для совета директоров.

Презентации для совета директоров приносят мне повышение.

К Q3 я буду SVP.

Я всё ещё не знаю, что именно делает Copilot.

Но я знаю, зачем он нужен.

Он нужен, чтобы показать, что мы «инвестируем в AI».

Инвестиции — это траты.

Траты — это приверженность.

Приверженность — значит, мы серьёзно относимся к будущему.

Будущее — это то, что я скажу, что оно такое.

Главное, чтобы график шёл вверх и вправо.
502🔥104🤡49169
[31/100] Витя Тарнавский
T-pro 2.0 – с гибридным ризонингом 🥳 Лучшая модель в своём весе среди всех открытых моделей по широкому ряду русскоязычных бенчмарков. В два раза более быстрая и дешевая чем аналоги по качеству. Модель с рассуждениями, создана для построения сложных систем…
Выложили пэйпер про T-pro 2.0

До-тренировка опенсорса на другой язык дает лучше результат на этом языке и значительно эффективней в инференсе за счет локального токенизатора и оптимизированного спекулятивного декодера.

Все расписали в репорте: архитектура, датамикс, подход к обучению, токенизации и прочее.

Если вы захотите повторить наш опыт, можете пользоваться рецептом.

Поставьте нам лайкосов на Hugging Face 🤗

HF | arXiv
1🔥572410🤡6
🎄 T-Pro 2.1 и T-Lite 2.1

Дарим вам на новый год апдейт наших открытых моделей.

В реальных системах задачи отличаются от решения текстовых задач. Мы строим наши модели как хорошие инженерные кубики для реальных систем.

Мы значимо улучшили качество на двух задачах: Instruction Following и Tool Calling. Теперь модели стабильней себя ведут на сложных инструкциях вроде чёткого формата ответа и при вызове тулов. Последнее особенно важно для построение агентских систем.

Пользуйтесь!
И почитайте оч крутой репорт о проделанной работе на Хабре

Hugging Face | Хабр
🔥5718123🤡2
Знаете, как моя дочь называет DeepSeek?

Глубокая Болезнь
313947🤡1616🔥10
Ребята, спасибо огромное что читаете канал. Вы - супер 🤖
Я на каникулы. Всех с наступающим!
Please open Telegram to view this post
VIEW IN TELEGRAM
212857🔥34
Channel name was changed to «[31/100] Витя Тарнавский»
Выращиваем код в огороде

Всех с прошедшими 🎉 Открываю год статьёй от Cursor про построение долго работающих автономных кодинг агентов.

Ребятам удалось создать систему из сотен параллельно работающих агентов, которая может работать недели (!) над одним проектом и не разваливаться.

Одна из задач в статье – построить с нуля браузер. За неделю система собрала кривовато работающий браузер, что невероятный успех. Браузер традиционно считается одной из самых сложных задач в разработке. Как будто ещё годик и можно будет создать браузер в домашних условиях.

Считаю что будущее разработки за такими автономными долго работающими системами. Код будет выращиваться как в огороде. Разработчик будущего – проектировщик огорода и специалист в выборе удобрений, семян и теплиц.

Всем Копатыч 🌟

https://cursor.com/blog/scaling-agents
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥743813🤡2🤔1
В продолжение темы автономных систем решающих сложные задачи.

Хороший подход для измерения вопроса предлагает бенчмарк METR

Ребята взяли задачи для которых известно сколько времени тратит на них профессионал. И дальше замеряют какой длины задачи могут стабильно решать AI-системы. Задачи в-основном про разработку и ML.

Так вот, длительность стабильно решаемых задач удваивается в среднем каждые 7 месяцев. И это довольно старый тренд, ещё с 2020 года.

В новостях про этот бенчмарк часто пишут что "Claude Opus 4.5 пробил уже 4 часа", но это результат с вероятностью 50%. Это так себе инженер 🤡 Если взять 80% успеха, то Opus 4.5 пробил только 27 минут. И вот это похоже на честный текущий максимум: задачи человеческой сложностью в полчаса модели решают достаточно надежно сами.

Однако, тренд это не отменяет. Если тренд продолжится, через 3-5 лет задачи уровня написания браузера будут решаться автономно. Так же как и задачи уровня "построить маркетплейс", "создать банковское приложение", you name it.

Trust the trendline

Почитать можно тут
🔥19127🤡2
Наконец-то дошли руки в выходной всерьез попробовать Claude Code. И это чистый developer joy, давно так не кайфовал.

Куча агентов в разных окнах делают твои задачки. Полный контроль над происходящим. Потрясающе и с большой любовью сделанный продукт 🌟

Набросал личного бота с тудушками и календарями на smolagents, давно хотел попробовать. Прикрутил CodeAgent тул, очень нравится концепт – это тул, который на запрос генерит python-код и потом его исполняет. Гибко, умно, небезопасно 😅

Естественно, я за пару часов сжег все свои кредиты и быстренько перешел на подписку за $100/mo 🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
44🤡2812🥱1
ClickHouse поднял $400M и купил Langfuse

Я надеюсь, все знают что такое ClickHouse. Это самая быстрая аналитическая база данных.

ClickHouse – важная часть моей личной истории. Зарождался он буквально рядом со мной на соседних креслах в Яндексе, внутри Яндекс.Метрики. Название идет от clickstream – сленговое название для данных веб-аналитики. Домик кликов 🏠

Большую часть кода тогда написал гениальный Лёша Миловидов. Лёша сейчас CTO проекта и до сих пор является top-1 контрибьютором.

Я был первым реальным пользователем ClickHouse – писал API запросов для Метрики, помогал составлять язык запросов, помогал правильно хранить и складывать данные. Наверное, можно сказать, что долгое время я был продактом и ключевым пользователем.

Когда мы запускали новую Метрику на ClickHouse, я уже Метрикой руководил. Так появилась Яндекс.Метрика с текущими фильтрами и сегментами. Затем уже ClickHouse пополз по Яндексу, и ещё позже – в опенсорс.

Первое видео на YouTube про Clickhouse - это я прыгаю на сцене Highload++ и объясняю что это за зверь в 2016 году. Позже мы гоняли на пару с Лёшей Миловидовым в калифорнию и показывали её во всякие большие компании.

Сейчас это сильная самостоятельная европейская компания с гигантской оценкой в 15 миллардов долларов и HQ в Амстердаме. Редкая история, где гениальная инженерия привела к большому успеху.

Очень рад за ребят и стараюсь заходить к ним в офис каждый раз когда там бываю. ClickHouse GO 🚀🚀🚀
1🔥17353
ClickHouse, Langfuse и LLM-трейсы

Теперь немного про покупку Langfuse.

Langfuse – observability-платформа для LLM систем поверх ClickHouse. На простом языке – штука для хранения логов и отслеживания метрик в AI-мире. Так зачем их покупать?

ClickHouse долгое время был просто "скоростной базой данных для любых логов". Это конечно круто, но бизнесово не так перспективно и не использует текущую AI-волну.

Сегодня ClickHouse стремится стать логирующей, аналитической, трейсирующей платформой для нового AI мира. Это точно нужный кубик – систем становится больше, их логов становится больше, задачи там специфические из-за недетерминированности систем.

И в отличие от всяких рискованных Anthropic, Perplexity и Lovable, эти кирки и лопаты нужны всем.

Про Oracle слышали? Top-20 по капитализации в мире. Так вот, ClickHouse - это такой новый Oracle в AI-мире.
🔥41🤡31🤔1
Реклама ClickHouse в метро в Сингапуре
79🔥3021