Всеволод Викулин | AI разбор

Channel created

19:49

Меня зовут Сева Викулин. Я 6 лет внедрял ML в прод, потом понял, что ML уже не модно. С 2022 года внедряю в прод строго только ИИ.

Сейчас я руковожу внедрением LLM в Поиск Яндекса, вот недавно команда зарелизила Поиск с Нейро. Это когда вы можете получить ответ LLM-кой на любом поисковом запросе, да еще чатиться с ней дальше. Это бесплатно, удобно - пользуйтесь.
До Яндекса я руководил NLP в Марусе, там мы с ребятами зарелизили много крутых умных колонок, некоторые из которых мурчат, когда их гладят (тут обошлось без ИИ, слава богу)

Здесь буду делиться своим важным мнением по поводу всего, что происходит сейчас в ИИ. Надо сказать, что сейчас идут безумные качели между "AGI будет через 2 года" и "ваше перемножение миллиардов матриц никогда не сможет написать симфонию". Я ненавижу полярные мнения и немного тех, кто их высказывает, так что буду для вас очень полезен в поиске истины.

Еще буду рассказывать, как делать ИИ хорошо и правильно. За мою карьеру у меня набралась пара успешных проектов, о которых не стыдно рассказать и целый шкаф идиотских решений, который я приоткрою только вам. Будет полезно как ML-инженерам (ИИ-инженерам), так и их друзьям менеджерам (ИИ-менеджерам, если хотите).

Еще я умный и смешной.

1🔥25❤7👍6😁2🏆2❤‍🔥1

1.52K viewsedited 21:56

Всеволод Викулин | AI разбор

Всеволод Викулин | AI разбор pinned «Меня зовут Сева Викулин. Я 6 лет внедрял ML в прод, потом понял, что ML уже не модно. С 2022 года внедряю в прод строго только ИИ. Сейчас я руковожу внедрением LLM в Поиск Яндекса, вот недавно команда зарелизила Поиск с Нейро. Это когда вы можете получить…»

21:57

Всеволод Викулин | AI разбор

Я обожаю читать посты, что ИИ скатился, что ИИ это пузырь имени OpenAI и NVIDIA и их топы скоро убегут с чемоданом денег, когда пузырь лопнет.

Обычно тут рассказывают, что в мозгу все работает не так, что мы с 2017 года застряли на одной архитектуре, мы только умеем подливать железо/данные/раунды инвестиций, у нас нет идей, а в мозгу то все не так работает... Ну вы поняли.

Сейчас такое мнение усиливается, ChatGPT в 2022 был разрыв всех шаблонов, про него говорили все. GPT4 в 2023 поднял планку еще выше. Все привыкли к такому темпу, ожидая, что каждые полгода мы будем видеть такой же скачок качества базовых моделей.

После GPT4 была мультимодальная GPT-4o, и умеющая рассуждать модель o1, которые такого фурора не произвели. Это все происходит на фоне инвестиций в сотни миллиардов долларов в инфраструктуру обучения моделей. ИИ УПЕРСЯ В СТЕНУ?

Нет. На самом деле, с 2023 модели охренеть как выросли. С помощью GPT4 был решен базовый набор несложных задач. Сейчас весь фокус идет на решение узкоспециализированных задач, которые не волнуют большинство людей. Сейчас в первую очередь это математика и программирование. Как раз по ним o1 показывает огромнейшний прирост, по сравнению с GPT4. Так как задачи узкие, это создает иллюзию, будто ии уперся в стену.

Задачи будут решаться одна за одной. Через пару лет вы не заметите, как перестали сами писать SQL запросы или формулы в Excel. А ИИ все будет продолжать упираться в стену.

1🔥11👾3❤‍🔥2😱2❤1💯1

1.37K viewsedited 17:10

Всеволод Викулин | AI разбор

Тема ради которой, я захотел завести ТГ канал.
Хочу рассказать, за счет чего происходит такой сумасшедший прогресс в ИИ.
Да, в него вливают миллиарды долларов, но на деньги интеллект не купишь. На деньги можно купить GPU, и, кажется, вот на GPU уже можно купить интеллект. К делу.

Весь прогресс можно объяснить всего двумя эмпирическими законами
1) Закон Мура, а точнее закон экспоненциального падения стоимости вычислений (он на картинке). Модель GPT2, которая была невероятным прорывом 5 лет назад, сейчас может воспроизвести любой студент с бюджетом в 30$. Через пару лет я тоже самое напишу, но уже для GPT3.

2) Закон масштабирования, он же scaling law, изначально предложенный в статье Henighan, Kaplan, et al, 2020. Он говорит, что функцию потерь можно достоверно уменьшать, наращивая размер модели/датасета. Это вам обойдется увеличением вычислительных мощностей, но они то дешевеют!

Исходя из этих 2 законов, что вам нужно делать сейчас.
1) Использовать архитектуры, которые могут аппроксимировать самые богатые зависимости за самые маленькие деньги. Которые могут легко обучаться градиентными методами. Сейчас это трансформеры, альтернативы пока нет.
2) Заваливать эти архитектуры железом и данными.
3) Получать удовольствие от качества ваших моделей.

Чего делать не надо:
Пытаться усидеть на старых стульях, где у вас старые архитектуры приправлены тысячью ручных правил. Такое я постоянно вижу, кстати, в индустрии чат ботов. Надо переезжать, и чем скорее, тем лучше.

Хочу сделать серию постов, которую пошло называл "дорога к AGI". Лучшего названия у меня для вас нет.

1👍9🔥4❤3❤‍🔥1👾1

1.02K views21:13

Всеволод Викулин | AI разбор

Как модели меняются со временем

Для построения любой модели мы обязаны ввести хоть какие-то предположения, которые сформулируют, как эта модель будет работать, некие исходные предположения.

Если вы очень хорошо понимаете доменную область, (не думаете, что понимаете, а реально понимаете) то вы лучше всех других решите задачу, да еще не потратив 10 миллионов долларов на GPU. Например, если вы точно знаете, что стоимость квартиры линейно убывает от расстояния до ближайшего метро, очень разумно эту линейную зависимость заложить в модель (если что, я не риэлтор, просто пример). Это во всех курсах по Машинному обучению объясняется под соусом No free lunch theorem. Попытаемся капнуть глубже стандартного курса.

Фокус в том, что часто вы не знаете, а думаете, что знаете. Да, иногда ваши предположения верны, но чаще всего нет. Верно ли что цена квартиры линейно падает от расстояния метро, если ближайшее метро в другом городе? Даже ньютоновская механика ломается при релятивистских скоростях, а у Ньютона была неплохая теория, в отличие от нас.

Мы не можем без этих предположений. Они упрощают модель и уменьшают вычислительные мощности, которые требуются для обучения, Но при этом они нас ограничивают: вводятся как постулаты, но на самом деле ломаются при небольшом изменении данных.

Что в итоге делать? Очень простой рецепт: делать столько исходных предположений, насколько у вас хватит железа обучить модель. Чем больше мощностей у вас появляется, тем меньше предположений вам нужно. Это показано на рисунке выше: самая “структурированная” (то есть с большим числом предположений) модель обыгрывает менее структурированные. Но потом, когда подливаем железа, показывает всю мощь искусственного интеллекта.

Это более понятно рассказывает рисерчер из OpenAI, энджой
https://www.youtube.com/watch?v=orDKvo8h71o

1👍5❤2❤‍🔥2🔥1👾1

879 viewsedited 20:28

Всеволод Викулин | AI разбор

Почему нас неправильно учили Машинному обучению

Помните эту картинку? Нарисуем всю нашу обучающую выборку на осях Y (то что мы предсказываем) и X (входные переменные) фиолетовыми точками. Дальше лектор поворачивается и спрашивает: какую же модель нам использовать? Лес рук, кто-то говорит, что эта лучше, потому что вон другая слишком сложная, а та слишком простая... Преподаватель довольно переключает слайд. Проходим тему "Переобучение".

Никогда в жизни мне не пригодился этот слайд. Никто: ни ты, ни я, ни преподаватель, ни блин Джеффри Хинтон не знают, какую модель использовать. Никто не знает, что в твоей задаче: квадрат-куб/синус-косинус/тангенс-котангенс или хрен знает что еще. Вы это не нарисуете, не прочитаете в вашем любимом учебнике, не спросите у родного лектора.

Зато вот что мы знаем: данные + вычислительные мощности + эффективый код обучения + универсальная архитектура творят чудеса.

Вот, что делать надо на самом деле. По шагам, записывайте
1) Вбиваете в поисковик название вашей задачи
2) Находите сравние моделей, берете самую лучшую.
3) Находите ее реализацию, допиливаете напильником под ваш кластер.
4) Смотрите, сколько судьба дала вам GPU. Загружаете все GPU на максимум.
5) Находите столько данных, чтобы вы успели обучить модель до вашего релиза.
6) К дате релиза достаете модель, считаете метрики - вы восхитительны.

И ничего рисовать не надо было.

1👍11😁3❤‍🔥2🔥1🤔1🤡1🍓1🤝1

837 views06:47

Всеволод Викулин | AI разбор

2025 год - год, когда ИИ начнет зарабатывать деньги

Сегодня читал про это лекцию в ВШЭ. Обсуждали, что экономика в ИИ нездоровая: деньги гребет Nvidia, а те кто делают на этих GPU продукты все убыточные. Так долго продолжаться не может, инвесторы спросят. Кажется меня услышали в OpenAi :)

Цена на o1-pro 200 долларов в месяц. Думаю, желающих будет не очень много, особо денег не заработают, но тренд понятный. Хочешь себе мощнейший ИИ - плати бабки.

Думаю дальше будет подписка для компаний gpt-galera за 10000$. Ждём, верим.

https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/

TechCrunch

OpenAI confirms new $200 monthly subscription, ChatGPT Pro, which includes its o1 reasoning model | TechCrunch

OpenAI has launched a new subscription plan for ChatGPT, its AI-powered chatbot platform — and it's very expensive.

1👍9❤‍🔥1🔥1😱1👀1🫡1👾1

895 viewsedited 18:57

Всеволод Викулин | AI разбор

Как к нам незаметно крадется AGI

Искусственный интеллект бывает 2 видов:

1) Слабый ИИ
Он способен решать только заранее фиксированный набор задач - на что научили, то и получили.
Под этот класс попадают все, что вы видели до LLM: рекомендательные системы, чат боты в колл центрах, системы видеоаналитики, шахматные программы и тд.

Важно знать: слабый ИИ уже во многих задачах лучше человека. Приложение в вашем телефоне обыграет чемпиона мира по шахматам. Шахматисты раньше переживали из-за этого, а теперь используют ИИ для тренировок. Вот и вы не переживайте :)

Слабый ИИ очень сложно масштабировать. Для каждой задачи нужно учить отдельную модель. Для этого нужна команда дорогих инженеров. В итоге слабый ИИ проник только в крупные компании на самые денежные задачи: поиск, реклама, рек системы и тд. У многих компаний куча задач для оптимизации, но нет денег на команду ИИ-инженеров.
Тут то и приходит на помощь…

2) Сильный ИИ. Он же Artificial General Intelligence (AGI).
Способен решать любую интеллектуальную задачу, которую решает человек. Любой сможет решать свои задачи без выплаты 300к/сек инженерам. Мы его не достигли, но уже видим его росток: LLM.

Прозорливые люди (не я) увидели его в 2019 году, когда вышла GPT2. Она делала краткий пересказ текста, если ей на вход добавить одно слово: «TLDR». Она не училась специально делать переводы, она поняла, что от нее хотят сразу же, без дообучения.
Тут все уже должны были понять, чем это пахнет, но ждали до 2022 года и ChatGPT. Это, конечно, все еще не AGI: ChatGPT решает пока узкий набор задач, но потребность в создании своих моделей падает с каждым днем. Многое можно реализовать на платформе LLM.

К чему все идет?
Компании будут тратить бешеные деньги на свои базовые модели. LLM будут больше, умнее, дешевле. Смогут решать из коробки больше разных задач. Потребители будут все чаще и чаще понимать, что можно взять из коробки и оно сразу же заработает. Так незаметно к нам подкрадется AGI. Шаг за шагом.

1👍15❤‍🔥2🔥2🤔2👀2

905 viewsedited 16:50

Всеволод Викулин | AI разбор

Крупному бизнесу не нужны огромные модели

Из прошлого поста мы поняли, что LLM дает доступ для тех, у кого нет 300к/сек на команду инженеров. А что с теми, у кого они есть?

Databricks сделал отчет по состоянии ИИ https://www.databricks.com/discover/state-of-data-ai
Советую прочитать, там много интересного, как растет запрос на внедрении ИИ в компаниях.
Деталь, которую хочу подчеркнуть: 77% компаний используют небольшие опенсорс модели. Небольшие это меньше 13 миллиардов параметров.

Крупному бизнесу не нужен AGI. Ему не нужно решать сразу все задачи мира. Ему нужно оптимизировать его чертов колл центр, который жрет миллиарды в год. Для таких задач прекрасно подходит парадигма: берём опенсорс модель, дообучаем на данных колл центра, вынимаем деньги.

Разница в стоимости работы большой LLM и маленькой может отличаться в 30 раз. Если вы возьмете 400 миллиардную модель, добавите туда какую-нибудь сложную агентность, то может оказаться, что лучше бы не оптимизировали ничего :)

Что будет дальше?
На небольших LLM можно решать узкие задачи. Бизнес сможет «сорвать низко висящие колл центры», получить возврат инвестиций, убедиться что AI работает. Для задач, которые смогут сильнее повлиять бизнес процессы, нужны модели побольше. Но тут нам поможет закон Мура - вычисления дешевеют. Так и будем бежать: бизнес решает задачу попроще, вычисления дешевеют, бизнес решает задачу посложнее, вычисления дешевеют...

3👍9🔥5❤3❤‍🔥2

983 views06:38

Всеволод Викулин | AI разбор

Prompt driven development

Как правильно проверять, будут покупать продукт или нет? Попробовать его кому-то продать, придумав, как будто он у вас есть.

В B2C вы делаете простой лендос, закупаете трафик в Директе, считаете CTR в рекламу и в кнопку заказа. Ничего еще не сделали, но гипотезу протестировали. Для B2B почти тоже самое: надеваете костюм, снимаете трубку, назначаете встречу и вперед. Если вдруг получилось, аккуратно сливаетесь, что будет через полгода.
В ML надо делать точно также.

Как делают сейчас:
- закупают кучу железа
- нанимают 5 инженеров за 300к/сек
- выдают оторванное от реальности тз
- инженеры ворчат, что нет данных, им еще разметку дорогую собирают
- в итоге через год офигенный продукт, который правда никому нафиг не нужен, но все вынуждены притворяться, потому что жалко.

Как делать надо:
- придумали идею
- напромптили ее реализацию без ML вообще
- посмотрели, провели UX, прикинули метрики, поняли надо оно или закапываем
- вот если надо, тогда идем к инженерам за 300к/сек

Сэкономил вам бесплатно кучу денег и нервов, пользуйтесь и делитесь с друзьями.

1👍17🔥10❤‍🔥5🐳1🦄1

1.24K viewsedited 18:18

Всеволод Викулин | AI разбор

CEO Microsoft AI прогнозирует AGI максимум через 10 лет

Прочитал интервью генерального директора Microsoft AI Мустафы Сулеймана. Поражает сочетание футуризма и здравого смысла. Это подкупает и хочется верить в его прогнозы. Основные мысли из интервью:

- AGI нас ждет через 2-10 лет. Для этого потребуется 1-5 релизов видеокарт следующих поколений. После этого надо быть готовым, что огромное число работы будет делаться с помощью ИИ.
Вы же готовитесь, правда?)
- Партнерство OpenAi и Microsoft самое успешное партнерство компаний за всю историю. Microsoft инвестирует деньги и дает железо, OpenAi дает Microsoft технологию. Есть некоторое напряжение, что OpenAI их кинет, когда сделает AGI, но а кто бы на их месте не переживал?)
- Текущий поиск полностью сломан, люди просто привыкли к ужасному опыту использования. Мы вынуждены ломать голову над запросам, ходить по этим ужасным синим ссылкам, переформулировать запрос, чтобы нас поняли. LLM здесь все поменяет (Кстати, пользуйтесь Нейро, он уже поменял)
- ИИ полностью поменяет интерфейс взаимодействия с компьютером. Мустафа очень верит в голосовые интерфейсы. Вы будете просто разговаривать с компьютером, а после этого ИИ будет творить магию.
Я тут бы поспорил, меня бесит говорить с лампочкой, но каждому свое.
- Каждый браузер, поисковая система, приложение, бренд или блогер будут представлены в виде агенте с голосовым интерфейсом
- К этим агентам будут подключаться ваши персональные агенты, они будут решать всякие вопросики друг с другом, а вы будете отдыхать. Кто будет при этом смотреть рекламу решительно непонятно, но что-нибудь придумаем.
- Microsoft делает ставку на синтетические данные - это данные, сгенерированные одной моделью для обучения других моделей. Это должно компенсировать текущую нехватку данных в интернете. Кстати, на синтетических данных обучена Phi-4, которая рвет всех в классе маленьких моделей

Само интервью можно почитать тут: https://www.theverge.com/24314821/microsoft-ai-ceo-mustafa-suleyman-google-deepmind-openai-inflection-agi-decoder-podcast

The Verge

Microsoft AI CEO Mustafa Suleyman on what the industry is getting wrong about AGI

The head of Microsoft’s AI division on competing with Google and how to define superintelligence.

1👍9🔥4❤1❤‍🔥1🤔1🐳1👾1

1.06K viewsedited 09:43

Всеволод Викулин | AI разбор

Самое важное знание человечества по мнению Сэма Альтмана

У закона нет конкретного имени или формулировки, его сотни раз замечали и в покере, и в шахматах, и вот теперь в LLM.
Самая известная работа, в которой был описан этот закон для обучения трансформеров, определила развитие ИИ. Обычно такие законы называют законы масштабирования или scaling laws
Закон говорит, что ошибка модели зависит от трех величин: C - сколько вычислений вы использовали для обучения, D - размер датасета, N - сколько параметров в модели.

Теперь самое важное: эта зависимость офигеть какая точная (смотрите первую картинку) Посмотрите, как хорошо все точки кладутся на одну ровную линию. Я таких ровных прямых не видел, когда делал лабораторные по физике (возможно, конечно, дело во мне). Наклон этой линии определяет, как модель хороша при масштабировании - чем выше наклон, тем проще растить качество.

Все архитектуры можно и нужно масштабировать. Неважно, у вас сверточная сеть, рекуррентная LSTM-сеть или трансформер. Но все они масштабируются по разному. Сравните на 2 картинке наклон трансформеров и LSTM. Так как вычисления дешевеют, нужно брать ту архитектуру, которая масштабируется максимально хорошо.

C ростом параметров/данных/GPU растут все возможные метрики на различных задачах: перевод становится точнее, ответы на вопросы корректнее, задачи по математике начинают решаться. Даже текст, который генерирует модель, все сложнее и сложнее отличить от текста, написанного человеком.

Про этот закон сам Альтман сказал следующее:

Cамое важное знание, обнаруженное в моей жизни, заключалось в том, что масштабирование моделей ИИ приводит к невероятным и предсказуемым улучшениям интеллекта. У меня был странный опыт, когда я рассказывал об этом другим людям, пытаясь уговорить других людей дать нам деньги на это.

Теперь вы понимаете, как Альтман планировал добежать до AGI: взять самую эффективную архитектуру в мире (трансформер), собрать все данные в мире (интернет) и собрать все венчурные деньги мира.

Но кое-что пошло не так. У Альтмана кончились ~~деньги~~ данные. Об этом я расскажу уже в следующих постах.

1👍13⚡5❤5🔥2🤔1🐳1

1.04K views06:19

About

Blog

Apps

Platform