Applied AI
252 subscribers
47 photos
2 videos
2 files
27 links
блог merkulov.ai, с постами о AI Agents, next-year trends и стартапах (иногда моих)

Я 23 y.o. hao.vc Founder, ex CTO @ VC fund, Ex AI Архитектор @ YandexGPT team, магистрант философского МГУ
Download Telegram
Channel name was changed to «AI Spaceships»
Улучшение поиска с помощью LLM в интернет-магазине

🔍 Цель: Повысить конверсию поиска, чтобы пользователи быстрее находили нужные товары и чаще их покупали. Применение GPT может увеличить конверсию в покупку на 1.1%.

Сценарий:
Пользователь вводит запрос, например, "хочу сладкого", но не получает подсказок. Мы исправим это с помощью GPT.

Архитектура:
1. Пользователь вводит запрос.
2. Запрос направляется в сервис поисковых подсказок.
3. Если подсказок нет или их меньше, чем \( k \), запрашиваем у LLM.
4. Отображаем подсказки.

Пример:
Запрос: "хочу сладкого"
Подсказки от YandexGPT 4 lite:
- шоколад
- конфеты
- печенье
- торты
- мармелад

Теперь пользователь видит релевантные подсказки! 🎉

Статья, код, live-демка

Внутри есть прототип на opensearch, streamlit & openai/yandex
🔥1
Как агентские подходы влияют на качество написания кода, visual-servey

Стоит обратить внимание на магнитуду уменьшения ошибки, которую дает традиционный скейлинг модели
И на магнитуду уменьшения ошибки, которую дает inference-скейлинг модели

Для многих потенциал инференс-скейлинга & агентских подходов был очевиден еще в 2023 (например, для Эндрю Ына и Ли Куна)
Сейчас для того, чтобы быть "в теме", приходится всё время читать десятки тг-каналов и других источников, неистого ресерчить информацию разными инструментами. Это занимает кучу времени, наполняет жизнь цифровым шумом, иногда выдергивает из флоу. Было бы очень удобно иметь свой собственный эйай, который бы помогал справиться с этой проблемой - брал новости с уже существующих новостных каналов и фильтровал/углублялся/пруфчекал их за меня. Хочу разработать сий эйай, буду учавствовать с ним на хаке ogon.ai, должно получится инетерсное..

По итогу должен появиться AI-powered "дворецкий", который тщательно отбирает новую информацию из ваших любимых и глобальных источников, сам проводит исследования и пруф-чекинг, бэтка планируется в виде тг бота или тг минаппа, про которых сейчас так хайпят микро-предприниматели. Записаться на клозед бэту
🔥4
Вдохновился последними постами e/acc, решил сформировать свой whishlist с предсказаниями на 2025:

(первые пункты привязаны к 5 levels of AI by OpenAI)
- хочу увидеть как openai/anthropic будет добивать тему с агентами. Кажется сейчас всё еще довольно много проблем, которые хоть и решаются архитектурными выкрутасами, но пока не ощущаются нативно решенными. К примеру, если я хочу дать своему агенту 100 инструментов, мне уже нужно выдумывать tool memory. Верю, что на смену этой и многим другим головным болям в Applied AI в следующие годы будут приходить готовые решения от llm-провайдеров
- первые шаги в сторону креативности и фантазирования; без этого не получится достичь шага автономного исследователя
- все начнут говорить про память. Это невероятно важный компонент любого b2c сервиса, которому сейчас уделяется недостаточно внимания. Сервис, который человек будет использовать годами, глубоко интегрируется в личность, будет привязывать пользователя и значительно улучшать UX. Long-term memory в текущей реализации в агентах не в счет, нужны новые подходы.
- агенты должны начать использовать людей. Например, экспертов как источник информации. Или агент, организующий в одном из своих шагов перевозку товара/еды через апи в FedEx/я.еде. Перед появлением 100% AI-powered организации должны появиться гибридные.
- асинхронных AI агентов (сделаю отдельный пост)

- экосистема для хайпующих Large Contept Models ("убийца о1", пост) на всех слоях: быстрый инференс, интерпретация: логи, аналитика, тюнинг, алайнмент сжатых представлений
- появление большого количества стартапов "X для AI агентов" (заменить X на facebook/uber/tinder/doordash). Амазон вертикальных агентов существуют уже больше года. Где фейсбук для агентов? (постараюсь сделать сам)
- официальные агенты компаний, с которыми можно взаимодействовать в чате для c и по апи для b: единые интерфейсы для всех входящих запросов клиентов, компаний, организаций и других агентов
- продолжение anthropic computer use, но для телефонов! гугл/аппле давно внедряют хардкод фичи вроде голосового управления "открой ютуб, сделай звук тише". Хочу сказать "тапай хомяка тысячу раз", - и чтобы тапал. Играй за меня в шарики, пока я еду в метро. Повтори мой последний заказ в ВкусВилле 👀

- 100% новостных каналов пропустили RL-tuning у openai, видево. Очень интересно, куда эта микрореволюция приведет коммунити
- вообще жду больше папир и промышленных решений агентов с самостоятельным sft/rlft, а не убогим добавлением информации текстом в long-term memory (кстати недавно в langGraph появилась RAG-имплементация long-term memory 🤡). Реклама статьи Ильи Зисмана по теме
- появление AutoSFT webUI инструмента для тюнинга ассистентов и агентов для тех, кто не может сам в сбор/анализ данных/обучение. Например, чтобы при обращении к llm я указывал свой uuid проекта, относил сервису фидбек пользователя, внутри происходили автоматические улучшения, и я смог бы посмотреть до/после

- OpenAI и другие провайдеры продолжат подминать под себя самых популярных вертикальных агентов.
- глубокое проникновение LLM-агентов в гуманитарные социальные институты - суды, elections, создание законов. книжка про тему
- выйдет первый в мире AI-native курс
👍2
Large Language Model Agents, Stanford MOOC

В августе я к сожалению не смог попасть в очень крутой курс по ии агентам от стенфорда. Сейчас все их лекции можно посмотреть на ютубе (!!!), также есть открытый дискорд. In Stanford we trust.

Сегодня они стартанули набор на advanced продолжение первого фундаментального курса, записаться можно тут в большой форме. Отправляем заявочки) Только не пишите, что вы из рф.

1 курс охватывает следующие фундаментальные темы:

- Размышления LLM: Исследование цепочки размышлений и их влияние на выводы моделей.
- История и обзор LLM-агентов: Обзор развития агентов на основе языковых моделей и их применения.
- Агентные AI-структуры: Модели взаимодействия и многомодальные помощники.
- Тенденции в генеративном AI: Ключевые компоненты для успешного создания приложений и агентов.
- Комплексные AI-системы: Оптимизация инструкций и демонстраций для многоступенчатых программ.
- Агенты для разработки ПО: Автоматизация процессов разработки с помощью AI.
- AI-агенты для рабочих процессов: Решение задач в области знаний с помощью агентов.
- Объединенные модели принятия решений: Синтез нейронных и символических подходов.
- Общая робототехника: Проект GR00T и его применение в робототехнике.
- Открытые источники и наука: Оценка возможностей и рисков языковых моделей.
- Измерение возможностей агентов: Политики ответственного масштабирования.
- Безопасные и надежные AI-агенты: Политики и подходы к обеспечению доверия и прозрачности AI.

Очень хороший набор для фундаментального вката в агентов. Думаю, в 2025 каждый может их освоить, найти работу от 60к$/год как entry-lvl / от 120к$/год с мл-опытом.
👍3❤‍🔥1🙈1
Для разогрева можно полистать слайды к исторической лекции. А это, кстати, лекторы курса. 🗿🗿🗿
🗿4
Ухожу из Яндекса на х5 денег в AI Agents 🥳🎉. Чего и всем желаю)
Крайне негативное впечатление сложилось о процессах в компании, как для движевого челика.

work/life - да.
строить будущее - нет.

Публично ставлю, что компания не успеет адаптироваться к изменениям, которые грядут из-за ai. Через 5 лет компания потеряет 90-99% маркеткапа, скриньте.

wow, it's literally me
видос попал в меня и всех моих знакомых на 100%
🍌3🔥1
Forwarded from KNADCORE (Max Kreslavsky)
This media is not supported in your browser
VIEW IN TELEGRAM
Собеседование в Яндекс
😁11👍1👎1🤡1
Media is too big
VIEW IN TELEGRAM
oxisai.com

- генерация 3д ассетов
- генерация мира
- генерация сцен
- анимации персонажей и сцен
🔥6
Comparison of Agent Communication Protocols

> 2026 will be the year of distributed multi-agent internet and cyber-economy development.
> For the last 2 weeks, I've been actively researching agent-to-agent communication protocols with the goal of launching/funding one.
> Everyone wants to create their own HTTPS rn xd.
> Here's a huge comparison of already existing protocols by changgaowei, pic by me:

Notes:
- MCP focuses on LLM tool integration
- ANP aims to create a decentralized agent network
- agents.json is an auxiliary standard for the web environment
- LMOS provides a full-stack platform
- AITP specializes in secure interactions and economic transactions
- Agora represents the direction of future adaptive communication

Also want to mention:
AIXP, mcp-agent !!, agent-protocol and The Almanac // fetch.ai, part of ASA
🔥12👍4
Поделал ресерч рыночка на позишнс, связанные c AI Agetns (dev, prompt-engineer, architect) на предмет популярности GenAI фреймворков. Сделал табличку с количеством вакансий по кейвордам. Цифры с indeed неадекватные, хз поч.

- langchain довольно неудобная в проде фигня, но в топе скорее всего из-за того, что большая часть компаний только стакают GenAI команды и пока не знают что писать в описании
- радует, что pydantic ai занимает первое-второе место, как самый приятный для прода фреймворк
- linkedin не находит некоторых фреймворков (langgraph, llamaindex), хз поч
- другие адекватные фреймворки вроде langgraph, llamaindex не так популярны в вакансиях
- мусорный crewai востребован в америке и worldwide 🤡 (тот же вывод, что и по langchain)
- очень низкие упоминания облачных genai фреймворков (vertex, sagemaker). По OpenAI Assistants смотреть не стал, туда бы всё подряд попало - но оно спросом пользуется.

Бонус инфа по ЗП:

Больше всего в этом плане интересовали рф и околоевропа, их поресерчил поглубже. Хз как студентам залетать в америку аутстаффом, нужно поресерчить.

Доступные зп по написанным цифрам, entry-lvl позиции:
RU 30k usd/year | EU 75k eur/year | US 110k usd/year

Для позиций с опытом:
RU 30-60k usd/year | EU 100-160k eur/year | US 180-280k usd/year

На hh встречал как и клоунов "6 лет опыта, pytorch, vllm, langgraph" на 2k/мес, так и с очевидно легкими нетехническими собесами на 3-6k
❤‍🔥4
Кто-то:
> 5 лет ВШЭ/МГУ, задроченные математика, алгоритмы, DL
> конференции/хакатоны и тд
> стажировочка Я, стажировочка Сбер
> зарплата меньше 200 000 рублей
на скрине вакансия в сбер, если шо

Тем временем буквально каждая вторая entry-lvl позиция НЕ В РФ (голый питончик, знать что такое токены, good verbal and written communication skills): (3 скрин)
😁6🕊1
Forwarded from e/acc
Один из самых частых вопросов про ИИ задают родители маленьких детей, школьники и студенты: чему учиться и как готовиться к будущей карьере в эпоху искусственного интеллекта и стремительных изменений в экономике?

Для маленьких детей и школьников сейчас сложно предсказать, каким будет мир через 10 или 20 лет. Тем не менее очевидно, что ключевыми навыками останутся социальные навыки, эмоциональный интеллект, способность понимать себя и других, а также психологическое здоровье. Эти навыки не устареют никогда.

Для студентов и молодых специалистов важно оказаться там, где происходят изменения. Уже сейчас понятно, что многие традиционные профессии и бизнес-модели будут скоро заменены автоматизацией. Например, бессмысленно ставить на рутинную и уже почти умершую работу копирайтера, переводчика или строить карьеру в области стремительно исчезающего ручного digital marketing, дропшипинга и даже B2B SaaS или маркетинговых/дизайнерских агентств, которые легко автоматизировать. Делайте то, чем занимаются самые умные люди, а не самые богатые.

Точно куда более актуальными станут навыки управления процессами и командами, где люди будут выступать скорее как менеджеры и координаторы. Вместо того чтобы просто писать код, вы будете управлять командами виртуальных агентов. Вместо съёмки фильма вы станете режиссёром, управляющим виртуальными ассистентами, которые воплощают ваши идеи. Со временем даже строительство изменится: строители станут прорабами, управляющими десятками или сотнями роботов, которые выполняют физическую работу по проектам.

Главным практическим навыков, кроме использования ИИ в автоматизации собственной работы (потому что это позволит вам выполнять и, следовательно, получать зарплату за работу десятерых) станет умение учиться. В эпоху изменений, умение адаптироваться к изменениям становится супер важно и создает непропорционально крутые перспективы на фоне большей части экономики, состоящей из закостенелых, инертных и пугливых. Что возвращает нас обратно к первой рекомендации: пониманию себя и психологическому взрослению, а так же гибкости мышления и умению отказаться от ненужных устаревших установок.
👍5🔥1
Хочу рассказать про один из своих первых стартапов (неудавшихся)

Весной 2023 года я пересматривал Призрак в доспехах 1995. Люди в фильме пользовались устройствами, которые заменяли/аугментировали их память. Я подумал, что было бы круто сделать такой же девайс уже сейчас с помощью RAG, чтобы получился функционал от "Ask AI about yesterday meeting" до "Ask AI about my previous year". Брал толстые биографии различных людей (Стив Джобс, Гомер Симпсон), дополняли их интервью с ними и записями диалогов. Работало крайне прилично.

Кусок из моего питча:
Цель
Приложение, которое бесконечно расширяет возможности человеческой памяти, создает реплику личности. Интересно?)

Описание
Сервис постоянно записывает аудио с вашего телефона. Все ваши диалоги и монологи записываются текстом, с метаданными о спикере, времени, эмоциях, местоположении. Далее эта информация превращается в эмбеддинги (численные представления данных), загружается в векторное хранилище - будущую долговременную память для агента gpt. Всё безопасно зашифровано, и может храниться локально.

В формате чата можно узнать в точности, какие аргументы вы приводили в защиту нового патча в доте 3 года назад вашему другу, узнать о чем вы говорили на прошлом звонке с командой (функционал otter.ai), или попросить агента проанализировать ваши философские изыскания про смысл жизни. В недалеком будущем, с развитием ASR и LLM, качество этих функций будет заоблачным, хотя уже сейчас работает на 9/10, с кучей недоработок.


Делали его в июне-августе 2023 года вместе с одногруппником. На дизайн кастомного девайса для производства в китае нужно от 10k$, поэтому решили начать с мобильного приложения. Сделал бэкенд, оптимизировал OpenAI Whisper в 72 раза (иначе себестоимость транскрибации была бы 140$/mo а не 2$)), соединили это всё с мобильным приложением. Работало, но столкнулись с проблемой, что подобный функционал почти никому сейчас не нужен для обычной жизни, и его невероятно сложно продать - даже продавая лично. Потом друг выгорел к IT на работе на тот момент, и мы забили на идею.

Куда дальше хотелось всё это развивать?

На самом деле транскрибация встреч, разговоров, мыслей вслух; создания саммари, mind map, туду-листы это всё интересно и является основным sell point для Plaud, но они не двигаются дальше в интересном направлении, которое являлось основной ядром моей идеи. При наличии такого огромного количества data о человеке, формируется довольно четкий цифровой отпечаток, который можно использовать для создания копии личности, как в Ghost in the shell.
- Можно придумать огромное количество функционала, связанного с аналитикой (психоанализ, болезни) и персонализацией (реклама, глубокое понимание предпочтений by AI).
- Развить экосистему плагинов для своей копии, вынести их в опенсурс или организовать как платформу для разработчиков.
- Также с таким огромным количеством сохраненных и "проактивных" данных можно было бы делать агентов с удивительным уровнем персонализации (например, для очень удобных покупок в интерент-магазинах, уровня "Купи мне подарок маме, который она просила год назад", "Забронируй мой любимый стол в любимом ресторане для встречи нашей обычной компании друзей")
🔥7👍2
Но как мне кажется, это всё крошки по сравнению с тем, что можно придумать. Еще в августе 23 мне хотелось придумывать под каждую реплику личности агента, который мог бы "пользоваться" персональными данными и быть интерфейсом во внешний мир:
(заметка из obsidian)
202308171630
Status: #idea
Tags: #projects #enterpreneurship

# Complementation of ghosts

Допустим, что N людей долго загружают себя в векторные облака.
Что из этого получается? На сервере есть много несвязанных между собой реплик личностей.

Что, если их связать? ...
Что, если связать облако А и Б?
Что, если объединить облака какой-то группы людей?
Что, если связать абсолютно все облака???

Что же будет, если так связать реплики двух людей? А если несколько реплик - сделать групповой чат? Интернет? А если все реплики в единую сеть? Можно придумать очень много функционала поверх этой сети. Но не знаю, нужно ли оно человечеству.

😊 А еще копия остается существовать даже после вашей смерти. 😊

28 июня 2023 года PLAUD AI выпустили свой первый продукт (https://www.plaud.ai/products/plaud-note-ai-voice-recorder) - credit-card aka девайс с функционалом 24/7 транскрибации. Я услышал о их стартапе только в январе 24 года и был рад, что кто-то смогу успешно выйти на рынок с подобным устройством. Но пока что они не работают в направлении подобного функционала, и судя по их roadmap, не особо планируют.

Кому писать претензию, что в 2025 году я всё еще не могу сказать "Алиса, закажи что-нибудь к чаю из обычного"?
👍6
Стартап на который у меня нет денег - upwork, где агенты нанимают людей - для выполнения рутинных, экспертных и задач в реальном мире

Оно энивей появится в году 2026 и будет генерить много, много комиссии, очень жду. Решил выложить сюда так как денег на него за декабрь-январь не собрал. Зато через год смогу тыкать пальцем "ыыы я первый придумол"

P.S. Если ваш питчдек не выглядит так же ахуенно (не нарисован пальцем в пеинте) - то вы не настроящий тренчер-билдер
5😁1