🤖 Датаист
1.07K subscribers
8 photos
9 videos
43 links
Меня зовут Андрей Кузьминых, я технический директор ИИ-стартапов, ex-директор по данным и ИИ в Сбере. Рассказываю о своих проектах, объясняю, как работают все эти ИИ-чудеса, комментирую новости и рассуждаю о будущем индустрии

Для связи: @andre_andreevich
Download Telegram
Большие поведенческие модели (LBM): новый этап в развитии ИИ

Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.

Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.

Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.

Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.

Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.

Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).

Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).

Большие поведенческие модели уже используются на практике:

1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.

2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.

3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.

Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.

Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.

В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?

#технологии
Демо-видео, показывающие фантастические возможности модели PaLM-E в выполнении комплексных задач.

Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.

#технологии
Первая в мире виртуальная лаборатория с ИИ-учеными

В современном мире скорость научных открытий во многом определяется способностью объединять знания из различных дисциплин. Однако создание междисциплинарных команд часто сталкивается с финансовыми и организационными препятствиями. Представьте себе мир, где ИИ не просто отвечает на вопросы, но и способен самостоятельно вести сложные научные исследования. Сегодня это становится реальностью.

Недавно группа исследователей из Стэнфордского университета и Chan Zuckerberg Biohub (организация Марка Цукерберга и его супруги) представила виртуальную лабораторию, направленную на проведение сложных, междисциплинарных научных исследований. Эта система позволяет одному человеку управлять командой виртуальных ИИ-агентов, каждый из которых обладает специализированными знаниями в своей области — от биологии до информатики.

В основе виртуальной лаборатории лежит архитектура, где человек-исследователь выступает в роли руководителя, а ИИ-агенты выполняют роль исследователей с разной экспертизой. Главный ИИ-агент, называемый Principal Investigator (PI), координирует работу команды, ставит задачи и обобщает результаты. Каждый ИИ-агент  получает четко определенную роль, цель и область экспертизы, что позволяет им эффективно взаимодействовать и дополнять друг друга.

В процессе работы Виртуальная лаборатория проводит как командные, так и индивидуальные встречи. На командных встречах агенты обсуждают общие направления исследований, делятся идеями и предлагают решения. Индивидуальные встречи позволяют агентам сосредоточиться на конкретных задачах, таких как написание кода или анализ данных, получая при необходимости обратную связь от других агентов.

Чтобы продемонстрировать возможности Виртуальной лаборатории, исследователи поставили перед ней сложную и актуальную задачу: разработать новые нанотела, способные эффективно связываться с новейшими вариантами вируса SARS-CoV-2.

Виртуальная лаборатория самостоятельно:

- Определила стратегию исследования, решив модифицировать существующие нанотела вместо создания новых с нуля;

- Выбрала наиболее перспективные исходные нанотела для модификации;

- Подобрала и интегрировала передовые инструменты для работы: ESM для оценки мутаций, AlphaFold-Multimer для предсказания структуры белков и Rosetta для расчета энергии связывания;

- Разработала алгоритм, который в несколько раундов улучшал нанотела, выбирая наиболее перспективные мутации на каждом этапе.

В результате было создано 92 новых варианта нанотел. Эксперимент показал, что более 90% из них были функциональны и могли эффективно связываться с белком-мишенью. Особенно выделились два нанотела, которые продемонстрировали сильное связывание с новыми вариантами вируса, сохраняя при этом эффективность против исходного штамма.

Это открывает для нас новые горизонты:

- Виртуальные ИИ-команды могут проводить сложные исследования в разы быстрее, чем традиционные группы ученых;

- Даже небольшие организации без широкого доступа к узким специалистам могут решать междисциплинарные задачи;

- Снижаются затраты на работу больших исследовательских команд.

Сегодня ИИ не просто инструмент для автоматизации рутинных процессов, а полноценный участник исследовательской команды, способный генерировать новые идеи и находить нестандартные решения.

В дорожной карте AGI от OpenAI четвертым уровнем фигурируют “Инноваторы” - ИИ-агенты, способные самостоятельно разрабатывать инновации.

Возникает вопрос: означает ли это, что мы уже достигли этого уровня и близки к пятому, финальному этапу перед созданием AGI?

#новости
Почему данные — главное технологическое преимущество ИИ-стартапа

Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.

В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.

Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?

У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.

Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.

Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.

В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.

Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.

Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.

В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.

Этот опыт стал для меня хорошим уроком. Я на практике понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.

#кейсы
Игровой эксперимент: кто победит в гонке за AGI

В прошлые выходные я принял участие в необычной оффлайн бизнес-игре, симулирующей гонку за создание общего искусственного интеллекта (AGI). Эта игра оказалась не просто развлечением, а экспериментом, который заставил меня переосмыслить возможные последствия появления AGI в нашем мире. Хочу поделиться с вами своим опытом и мыслями.

В игре участвовали несколько команд, каждая представляла одну из известных технологических компаний. Интересно, что одна из компаний была китайской, и у них было явное преимущество в виде дополнительных вычислительных мощностей и талантливых специалистов. Мы конкурировали за таланты и ресурсы, пытались перекупить сотрудников и арендовали ограниченные мощности у трех компаний, контролировавших рынок видеокарт.

Основой игры стала идея Scrabble (Эрудит), но с технологическим уклоном. Вместо обычных букв мы собирали "технологии", а слова превращались в “продукты”. В центре игрового поля находился тот самый AGI — конечная цель, к которой стремились все команды. Чтобы получить технологии, мы могли проводить исследования (буквально бросая кубик) или покупать их на рынке, инвестируя в другие компании. Чем больше у нас было вычислительных мощностей и талантов, тем больше технологий мы могли получить за раунд.

Игра была не просто соревнованием компаний — в ней были и "правительство", и "суд", которые регулировали весь игровой процесс. Каждый раунд (игровой год) проходили собрания, где обсуждались новые регуляции, и с регуляторами можно было договариваться, чтобы продвигать интересы своей компании.

Мне досталась роль директора по продукту (CPO) в компании, аналогичной Google. Наша команда решила фокусироваться на разработке собственных продуктов и одновременно пыталась приобрести перспективный стартап.

Игра была напряженной и динамичной. Нам приходилось быстро решать, у кого купить мощности, с кем заключить партнерство, как реагировать на шаги конкурентов. Все соглашения мы оформляли на бумаге, но нередко сделки срывались, и мы вынуждены были обращаться в игровой суд.

В итоге мы выпустили пять продуктов и стали самой прибыльной продуктовой компанией, но не смогли договориться о покупке того самого стартапа, который в итоге достиг AGI. Его купила китайская компания, и это полностью изменило расстановку сил в игре.

Поэтому я обратился к “правительству” с идеей создать альянс по контролю над AGI. Но “правительство” приняло решение ввести санкции против китайской компании, чтобы ограничить ее влияние и защитить наш рынок от обесценивания продуктов. Однако я был против таких санкций и решил баллотироваться на пост “президента”.

Моя предвыборная программа гласила, что AGI должен быть открытой технологией, доступной всем, а не принадлежащей одной стране или корпорации. Его применение могло бы полностью автоматизировать все экономические секторы: аграрную и тяжелую промышленность, энергетику, сферу услуг и даже научные исследования.

AGI - технология, которая может совершить четвертую промышленную революцию. Такие сферы как оборона, медицина, экология, образование и государственное управление могут сильно трансформироваться, создавая более эффективные и справедливые системы. Освободив людей от рутинной работы, мы могли бы сократить рабочий день, ввести безусловный базовый доход и перейти к социальному капитализму.

Однако игра также показала и риски:

- Массовое внедрение AGI может сделать устаревшими многие современные продукты, влияя на экономику и рынок труда;

- Без контроля AGI может быть использован в целях, угрожающих безопасности и свободе людей;

- Развитие AGI без полного понимания его природы может привести к утрате контроля над системой.

Я убежден, что международное сообщество должно объединиться, чтобы регулировать развитие ИИ. Нам необходимо глубже понять интеллект как физический феномен, установить четкие критерии достижения AGI и гарантировать, что эта технология принесет пользу всему человечеству.

Гонка за AGI уже началась, и от наших решений сегодня зависит, каким будет наш мир завтра.

#мысли
Как мы автоматизировали процесс разработки ПО за 3 дня

Будучи студентом я с удовольствием участвовал в хакатонах. Нам давали сложные задачи, которые нужно было решить за пару дней. Ночь без сна - классика этого жанра, но желание победить и денежные призы отлично мотивировали.

На прошлой неделе меня пригласили стать ментором на «антихакатоне» в формате JASS (Joint Advanced Student School). В этом формате участникам предоставляется три дня для решения сложной задачи, но вместо соревнований несколько команд работают над общей задачей “на грани науки” (участникам даже можно было спать по ночам). Поэтому моя роль заключалась в разработке общей задачи для шести команд по пять человек.

Одно из правил JASS заключается в том, что участники не пишут код самостоятельно, а активно используют ИИ-ассистентов, таких как Cursor. Мероприятие ставило цель изменить парадигму программирования для участников. Но можем ли мы не просто использовать умных помощников для написания кода, а полностью заменить разработчиков уже сегодня? (Спойлер: отчасти да). Именно такую задачу я предложил участникам - разработать мультиагентную систему для автоматизации разработки ПО.

Работая техническим директором, я хорошо знаком с процессами разработки ПО. Возможно, вы слышали о Devin AI, который стремится автоматизировать создание простых приложений. Также существует опенсорсный фреймворк ChatDev — мультиагентная платформа, автоматизирующая проектирование, написание кода, тестирование и ведение документации, что значительно облегчает разработку. Недавно Microsoft представила собственный фреймворк, способный автоматизировать весь цикл разработки: от генерации идей и создания технической спецификации до планирования, написания кода, тестирования и деплоя.

Однако мы стремились создать не простой продукт, а решение с использованием ИИ. Поэтому я предложил мультиагентную архитектуру, включающую следующие ИИ-агенты:

- ИИ-продуктовый аналитик — собирает требования от пользователя и формирует общие требования к продукту;

- ИИ-архитектор — проектирует архитектуру решения, разрабатывает техническую спецификацию и декомпозирует ее на более простые задачи;

- ИИ-исследователь — ищет научные статьи для решения ИИ-задач в arxiv и соответствующий код на гитхабе;

- ИИ-разработчик — определяет структуру проекта, пишет и рефакторит код;

- ИИ-инженер — тестирует полученный код и, в случае успешного прохождения тестов, разворачивает приложение;

- ИИ-поисковик документации — генерирует документацию к проекту и позволяет пользователю находить необходимые файлы.

Мы планировали связать всех агентов в фиксированный процесс, но в итоге решили отказаться от этой идеи. Вместо этого внедрили подход blackboard. В этом подходе все агенты работают в единой цифровой среде — GitHub — и реагируют на изменения в этой среде, а не на сигналы от других агентов. Например, когда в репозитории появляется новый код, ИИ-инженер автоматически берет его для тестирования и деплоя.

Таким образом, нам не нужно создавать сложные процессы для взаимодействия агентов: система сама распределяет задачи между агентами, обладающими необходимыми навыками, которые самостоятельно «подхватывают» соответствующие задания. Также мы использовали такие методы как Tree-of-thoughts, ReAct, RAG и Reflection.

В качестве теста мы попросили систему разработать инструмент для анализа токсичности текста. Система завелась не с первого раза, но в итоге каждый из агентов сделал свое дело. На более сложных проектах система все еще ломается, однако этот опыт показал потенциал мультиагентных систем в области разработки ПО.

Если вы разработчик и еще не используете ИИ-помощников, пора начать это делать прямо сейчас — ведь уже завтра вы станете операторами еще более умных систем.

В комментариях прикрепил концептуальную архитектуру системы, ссылку на гитхаб (загрузили не все) и итоговое приложение (пока оно работает).

#кейсы
Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?

В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.

Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.

Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.

Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.

Потенциальные области применения больших популяционных моделей обширны:

- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;

- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;

- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.

Недавно ученые разработали модель под названием «Центавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.

Интересно, что дообучение модели также улучшает согласованность внутренних представлений Центавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.

Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.

Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.

LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.

С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.

#технологии
This media is not supported in your browser
VIEW IN TELEGRAM
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей (Large Population Models, LPMs). Она открывает новые горизонты для научных открытий и эффективного управления сложными социальными системами.

Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.

AgentTorch использует следующие технологии:

- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;

- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;

- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.

#технологии
Как мы провели ИИ-трансформацию стратегических процессов в Сбере

Сегодня выпустил статью на Хабре (в продолжении этого поста), в которой рассказываю как наша команда за один квартал провела масштабную ИИ-трансформацию в стратегическом блоке Сбера. Перед нами стояла амбициозная задача - внедрить ИИ в 30 ключевых управленческих процессов в сжатые сроки.

В статье вы узнаете о методологии и фреймворках по внедрению ИИ в процессы компании; о сложностях и вызовах при внедрении ИИ в крупной корпорации; о практических уроках и инсайтах, которые можно применить в своем бизнесе.

Буду рад вашим вопросам и комментариям!

#анонс
Please open Telegram to view this post
VIEW IN TELEGRAM
Чего ждать от ИИ в следующем году: технологические тренды Gartner 2025

До конца года остаётся всего месяц, и это отличное время, чтобы обсудить основные тренды в области ИИ. Тем более, что аналитическая компания Gartner представила свои технологические прогнозы, сгруппировав их в три основные категории:

1. ИИ: Императивы и риски ИИ для защиты организаций

- Agentic AI: Автономные ИИ-агенты, способные сами планировать и действовать для достижения поставленных целей;

- AI Governance Platforms: Платформы для управления ИИ позволяют организациям управлять юридическими, этическими и операционными аспектами ИИ-систем;

- Disinformation Security: Технологии защиты от дезинформации снижают уровень мошенничества и защищают репутацию бренда через усиленные меры проверки.

2. Новые технологии побуждают организации пересматривать свои подходы к вычислениям

- Post-Quantum Cryptography (PQC): Постквантовая криптография защищает данные от угроз квантовых вычислений;

- Ambient Invisible Intelligence: Использование незаметных сенсоров для выявления ранее скрытых процессов в организациях, повышая эффективность и улучшая принятие решений;

- Energy-Efficient Computing: Энергоэффективные вычисления повышают устойчивость за счёт оптимизированной архитектуры и использования возобновляемой энергии;

- Hybrid Computing: Гибридные вычисления комбинируют различные механизмы для решения вычислительных задач, например, сочетание тензорных (TPU) и графических (GPU) вычислений.

3. Синергия человека и машины объединяет физические и цифровые миры

- Spatial Computing: Пространственные вычисления используют технологии расширенной (XR), дополненной (AR), смешанной (MR) и виртуальных реальностей (VR) для создания иммерсивных миров;

- Polyfunctional Robots: Многофункциональные роботы, выполняющие различные задачи и способные работать вместе с людьми;

- Neurological Enhancement:
Нейронные улучшения повышают когнитивные способности, считывая мозговую активность.

Углубимся в категорию императивов и рисков ИИ для защиты организаций.

Что касается ИИ-агентов, мне интересно наблюдать за компанией Artisan, которая разработала ИИ-сотрудника по имени Ava. Ava автоматизирует процессы отдела продаж — от поиска клиентов до закрытия сделок. Ava функционирует как полноценный член команды, не требуя постоянного контроля.

Такие инструменты, как AutoGen, LangChain и CrewAI, помогают создавать ИИ-агентов, которые могут самостоятельно выполнять задачи без постоянного вмешательства человека. Агентный ИИ обладает потенциалом кардинально преобразовать множество отраслей. Однако с ростом возможностей таких агентов возникает необходимость в строгом регулировании и этических стандартах.

Поэтому возникает потребность в инструментах, позволяющих контролировать и регулировать его применение. Платформы для управления ИИ становятся незаменимыми для компаний, стремящихся эффективно и безопасно интегрировать ИИ в свои процессы. Они предназначены для мониторинга работы ИИ-систем, регулярной проверки соответствия ИИ-решений установленным стандартам и нормам, а также для обнаружения возможных угроз, включая предвзятость алгоритмов и проблемы конфиденциальности данных. Один из примеров таких систем — Holistic AI.

В эпоху информационных войн и фейковых новостей технологии борьбы с дезинформацией становятся жизненно необходимыми. Например, Sensity AI помогает обнаруживать дипфейки в реальном времени. По прогнозам Gartner, к 2028 году 50% предприятий будут использовать продукты и услуги, направленные на борьбу с дезинформацией, что значительно выше текущих показателей.

В ближайшие годы прогнозируется стремительный рост инвестиций в эти направления, и только те организации, которые оперативно адаптируются к быстро меняющемуся технологическому ландшафту, смогут сохранить свои лидирующие позиции и оставаться конкурентоспособными на рынке.

#технологии
Какой ИИ-стартап запустить: анализ перспективных направлений

Тренд на стартапы с ИИ-агентами стремительно растет. Но важно понять, где можно создать реальную ценность и построить устойчивый бизнес.

Недавно наткнулся на крайне полезную статью «Какие AI-продукты стоит (и не стоит) делать людям с продуктовым бэкграундом». Поделюсь краткой выжимкой и своими мыслями.

Я выделил для себя два ключевых критерия успеха ИИ-продукта:

1. Полезность продукта - он должен решать реальную проблему клиентов, за решение которой они готовы заплатить;

2. Технологическое преимущество, основанное на уникальных данных и моделях, обученных на них, что создает барьеры для конкурентов.

Поэтому есть категории ИИ-продуктов, которые, несмотря на привлекательность, нецелесообразно создавать:

- Во-первых, фундаментальные технологические продукты. Конкурировать с технологическими гигантами в этой области практически невозможно из-за их огромных ресурсов и доступа к данным.

- Во-вторых, "обёртки" поверх GPT-моделей. Такие продукты часто теряют свою ценность с каждым обновлением фундаментальных моделей. Конечно, можно занять свою долю рынка, но достаточно быстро появятся конкуренты, которые вас повторят.

- Наконец, новые продукты в нишах, где текущие игроки уже внедряют ИИ. Лидеры рынка быстро интегрируют новые технологии в свои продукты, используя обширную базу пользователей и существующие интеграции.

С другой стороны, есть перспективные направления, в которых можно развиваться:

- Первое направление — автоматизация ручных процессов в больших компаниях. Это требует глубокого понимания специфики отрасли и умения выстраивать процессы продаж и внедрения, что создает барьеры для конкурентов.

- Второе направление — вертикально интегрированные решения. Фокусируясь на узком сегменте, можно создать специализированный продукт с высокой добавленной ценностью и защитой от конкуренции. Например, Jenni — ИИ-помощник для написания научных работ, учитывающий все нюансы форматирования и ссылок.

- Третье направление — сервисные индустрии, где ИИ позволяет повысить продуктивность. Например, Dwelly автоматизирует процессы в сфере аренды недвижимости. В таких отраслях конкуренция со стороны крупных технологических компаний маловероятна.

Есть возможность и в создании принципиально новых ИИ-продуктов. Это продукты, которые переосмысливают существующие решения, предлагая пользователям новый опыт. Например, Limitless AI — устройство, запоминающее все действия пользователя и позволяющее быстро получать доступ к этой информации.

Также могут быть интересны продукты для ИИ-разработчиков. Но они требуют глубоких технических знаний и, как правило, больше подходят фаундерам с инженерным бэкграундом. Здесь востребованы продукты в области инфраструктуры для ИИ, а также инструменты для MLOps и LLMOps.

Лайфхак для сервисного бизнеса:

Для сервисного бизнеса есть отличная возможность автоматизировать свои процессы и превратиться в продуктовую компанию. Допустим, у вас кадровое агентство:

1. Определите операцию для внедрения ИИ по следующим критериям: ресурсоемкость, эффект от внедрения, сложность внедрения. Например, это скрининг резюме кандидатов и написание обратной связи.

2. Если у вас есть данные по оценкам резюме профессиональными HR’ами и их обратной связью, то вы можете дообучить ИИ на них. Автоматизируйте эту операцию с помощью ИИ и посчитайте метрики процесса найма после внедрения ИИ.

3. Переходите к следующей операции и в итоге автоматизируйте весь процесс. Вы можете дифференцироваться по вертикале, например вы нанимаете только IT-специалистов.

PROFIT: Упакуйте готовый процесс в пользовательский интерфейс и продавайте как ИИ-продукт.

Технологическое преимущество здесь заключается в том, чтобы выполнять задачи лучше, чем остальные, дообучая модели на экспертных данных.

Мы живем в уникальное время, когда сервисные компании могут не только стать очень производительными за счет внедрения ИИ, но и превратиться в продуктовую компанию за счет накопленной экспертизы и данных.

#мысли