This media is not supported in your browser
VIEW IN TELEGRAM
У Google появился новый конкурент: OpenAI запускает умный поиск в ChatGPT
Это было ожидаемо, и вот это случилось. Теперь ChatGPT может сообщать последние новости, прогнозы погоды, курсы акций, спортивные результаты и многое другое прямо в режиме диалога. Более того, ChatGPT дает ссылки на надёжные источники, а поиск можно активировать вручную.
Новая функция уже доступна пользователям подписки Plus и Team вместе с расширением для Chrome, в ближайшие недели она станет доступна для Enterprise и Edu пользователей, а в течение следующих месяцев — для всех остальных.
Я уже протестировал новую функцию поиска. Пока она не дотягивает до Perplexity AI, но направление явно правильное. С добавлением возможностей моделей o1 и улучшенного понимания запросов, ChatGPT становится серьезным конкурентом для Perplexity AI. Интересно, что Perplexity AI ответит на это?
Google же давно перестал быть просто поисковиком, превратившись в целую экосистему сервисов. Кроме того, Google активно внедряет ИИ в свой поиск, позволяя формулировать более сложные запросы и получать более персонализированные ответы. Эта функция была экспериментально запущена недавно для некоторых стран, но делать выводы пока рано.
Мы в режиме реального времени наблюдаем, как ИИ-технологии меняют интернет-поиск, и видим масштабную гонку между поисковыми сервисами. Думаю, в этой гонке не будет явных победителей и проигравших: рынок скорее всего определит нишу для каждого игрока.
#новости
Это было ожидаемо, и вот это случилось. Теперь ChatGPT может сообщать последние новости, прогнозы погоды, курсы акций, спортивные результаты и многое другое прямо в режиме диалога. Более того, ChatGPT дает ссылки на надёжные источники, а поиск можно активировать вручную.
Новая функция уже доступна пользователям подписки Plus и Team вместе с расширением для Chrome, в ближайшие недели она станет доступна для Enterprise и Edu пользователей, а в течение следующих месяцев — для всех остальных.
Я уже протестировал новую функцию поиска. Пока она не дотягивает до Perplexity AI, но направление явно правильное. С добавлением возможностей моделей o1 и улучшенного понимания запросов, ChatGPT становится серьезным конкурентом для Perplexity AI. Интересно, что Perplexity AI ответит на это?
Google же давно перестал быть просто поисковиком, превратившись в целую экосистему сервисов. Кроме того, Google активно внедряет ИИ в свой поиск, позволяя формулировать более сложные запросы и получать более персонализированные ответы. Эта функция была экспериментально запущена недавно для некоторых стран, но делать выводы пока рано.
Мы в режиме реального времени наблюдаем, как ИИ-технологии меняют интернет-поиск, и видим масштабную гонку между поисковыми сервисами. Думаю, в этой гонке не будет явных победителей и проигравших: рынок скорее всего определит нишу для каждого игрока.
#новости
Топ ИИ-инструментов для создания контента
Искусственный интеллект все больше влияет на то, как мы создаем контент — от написания статей и создания изображений до музыки и видео. Недавно я наткнулся на исследование, которое показало, что читатели нередко отдают предпочтение контенту, созданному ИИ, по сравнению с материалами от профессиональных авторов.
Марк Цукерберг недавно заявил, что в ближайшем будущем на его платформах станет больше контента, созданного с помощью ИИ. Он называет это "естественной эволюцией" соцсетей.
С учетом этого тренда, я решил собрать список лучших ИИ-инструментов для создания различных типов контента:
1. Генерация текста
• Jasper AI от $49 в месяц: В отличии от ChatGPT или Claude этот инструмент специализирован на создании контента для маркетинга, SEO-оптимизации, блогов и постов для соцсетей.
• WriteSonic от $16 в месяц: Подходит для генерации статей, эссе, а также для переписывания текста. Доступен бесплатный план для ознакомления.
• Quillbot от $8 в месяц: Отличный помощник для переписывания, перевода, проверки грамматики и улучшения стиля текста. Помогает избежать плагиата, доступна бесплатная версия и Chrome-плагин.
2. Генерация изображений
• Midjourney от $10 в месяц (~200 изображений): Если вам нужны привлекательные и детализированные изображения по текстовым запросам, то этот инструмент для вас. Однако он предлагает меньше гибкости в настройках по сравнению со следующими двумя моделями.
• Stable Diffusion: Это инструмент с открытым исходным кодом. Можно запускать локально на собственном оборудовании без необходимости подписки или можно воспользоваться специальными платформами.
• FLUX.1: Новое семейство моделей от бывших участников команды Stable Diffusion. Предлагает улучшенное качество, особенно в генерации рук и текста на изображениях, а также отличается отсутствием цензуры (можно настраивать через API). Flux Schnell самая быстрая и дешевая модель; Flux Dev предназначена для некоммерческого использования; а Flux Pro самая качественная, но дорогая. Цена зависит от платформы, в среднем Flux Pro за одну картинку стоит от $0.05.
3. Генерация музыки
• Suno AI от $8 в месяц: Позволяет генерировать полные песни с вокалом и инструментами на основе текстового описания. Можно создать до 10 песен бесплатно.
• Mubert от $12 в месяц: Отличный инструмент для создания музыки без роялти. Вы можете генерировать треки, лупы, джинглы и фоновую музыку. Бесплатно можно создать до 25 треков в месяц.
• MusicGen: Позволяет генерировать музыку по текстовым запросам и добавлять аудио-примеры. Однако треки ограничены до 15 секунд. Это бесплатный инструмент с открытым исходным кодом.
4. Генерация голоса
• ElevenLabs от $5 в месяц: Обладает большой библиотекой реалистичных голосов, позволяет настраивать параметры и даже клонировать голоса. Бесплатно вы получаете около 10 минут аудио в месяц.
• Murf от $23 в месяц: Предлагает контроль акцентов и эмоций, настройку скорости и высоты тона, а также интеграцию с видео и музыкой. Бесплатный план включает 10 минут генерации.
• OpenAI Advanced Voice от $20 в месяц: Это голосовой ассистент с естественным звучанием, адаптирующийся к стилю пользователя. Доступен ограниченному числу пользователей и требует подписки ChatGPT Plus.
5. Генерация видео
• Runway от $15 в месяц: Runway позволяет генерировать видео по текстовым запросам и изображениям с контролем камеры и анимацией персонажей.
• Luma Dream Machine от $30 в месяц: Специализируется на создании и высококачественных консистентных видео на основе текста и изображений с контролем камеры.
• Kling от $10 в месяц: Китайская альтернатива генерации видео по тексту и картинкам. По качеству не сильно уступает предыдущим двум моделям.
ИИ автоматизирует создание контента, но смыслы и идеи для контента придумывает человек. Однако создатели контента, умеющие эффективно использовать ИИ-инструменты, становятся особенно востребованы уже сегодня, создавая больше вовлекательного контента в единицу времени.
#технологии
Искусственный интеллект все больше влияет на то, как мы создаем контент — от написания статей и создания изображений до музыки и видео. Недавно я наткнулся на исследование, которое показало, что читатели нередко отдают предпочтение контенту, созданному ИИ, по сравнению с материалами от профессиональных авторов.
Марк Цукерберг недавно заявил, что в ближайшем будущем на его платформах станет больше контента, созданного с помощью ИИ. Он называет это "естественной эволюцией" соцсетей.
С учетом этого тренда, я решил собрать список лучших ИИ-инструментов для создания различных типов контента:
1. Генерация текста
• Jasper AI от $49 в месяц: В отличии от ChatGPT или Claude этот инструмент специализирован на создании контента для маркетинга, SEO-оптимизации, блогов и постов для соцсетей.
• WriteSonic от $16 в месяц: Подходит для генерации статей, эссе, а также для переписывания текста. Доступен бесплатный план для ознакомления.
• Quillbot от $8 в месяц: Отличный помощник для переписывания, перевода, проверки грамматики и улучшения стиля текста. Помогает избежать плагиата, доступна бесплатная версия и Chrome-плагин.
2. Генерация изображений
• Midjourney от $10 в месяц (~200 изображений): Если вам нужны привлекательные и детализированные изображения по текстовым запросам, то этот инструмент для вас. Однако он предлагает меньше гибкости в настройках по сравнению со следующими двумя моделями.
• Stable Diffusion: Это инструмент с открытым исходным кодом. Можно запускать локально на собственном оборудовании без необходимости подписки или можно воспользоваться специальными платформами.
• FLUX.1: Новое семейство моделей от бывших участников команды Stable Diffusion. Предлагает улучшенное качество, особенно в генерации рук и текста на изображениях, а также отличается отсутствием цензуры (можно настраивать через API). Flux Schnell самая быстрая и дешевая модель; Flux Dev предназначена для некоммерческого использования; а Flux Pro самая качественная, но дорогая. Цена зависит от платформы, в среднем Flux Pro за одну картинку стоит от $0.05.
3. Генерация музыки
• Suno AI от $8 в месяц: Позволяет генерировать полные песни с вокалом и инструментами на основе текстового описания. Можно создать до 10 песен бесплатно.
• Mubert от $12 в месяц: Отличный инструмент для создания музыки без роялти. Вы можете генерировать треки, лупы, джинглы и фоновую музыку. Бесплатно можно создать до 25 треков в месяц.
• MusicGen: Позволяет генерировать музыку по текстовым запросам и добавлять аудио-примеры. Однако треки ограничены до 15 секунд. Это бесплатный инструмент с открытым исходным кодом.
4. Генерация голоса
• ElevenLabs от $5 в месяц: Обладает большой библиотекой реалистичных голосов, позволяет настраивать параметры и даже клонировать голоса. Бесплатно вы получаете около 10 минут аудио в месяц.
• Murf от $23 в месяц: Предлагает контроль акцентов и эмоций, настройку скорости и высоты тона, а также интеграцию с видео и музыкой. Бесплатный план включает 10 минут генерации.
• OpenAI Advanced Voice от $20 в месяц: Это голосовой ассистент с естественным звучанием, адаптирующийся к стилю пользователя. Доступен ограниченному числу пользователей и требует подписки ChatGPT Plus.
5. Генерация видео
• Runway от $15 в месяц: Runway позволяет генерировать видео по текстовым запросам и изображениям с контролем камеры и анимацией персонажей.
• Luma Dream Machine от $30 в месяц: Специализируется на создании и высококачественных консистентных видео на основе текста и изображений с контролем камеры.
• Kling от $10 в месяц: Китайская альтернатива генерации видео по тексту и картинкам. По качеству не сильно уступает предыдущим двум моделям.
ИИ автоматизирует создание контента, но смыслы и идеи для контента придумывает человек. Однако создатели контента, умеющие эффективно использовать ИИ-инструменты, становятся особенно востребованы уже сегодня, создавая больше вовлекательного контента в единицу времени.
#технологии
Forbes
Humans Prefer AI-Generated Content, New Research Suggests
An MIT study showed human subjects rated AI-generated content as better than that created by professional writers.
Может ли использование ИИ сделать нас глупее?
ИИ уже стал неотъемлемой частью нашей повседневной жизни, помогая нам решать задачи быстрее и эффективнее. От поиска рецептов до планирования маршрутов — ИИ стал незаменимым помощником. Но может ли использование ИИ со временем ухудшить наши когнитивные способности?
• Зависимость от мгновенных ответов. Когда-то для получения ответа приходилось изучать книги или проводить собственные исследования. Потом мы научились “гуглить” - искать ответы на нужный вопрос через поисковые сервисы, но анализировали полученную информацию все равно мы сами. Теперь достаточно задать вопрос ИИ и получить результат за секунды. Это удобно, но такая мгновенность может снижать наши аналитические способности. Полагаясь на готовые ответы, мы рискуем утратить навыки критического и аналитического мышления.
• Ухудшение памяти. Раньше, чтобы вспомнить имя актера, нам приходилось напрягать память. Сегодня ИИ делает это за нас. Это приводит к тому, что мы меньше тренируем свою память, полагаясь на внешние источники. В долгосрочной перспективе это может негативно сказаться на нашей способности запоминать и воспроизводить информацию. Нам нужно стараться запоминать информацию без помощи ИИ.
• Поверхностное понимание сложных тем. ИИ способен упростить сложные концепции и предоставить краткие ответы. Но такое упрощение может помешать глубокому пониманию предмета. Полагаться только на поверхностные объяснения ИИ — значит ограничивать себя в изучении сложных тем. Поэтому важно углубляться в необходимые нюансы, не ограничиваясь краткими ответами ИИ, а стремясь к более глубокому пониманию.
• Уменьшение социальных взаимодействий. Человек по природе своей социальное существо, и общение с другими людьми важно для эмоционального и психологического благополучия. Сокращение таких взаимодействий может привести к снижению эмоционального интеллекта. Поэтому нам нужно не отказываться от социальных контактов.
• Снижение творческого мышление. Недавнее исследование показало, что регулярное использование ИИ может снижать нашу способность и к творческому мышлению. Участники, которые полагались на ИИ при выполнении творческих задач, показали худшие результаты в самостоятельной работе. Более того, ИИ может приводить к "гомогенизации" идей, снижая разнообразие и оригинальность наших мыслей.
• Дезинформация. Также авторы подчеркивают риски распространения неточной или предвзятой информации. Без критического мышления и проверки фактов мы можем принять ложную информацию за истину, способствуя распространению дезинформации. Мы должны не принимать информацию на веру, а анализировать и проверять ее.
• Снижение способности рассуждать. Сооснователь Y-combinator Пол Грэм в своем эссе предупреждает о будущем, где навыки письма станут редкостью. Если ИИ может написать за нас письмо, зачем учиться делать это самостоятельно? Однако письмо тесно связано с мышлением. Когда мы пишем, мы структурируем мысли, развиваем идеи и улучшаем понимание темы. Потеря этого навыка может привести к снижению способности ясно мыслить и рассуждать. Если мы не хотим относиться к категории “немыслящих”, то нужно на постоянной основе заниматься написанием эссе без использования ИИ, рефлексировать и побольше общаться с “мыслящими” людьми (желательно на разных языках).
ИИ открывает перед нами огромные возможности, но важно помнить о потенциальных последствиях его чрезмерного использования. Возможно, стоит иногда отложить гаджеты и попытаться решить задачу самостоятельно?
#мысли
ИИ уже стал неотъемлемой частью нашей повседневной жизни, помогая нам решать задачи быстрее и эффективнее. От поиска рецептов до планирования маршрутов — ИИ стал незаменимым помощником. Но может ли использование ИИ со временем ухудшить наши когнитивные способности?
• Зависимость от мгновенных ответов. Когда-то для получения ответа приходилось изучать книги или проводить собственные исследования. Потом мы научились “гуглить” - искать ответы на нужный вопрос через поисковые сервисы, но анализировали полученную информацию все равно мы сами. Теперь достаточно задать вопрос ИИ и получить результат за секунды. Это удобно, но такая мгновенность может снижать наши аналитические способности. Полагаясь на готовые ответы, мы рискуем утратить навыки критического и аналитического мышления.
• Ухудшение памяти. Раньше, чтобы вспомнить имя актера, нам приходилось напрягать память. Сегодня ИИ делает это за нас. Это приводит к тому, что мы меньше тренируем свою память, полагаясь на внешние источники. В долгосрочной перспективе это может негативно сказаться на нашей способности запоминать и воспроизводить информацию. Нам нужно стараться запоминать информацию без помощи ИИ.
• Поверхностное понимание сложных тем. ИИ способен упростить сложные концепции и предоставить краткие ответы. Но такое упрощение может помешать глубокому пониманию предмета. Полагаться только на поверхностные объяснения ИИ — значит ограничивать себя в изучении сложных тем. Поэтому важно углубляться в необходимые нюансы, не ограничиваясь краткими ответами ИИ, а стремясь к более глубокому пониманию.
• Уменьшение социальных взаимодействий. Человек по природе своей социальное существо, и общение с другими людьми важно для эмоционального и психологического благополучия. Сокращение таких взаимодействий может привести к снижению эмоционального интеллекта. Поэтому нам нужно не отказываться от социальных контактов.
• Снижение творческого мышление. Недавнее исследование показало, что регулярное использование ИИ может снижать нашу способность и к творческому мышлению. Участники, которые полагались на ИИ при выполнении творческих задач, показали худшие результаты в самостоятельной работе. Более того, ИИ может приводить к "гомогенизации" идей, снижая разнообразие и оригинальность наших мыслей.
• Дезинформация. Также авторы подчеркивают риски распространения неточной или предвзятой информации. Без критического мышления и проверки фактов мы можем принять ложную информацию за истину, способствуя распространению дезинформации. Мы должны не принимать информацию на веру, а анализировать и проверять ее.
• Снижение способности рассуждать. Сооснователь Y-combinator Пол Грэм в своем эссе предупреждает о будущем, где навыки письма станут редкостью. Если ИИ может написать за нас письмо, зачем учиться делать это самостоятельно? Однако письмо тесно связано с мышлением. Когда мы пишем, мы структурируем мысли, развиваем идеи и улучшаем понимание темы. Потеря этого навыка может привести к снижению способности ясно мыслить и рассуждать. Если мы не хотим относиться к категории “немыслящих”, то нужно на постоянной основе заниматься написанием эссе без использования ИИ, рефлексировать и побольше общаться с “мыслящими” людьми (желательно на разных языках).
ИИ открывает перед нами огромные возможности, но важно помнить о потенциальных последствиях его чрезмерного использования. Возможно, стоит иногда отложить гаджеты и попытаться решить задачу самостоятельно?
#мысли
Forbes
Why ChatGPT Is Making Us Less Intelligent: 6 Key Reasons
How could using ChatGPT harm our focus, attention, memory recall and common sense? Here's how LLMs could be making us less intelligent, and how to stop it happening.
Большие поведенческие модели (LBM): новый этап в развитии ИИ
Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.
Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.
Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.
Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.
Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.
Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).
Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).
Большие поведенческие модели уже используются на практике:
1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.
2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.
3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.
Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.
Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.
В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?
#технологии
Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.
Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.
Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.
Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.
Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.
Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).
Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).
Большие поведенческие модели уже используются на практике:
1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.
2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.
3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.
Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.
Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.
В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?
#технологии
Forbes
Large Behavior Models Surpass Large Language Models To Create AI That Walks And Talks
Hot AI trend consists of large behavior models (LBM), which is a combination of generative AI LLMs with behavior-oriented AI walk and talk features. Here's the scoop.
Демо-видео, показывающие фантастические возможности модели PaLM-E в выполнении комплексных задач.
Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.
#технологии
Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.
#технологии
Первая в мире виртуальная лаборатория с ИИ-учеными
В современном мире скорость научных открытий во многом определяется способностью объединять знания из различных дисциплин. Однако создание междисциплинарных команд часто сталкивается с финансовыми и организационными препятствиями. Представьте себе мир, где ИИ не просто отвечает на вопросы, но и способен самостоятельно вести сложные научные исследования. Сегодня это становится реальностью.
Недавно группа исследователей из Стэнфордского университета и Chan Zuckerberg Biohub (организация Марка Цукерберга и его супруги) представила виртуальную лабораторию, направленную на проведение сложных, междисциплинарных научных исследований. Эта система позволяет одному человеку управлять командой виртуальных ИИ-агентов, каждый из которых обладает специализированными знаниями в своей области — от биологии до информатики.
В основе виртуальной лаборатории лежит архитектура, где человек-исследователь выступает в роли руководителя, а ИИ-агенты выполняют роль исследователей с разной экспертизой. Главный ИИ-агент, называемый Principal Investigator (PI), координирует работу команды, ставит задачи и обобщает результаты. Каждый ИИ-агент получает четко определенную роль, цель и область экспертизы, что позволяет им эффективно взаимодействовать и дополнять друг друга.
В процессе работы Виртуальная лаборатория проводит как командные, так и индивидуальные встречи. На командных встречах агенты обсуждают общие направления исследований, делятся идеями и предлагают решения. Индивидуальные встречи позволяют агентам сосредоточиться на конкретных задачах, таких как написание кода или анализ данных, получая при необходимости обратную связь от других агентов.
Чтобы продемонстрировать возможности Виртуальной лаборатории, исследователи поставили перед ней сложную и актуальную задачу: разработать новые нанотела, способные эффективно связываться с новейшими вариантами вируса SARS-CoV-2.
Виртуальная лаборатория самостоятельно:
- Определила стратегию исследования, решив модифицировать существующие нанотела вместо создания новых с нуля;
- Выбрала наиболее перспективные исходные нанотела для модификации;
- Подобрала и интегрировала передовые инструменты для работы: ESM для оценки мутаций, AlphaFold-Multimer для предсказания структуры белков и Rosetta для расчета энергии связывания;
- Разработала алгоритм, который в несколько раундов улучшал нанотела, выбирая наиболее перспективные мутации на каждом этапе.
В результате было создано 92 новых варианта нанотел. Эксперимент показал, что более 90% из них были функциональны и могли эффективно связываться с белком-мишенью. Особенно выделились два нанотела, которые продемонстрировали сильное связывание с новыми вариантами вируса, сохраняя при этом эффективность против исходного штамма.
Это открывает для нас новые горизонты:
- Виртуальные ИИ-команды могут проводить сложные исследования в разы быстрее, чем традиционные группы ученых;
- Даже небольшие организации без широкого доступа к узким специалистам могут решать междисциплинарные задачи;
- Снижаются затраты на работу больших исследовательских команд.
Сегодня ИИ не просто инструмент для автоматизации рутинных процессов, а полноценный участник исследовательской команды, способный генерировать новые идеи и находить нестандартные решения.
В дорожной карте AGI от OpenAI четвертым уровнем фигурируют “Инноваторы” - ИИ-агенты, способные самостоятельно разрабатывать инновации.
Возникает вопрос: означает ли это, что мы уже достигли этого уровня и близки к пятому, финальному этапу перед созданием AGI?
#новости
В современном мире скорость научных открытий во многом определяется способностью объединять знания из различных дисциплин. Однако создание междисциплинарных команд часто сталкивается с финансовыми и организационными препятствиями. Представьте себе мир, где ИИ не просто отвечает на вопросы, но и способен самостоятельно вести сложные научные исследования. Сегодня это становится реальностью.
Недавно группа исследователей из Стэнфордского университета и Chan Zuckerberg Biohub (организация Марка Цукерберга и его супруги) представила виртуальную лабораторию, направленную на проведение сложных, междисциплинарных научных исследований. Эта система позволяет одному человеку управлять командой виртуальных ИИ-агентов, каждый из которых обладает специализированными знаниями в своей области — от биологии до информатики.
В основе виртуальной лаборатории лежит архитектура, где человек-исследователь выступает в роли руководителя, а ИИ-агенты выполняют роль исследователей с разной экспертизой. Главный ИИ-агент, называемый Principal Investigator (PI), координирует работу команды, ставит задачи и обобщает результаты. Каждый ИИ-агент получает четко определенную роль, цель и область экспертизы, что позволяет им эффективно взаимодействовать и дополнять друг друга.
В процессе работы Виртуальная лаборатория проводит как командные, так и индивидуальные встречи. На командных встречах агенты обсуждают общие направления исследований, делятся идеями и предлагают решения. Индивидуальные встречи позволяют агентам сосредоточиться на конкретных задачах, таких как написание кода или анализ данных, получая при необходимости обратную связь от других агентов.
Чтобы продемонстрировать возможности Виртуальной лаборатории, исследователи поставили перед ней сложную и актуальную задачу: разработать новые нанотела, способные эффективно связываться с новейшими вариантами вируса SARS-CoV-2.
Виртуальная лаборатория самостоятельно:
- Определила стратегию исследования, решив модифицировать существующие нанотела вместо создания новых с нуля;
- Выбрала наиболее перспективные исходные нанотела для модификации;
- Подобрала и интегрировала передовые инструменты для работы: ESM для оценки мутаций, AlphaFold-Multimer для предсказания структуры белков и Rosetta для расчета энергии связывания;
- Разработала алгоритм, который в несколько раундов улучшал нанотела, выбирая наиболее перспективные мутации на каждом этапе.
В результате было создано 92 новых варианта нанотел. Эксперимент показал, что более 90% из них были функциональны и могли эффективно связываться с белком-мишенью. Особенно выделились два нанотела, которые продемонстрировали сильное связывание с новыми вариантами вируса, сохраняя при этом эффективность против исходного штамма.
Это открывает для нас новые горизонты:
- Виртуальные ИИ-команды могут проводить сложные исследования в разы быстрее, чем традиционные группы ученых;
- Даже небольшие организации без широкого доступа к узким специалистам могут решать междисциплинарные задачи;
- Снижаются затраты на работу больших исследовательских команд.
Сегодня ИИ не просто инструмент для автоматизации рутинных процессов, а полноценный участник исследовательской команды, способный генерировать новые идеи и находить нестандартные решения.
В дорожной карте AGI от OpenAI четвертым уровнем фигурируют “Инноваторы” - ИИ-агенты, способные самостоятельно разрабатывать инновации.
Возникает вопрос: означает ли это, что мы уже достигли этого уровня и близки к пятому, финальному этапу перед созданием AGI?
#новости
Почему данные — главное технологическое преимущество ИИ-стартапа
Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.
В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.
Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?
У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.
Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.
Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.
В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.
Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.
Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.
В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.
Этот опыт стал для меня хорошим уроком. Я на практике понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.
#кейсы
Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.
В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.
Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?
У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.
Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.
Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.
В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.
Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.
Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.
В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.
Этот опыт стал для меня хорошим уроком. Я на практике понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.
#кейсы
Игровой эксперимент: кто победит в гонке за AGI
В прошлые выходные я принял участие в необычной оффлайн бизнес-игре, симулирующей гонку за создание общего искусственного интеллекта (AGI). Эта игра оказалась не просто развлечением, а экспериментом, который заставил меня переосмыслить возможные последствия появления AGI в нашем мире. Хочу поделиться с вами своим опытом и мыслями.
В игре участвовали несколько команд, каждая представляла одну из известных технологических компаний. Интересно, что одна из компаний была китайской, и у них было явное преимущество в виде дополнительных вычислительных мощностей и талантливых специалистов. Мы конкурировали за таланты и ресурсы, пытались перекупить сотрудников и арендовали ограниченные мощности у трех компаний, контролировавших рынок видеокарт.
Основой игры стала идея Scrabble (Эрудит), но с технологическим уклоном. Вместо обычных букв мы собирали "технологии", а слова превращались в “продукты”. В центре игрового поля находился тот самый AGI — конечная цель, к которой стремились все команды. Чтобы получить технологии, мы могли проводить исследования (буквально бросая кубик) или покупать их на рынке, инвестируя в другие компании. Чем больше у нас было вычислительных мощностей и талантов, тем больше технологий мы могли получить за раунд.
Игра была не просто соревнованием компаний — в ней были и "правительство", и "суд", которые регулировали весь игровой процесс. Каждый раунд (игровой год) проходили собрания, где обсуждались новые регуляции, и с регуляторами можно было договариваться, чтобы продвигать интересы своей компании.
Мне досталась роль директора по продукту (CPO) в компании, аналогичной Google. Наша команда решила фокусироваться на разработке собственных продуктов и одновременно пыталась приобрести перспективный стартап.
Игра была напряженной и динамичной. Нам приходилось быстро решать, у кого купить мощности, с кем заключить партнерство, как реагировать на шаги конкурентов. Все соглашения мы оформляли на бумаге, но нередко сделки срывались, и мы вынуждены были обращаться в игровой суд.
В итоге мы выпустили пять продуктов и стали самой прибыльной продуктовой компанией, но не смогли договориться о покупке того самого стартапа, который в итоге достиг AGI. Его купила китайская компания, и это полностью изменило расстановку сил в игре.
Поэтому я обратился к “правительству” с идеей создать альянс по контролю над AGI. Но “правительство” приняло решение ввести санкции против китайской компании, чтобы ограничить ее влияние и защитить наш рынок от обесценивания продуктов. Однако я был против таких санкций и решил баллотироваться на пост “президента”.
Моя предвыборная программа гласила, что AGI должен быть открытой технологией, доступной всем, а не принадлежащей одной стране или корпорации. Его применение могло бы полностью автоматизировать все экономические секторы: аграрную и тяжелую промышленность, энергетику, сферу услуг и даже научные исследования.
AGI - технология, которая может совершить четвертую промышленную революцию. Такие сферы как оборона, медицина, экология, образование и государственное управление могут сильно трансформироваться, создавая более эффективные и справедливые системы. Освободив людей от рутинной работы, мы могли бы сократить рабочий день, ввести безусловный базовый доход и перейти к социальному капитализму.
Однако игра также показала и риски:
- Массовое внедрение AGI может сделать устаревшими многие современные продукты, влияя на экономику и рынок труда;
- Без контроля AGI может быть использован в целях, угрожающих безопасности и свободе людей;
- Развитие AGI без полного понимания его природы может привести к утрате контроля над системой.
Я убежден, что международное сообщество должно объединиться, чтобы регулировать развитие ИИ. Нам необходимо глубже понять интеллект как физический феномен, установить четкие критерии достижения AGI и гарантировать, что эта технология принесет пользу всему человечеству.
Гонка за AGI уже началась, и от наших решений сегодня зависит, каким будет наш мир завтра.
#мысли
В прошлые выходные я принял участие в необычной оффлайн бизнес-игре, симулирующей гонку за создание общего искусственного интеллекта (AGI). Эта игра оказалась не просто развлечением, а экспериментом, который заставил меня переосмыслить возможные последствия появления AGI в нашем мире. Хочу поделиться с вами своим опытом и мыслями.
В игре участвовали несколько команд, каждая представляла одну из известных технологических компаний. Интересно, что одна из компаний была китайской, и у них было явное преимущество в виде дополнительных вычислительных мощностей и талантливых специалистов. Мы конкурировали за таланты и ресурсы, пытались перекупить сотрудников и арендовали ограниченные мощности у трех компаний, контролировавших рынок видеокарт.
Основой игры стала идея Scrabble (Эрудит), но с технологическим уклоном. Вместо обычных букв мы собирали "технологии", а слова превращались в “продукты”. В центре игрового поля находился тот самый AGI — конечная цель, к которой стремились все команды. Чтобы получить технологии, мы могли проводить исследования (буквально бросая кубик) или покупать их на рынке, инвестируя в другие компании. Чем больше у нас было вычислительных мощностей и талантов, тем больше технологий мы могли получить за раунд.
Игра была не просто соревнованием компаний — в ней были и "правительство", и "суд", которые регулировали весь игровой процесс. Каждый раунд (игровой год) проходили собрания, где обсуждались новые регуляции, и с регуляторами можно было договариваться, чтобы продвигать интересы своей компании.
Мне досталась роль директора по продукту (CPO) в компании, аналогичной Google. Наша команда решила фокусироваться на разработке собственных продуктов и одновременно пыталась приобрести перспективный стартап.
Игра была напряженной и динамичной. Нам приходилось быстро решать, у кого купить мощности, с кем заключить партнерство, как реагировать на шаги конкурентов. Все соглашения мы оформляли на бумаге, но нередко сделки срывались, и мы вынуждены были обращаться в игровой суд.
В итоге мы выпустили пять продуктов и стали самой прибыльной продуктовой компанией, но не смогли договориться о покупке того самого стартапа, который в итоге достиг AGI. Его купила китайская компания, и это полностью изменило расстановку сил в игре.
Поэтому я обратился к “правительству” с идеей создать альянс по контролю над AGI. Но “правительство” приняло решение ввести санкции против китайской компании, чтобы ограничить ее влияние и защитить наш рынок от обесценивания продуктов. Однако я был против таких санкций и решил баллотироваться на пост “президента”.
Моя предвыборная программа гласила, что AGI должен быть открытой технологией, доступной всем, а не принадлежащей одной стране или корпорации. Его применение могло бы полностью автоматизировать все экономические секторы: аграрную и тяжелую промышленность, энергетику, сферу услуг и даже научные исследования.
AGI - технология, которая может совершить четвертую промышленную революцию. Такие сферы как оборона, медицина, экология, образование и государственное управление могут сильно трансформироваться, создавая более эффективные и справедливые системы. Освободив людей от рутинной работы, мы могли бы сократить рабочий день, ввести безусловный базовый доход и перейти к социальному капитализму.
Однако игра также показала и риски:
- Массовое внедрение AGI может сделать устаревшими многие современные продукты, влияя на экономику и рынок труда;
- Без контроля AGI может быть использован в целях, угрожающих безопасности и свободе людей;
- Развитие AGI без полного понимания его природы может привести к утрате контроля над системой.
Я убежден, что международное сообщество должно объединиться, чтобы регулировать развитие ИИ. Нам необходимо глубже понять интеллект как физический феномен, установить четкие критерии достижения AGI и гарантировать, что эта технология принесет пользу всему человечеству.
Гонка за AGI уже началась, и от наших решений сегодня зависит, каким будет наш мир завтра.
#мысли
Как мы автоматизировали процесс разработки ПО за 3 дня
Будучи студентом я с удовольствием участвовал в хакатонах. Нам давали сложные задачи, которые нужно было решить за пару дней. Ночь без сна - классика этого жанра, но желание победить и денежные призы отлично мотивировали.
На прошлой неделе меня пригласили стать ментором на «антихакатоне» в формате JASS (Joint Advanced Student School). В этом формате участникам предоставляется три дня для решения сложной задачи, но вместо соревнований несколько команд работают над общей задачей “на грани науки” (участникам даже можно было спать по ночам). Поэтому моя роль заключалась в разработке общей задачи для шести команд по пять человек.
Одно из правил JASS заключается в том, что участники не пишут код самостоятельно, а активно используют ИИ-ассистентов, таких как Cursor. Мероприятие ставило цель изменить парадигму программирования для участников. Но можем ли мы не просто использовать умных помощников для написания кода, а полностью заменить разработчиков уже сегодня? (Спойлер: отчасти да). Именно такую задачу я предложил участникам - разработать мультиагентную систему для автоматизации разработки ПО.
Работая техническим директором, я хорошо знаком с процессами разработки ПО. Возможно, вы слышали о Devin AI, который стремится автоматизировать создание простых приложений. Также существует опенсорсный фреймворк ChatDev — мультиагентная платформа, автоматизирующая проектирование, написание кода, тестирование и ведение документации, что значительно облегчает разработку. Недавно Microsoft представила собственный фреймворк, способный автоматизировать весь цикл разработки: от генерации идей и создания технической спецификации до планирования, написания кода, тестирования и деплоя.
Однако мы стремились создать не простой продукт, а решение с использованием ИИ. Поэтому я предложил мультиагентную архитектуру, включающую следующие ИИ-агенты:
- ИИ-продуктовый аналитик — собирает требования от пользователя и формирует общие требования к продукту;
- ИИ-архитектор — проектирует архитектуру решения, разрабатывает техническую спецификацию и декомпозирует ее на более простые задачи;
- ИИ-исследователь — ищет научные статьи для решения ИИ-задач в arxiv и соответствующий код на гитхабе;
- ИИ-разработчик — определяет структуру проекта, пишет и рефакторит код;
- ИИ-инженер — тестирует полученный код и, в случае успешного прохождения тестов, разворачивает приложение;
- ИИ-поисковик документации — генерирует документацию к проекту и позволяет пользователю находить необходимые файлы.
Мы планировали связать всех агентов в фиксированный процесс, но в итоге решили отказаться от этой идеи. Вместо этого внедрили подход blackboard. В этом подходе все агенты работают в единой цифровой среде — GitHub — и реагируют на изменения в этой среде, а не на сигналы от других агентов. Например, когда в репозитории появляется новый код, ИИ-инженер автоматически берет его для тестирования и деплоя.
Таким образом, нам не нужно создавать сложные процессы для взаимодействия агентов: система сама распределяет задачи между агентами, обладающими необходимыми навыками, которые самостоятельно «подхватывают» соответствующие задания. Также мы использовали такие методы как Tree-of-thoughts, ReAct, RAG и Reflection.
В качестве теста мы попросили систему разработать инструмент для анализа токсичности текста. Система завелась не с первого раза, но в итоге каждый из агентов сделал свое дело. На более сложных проектах система все еще ломается, однако этот опыт показал потенциал мультиагентных систем в области разработки ПО.
Если вы разработчик и еще не используете ИИ-помощников, пора начать это делать прямо сейчас — ведь уже завтра вы станете операторами еще более умных систем.
В комментариях прикрепил концептуальную архитектуру системы, ссылку на гитхаб (загрузили не все) и итоговое приложение (пока оно работает).
#кейсы
Будучи студентом я с удовольствием участвовал в хакатонах. Нам давали сложные задачи, которые нужно было решить за пару дней. Ночь без сна - классика этого жанра, но желание победить и денежные призы отлично мотивировали.
На прошлой неделе меня пригласили стать ментором на «антихакатоне» в формате JASS (Joint Advanced Student School). В этом формате участникам предоставляется три дня для решения сложной задачи, но вместо соревнований несколько команд работают над общей задачей “на грани науки” (участникам даже можно было спать по ночам). Поэтому моя роль заключалась в разработке общей задачи для шести команд по пять человек.
Одно из правил JASS заключается в том, что участники не пишут код самостоятельно, а активно используют ИИ-ассистентов, таких как Cursor. Мероприятие ставило цель изменить парадигму программирования для участников. Но можем ли мы не просто использовать умных помощников для написания кода, а полностью заменить разработчиков уже сегодня? (Спойлер: отчасти да). Именно такую задачу я предложил участникам - разработать мультиагентную систему для автоматизации разработки ПО.
Работая техническим директором, я хорошо знаком с процессами разработки ПО. Возможно, вы слышали о Devin AI, который стремится автоматизировать создание простых приложений. Также существует опенсорсный фреймворк ChatDev — мультиагентная платформа, автоматизирующая проектирование, написание кода, тестирование и ведение документации, что значительно облегчает разработку. Недавно Microsoft представила собственный фреймворк, способный автоматизировать весь цикл разработки: от генерации идей и создания технической спецификации до планирования, написания кода, тестирования и деплоя.
Однако мы стремились создать не простой продукт, а решение с использованием ИИ. Поэтому я предложил мультиагентную архитектуру, включающую следующие ИИ-агенты:
- ИИ-продуктовый аналитик — собирает требования от пользователя и формирует общие требования к продукту;
- ИИ-архитектор — проектирует архитектуру решения, разрабатывает техническую спецификацию и декомпозирует ее на более простые задачи;
- ИИ-исследователь — ищет научные статьи для решения ИИ-задач в arxiv и соответствующий код на гитхабе;
- ИИ-разработчик — определяет структуру проекта, пишет и рефакторит код;
- ИИ-инженер — тестирует полученный код и, в случае успешного прохождения тестов, разворачивает приложение;
- ИИ-поисковик документации — генерирует документацию к проекту и позволяет пользователю находить необходимые файлы.
Мы планировали связать всех агентов в фиксированный процесс, но в итоге решили отказаться от этой идеи. Вместо этого внедрили подход blackboard. В этом подходе все агенты работают в единой цифровой среде — GitHub — и реагируют на изменения в этой среде, а не на сигналы от других агентов. Например, когда в репозитории появляется новый код, ИИ-инженер автоматически берет его для тестирования и деплоя.
Таким образом, нам не нужно создавать сложные процессы для взаимодействия агентов: система сама распределяет задачи между агентами, обладающими необходимыми навыками, которые самостоятельно «подхватывают» соответствующие задания. Также мы использовали такие методы как Tree-of-thoughts, ReAct, RAG и Reflection.
В качестве теста мы попросили систему разработать инструмент для анализа токсичности текста. Система завелась не с первого раза, но в итоге каждый из агентов сделал свое дело. На более сложных проектах система все еще ломается, однако этот опыт показал потенциал мультиагентных систем в области разработки ПО.
Если вы разработчик и еще не используете ИИ-помощников, пора начать это делать прямо сейчас — ведь уже завтра вы станете операторами еще более умных систем.
В комментариях прикрепил концептуальную архитектуру системы, ссылку на гитхаб (загрузили не все) и итоговое приложение (пока оно работает).
#кейсы
Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?
В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.
Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.
Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.
Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.
Потенциальные области применения больших популяционных моделей обширны:
- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;
- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;
- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.
Недавно ученые разработали модель под названием «Центавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.
Интересно, что дообучение модели также улучшает согласованность внутренних представлений Центавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.
Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.
Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.
LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.
С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.
#технологии
В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.
Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.
Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.
Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.
Потенциальные области применения больших популяционных моделей обширны:
- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;
- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;
- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.
Недавно ученые разработали модель под названием «Центавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.
Интересно, что дообучение модели также улучшает согласованность внутренних представлений Центавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.
Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.
Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.
LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.
С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.
#технологии
Arimadata
The Large Population Model: LLM equivalent for Population Simulation
Discover how Large Population Models, like Arima's Synthetic Society, leverage Large Language Models to complete unknown attributes based on known data.
This media is not supported in your browser
VIEW IN TELEGRAM
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей (Large Population Models, LPMs). Она открывает новые горизонты для научных открытий и эффективного управления сложными социальными системами.
Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.
AgentTorch использует следующие технологии:
- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;
- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;
- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.
#технологии
Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.
AgentTorch использует следующие технологии:
- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;
- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;
- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.
#технологии
Как мы провели ИИ-трансформацию стратегических процессов в Сбере
Сегодня выпустил статью на Хабре (в продолжении этого поста), в которой рассказываю как наша команда за один квартал провела масштабную ИИ-трансформацию в стратегическом блоке Сбера. Перед нами стояла амбициозная задача - внедрить ИИ в 30 ключевых управленческих процессов в сжатые сроки.
В статье вы узнаете о методологии и фреймворках по внедрению ИИ в процессы компании; о сложностях и вызовах при внедрении ИИ в крупной корпорации; о практических уроках и инсайтах, которые можно применить в своем бизнесе.
Буду рад вашим вопросам и комментариям!
#анонс
Сегодня выпустил статью на Хабре (в продолжении этого поста), в которой рассказываю как наша команда за один квартал провела масштабную ИИ-трансформацию в стратегическом блоке Сбера. Перед нами стояла амбициозная задача - внедрить ИИ в 30 ключевых управленческих процессов в сжатые сроки.
В статье вы узнаете о методологии и фреймворках по внедрению ИИ в процессы компании; о сложностях и вызовах при внедрении ИИ в крупной корпорации; о практических уроках и инсайтах, которые можно применить в своем бизнесе.
Буду рад вашим вопросам и комментариям!
#анонс
Хабр
Как мы провели ИИ-трансформацию стратегических процессов Сбера
Привет, Хабр! Меня зовут Андрей, я технологический предприниматель, работаю CTO в ИИ-стартапах и помогаю внедрять ИИ в компаниях. Одним из громких кейсов для меня стала ИИ-трансформация Сбера. Сегодня...
Чего ждать от ИИ в следующем году: технологические тренды Gartner 2025
До конца года остаётся всего месяц, и это отличное время, чтобы обсудить основные тренды в области ИИ. Тем более, что аналитическая компания Gartner представила свои технологические прогнозы, сгруппировав их в три основные категории:
1. ИИ: Императивы и риски ИИ для защиты организаций
- Agentic AI: Автономные ИИ-агенты, способные сами планировать и действовать для достижения поставленных целей;
- AI Governance Platforms: Платформы для управления ИИ позволяют организациям управлять юридическими, этическими и операционными аспектами ИИ-систем;
- Disinformation Security: Технологии защиты от дезинформации снижают уровень мошенничества и защищают репутацию бренда через усиленные меры проверки.
2. Новые технологии побуждают организации пересматривать свои подходы к вычислениям
- Post-Quantum Cryptography (PQC): Постквантовая криптография защищает данные от угроз квантовых вычислений;
- Ambient Invisible Intelligence: Использование незаметных сенсоров для выявления ранее скрытых процессов в организациях, повышая эффективность и улучшая принятие решений;
- Energy-Efficient Computing: Энергоэффективные вычисления повышают устойчивость за счёт оптимизированной архитектуры и использования возобновляемой энергии;
- Hybrid Computing: Гибридные вычисления комбинируют различные механизмы для решения вычислительных задач, например, сочетание тензорных (TPU) и графических (GPU) вычислений.
3. Синергия человека и машины объединяет физические и цифровые миры
- Spatial Computing: Пространственные вычисления используют технологии расширенной (XR), дополненной (AR), смешанной (MR) и виртуальных реальностей (VR) для создания иммерсивных миров;
- Polyfunctional Robots: Многофункциональные роботы, выполняющие различные задачи и способные работать вместе с людьми;
- Neurological Enhancement: Нейронные улучшения повышают когнитивные способности, считывая мозговую активность.
Углубимся в категорию императивов и рисков ИИ для защиты организаций.
Что касается ИИ-агентов, мне интересно наблюдать за компанией Artisan, которая разработала ИИ-сотрудника по имени Ava. Ava автоматизирует процессы отдела продаж — от поиска клиентов до закрытия сделок. Ava функционирует как полноценный член команды, не требуя постоянного контроля.
Такие инструменты, как AutoGen, LangChain и CrewAI, помогают создавать ИИ-агентов, которые могут самостоятельно выполнять задачи без постоянного вмешательства человека. Агентный ИИ обладает потенциалом кардинально преобразовать множество отраслей. Однако с ростом возможностей таких агентов возникает необходимость в строгом регулировании и этических стандартах.
Поэтому возникает потребность в инструментах, позволяющих контролировать и регулировать его применение. Платформы для управления ИИ становятся незаменимыми для компаний, стремящихся эффективно и безопасно интегрировать ИИ в свои процессы. Они предназначены для мониторинга работы ИИ-систем, регулярной проверки соответствия ИИ-решений установленным стандартам и нормам, а также для обнаружения возможных угроз, включая предвзятость алгоритмов и проблемы конфиденциальности данных. Один из примеров таких систем — Holistic AI.
В эпоху информационных войн и фейковых новостей технологии борьбы с дезинформацией становятся жизненно необходимыми. Например, Sensity AI помогает обнаруживать дипфейки в реальном времени. По прогнозам Gartner, к 2028 году 50% предприятий будут использовать продукты и услуги, направленные на борьбу с дезинформацией, что значительно выше текущих показателей.
В ближайшие годы прогнозируется стремительный рост инвестиций в эти направления, и только те организации, которые оперативно адаптируются к быстро меняющемуся технологическому ландшафту, смогут сохранить свои лидирующие позиции и оставаться конкурентоспособными на рынке.
#технологии
До конца года остаётся всего месяц, и это отличное время, чтобы обсудить основные тренды в области ИИ. Тем более, что аналитическая компания Gartner представила свои технологические прогнозы, сгруппировав их в три основные категории:
1. ИИ: Императивы и риски ИИ для защиты организаций
- Agentic AI: Автономные ИИ-агенты, способные сами планировать и действовать для достижения поставленных целей;
- AI Governance Platforms: Платформы для управления ИИ позволяют организациям управлять юридическими, этическими и операционными аспектами ИИ-систем;
- Disinformation Security: Технологии защиты от дезинформации снижают уровень мошенничества и защищают репутацию бренда через усиленные меры проверки.
2. Новые технологии побуждают организации пересматривать свои подходы к вычислениям
- Post-Quantum Cryptography (PQC): Постквантовая криптография защищает данные от угроз квантовых вычислений;
- Ambient Invisible Intelligence: Использование незаметных сенсоров для выявления ранее скрытых процессов в организациях, повышая эффективность и улучшая принятие решений;
- Energy-Efficient Computing: Энергоэффективные вычисления повышают устойчивость за счёт оптимизированной архитектуры и использования возобновляемой энергии;
- Hybrid Computing: Гибридные вычисления комбинируют различные механизмы для решения вычислительных задач, например, сочетание тензорных (TPU) и графических (GPU) вычислений.
3. Синергия человека и машины объединяет физические и цифровые миры
- Spatial Computing: Пространственные вычисления используют технологии расширенной (XR), дополненной (AR), смешанной (MR) и виртуальных реальностей (VR) для создания иммерсивных миров;
- Polyfunctional Robots: Многофункциональные роботы, выполняющие различные задачи и способные работать вместе с людьми;
- Neurological Enhancement: Нейронные улучшения повышают когнитивные способности, считывая мозговую активность.
Углубимся в категорию императивов и рисков ИИ для защиты организаций.
Что касается ИИ-агентов, мне интересно наблюдать за компанией Artisan, которая разработала ИИ-сотрудника по имени Ava. Ava автоматизирует процессы отдела продаж — от поиска клиентов до закрытия сделок. Ava функционирует как полноценный член команды, не требуя постоянного контроля.
Такие инструменты, как AutoGen, LangChain и CrewAI, помогают создавать ИИ-агентов, которые могут самостоятельно выполнять задачи без постоянного вмешательства человека. Агентный ИИ обладает потенциалом кардинально преобразовать множество отраслей. Однако с ростом возможностей таких агентов возникает необходимость в строгом регулировании и этических стандартах.
Поэтому возникает потребность в инструментах, позволяющих контролировать и регулировать его применение. Платформы для управления ИИ становятся незаменимыми для компаний, стремящихся эффективно и безопасно интегрировать ИИ в свои процессы. Они предназначены для мониторинга работы ИИ-систем, регулярной проверки соответствия ИИ-решений установленным стандартам и нормам, а также для обнаружения возможных угроз, включая предвзятость алгоритмов и проблемы конфиденциальности данных. Один из примеров таких систем — Holistic AI.
В эпоху информационных войн и фейковых новостей технологии борьбы с дезинформацией становятся жизненно необходимыми. Например, Sensity AI помогает обнаруживать дипфейки в реальном времени. По прогнозам Gartner, к 2028 году 50% предприятий будут использовать продукты и услуги, направленные на борьбу с дезинформацией, что значительно выше текущих показателей.
В ближайшие годы прогнозируется стремительный рост инвестиций в эти направления, и только те организации, которые оперативно адаптируются к быстро меняющемуся технологическому ландшафту, смогут сохранить свои лидирующие позиции и оставаться конкурентоспособными на рынке.
#технологии
Forbes
Gartner’s 2025 Strategic Technology Trends Are Just Right
Every year Gartner releases its list of technology trends. This year (for 2025) the trends include AI, new computing frontiers and human computer synergy.