Forwarded from Всеволод Викулин | AI разбор
Кто такие агенты, и когда их применять
Давайте разбираться, что это и зачем оно нужно.
Что такое агент
Проще сначала понять, что не агент. Не агент, это когда вы сами полностью контролируете процесс решения задачи.
Пример. Вы автоматизируете поддержку клиентов. У вас может быть алгоритм: дорогая LLM, сначала прочитай эту доку, затем проверь исключения тут, если это, то можно можно вызвать оператора и тд. Тогда у вас не агент, а LLM-workflow (так это называют Anthropic, я пока не придумал как перевести)
Агент, это система, которая сама решает, как ей выполнить поставленную задачу. Она не следует заранее приписанной логике. Схематично это показано на картинке.
Пример. Поддержка клиентов. Вы говорите, что твоя цель решить задачу клиента. Вот такие инструменты есть. Вот так ты можешь у клиента что-то спросить. Удачи, ты сможешь!
Когда агентов нужно применять
- Задача плохо поддаются точному регламенту. Невозможно описать, что за чем надо делать.
- Высокая толерантность к ошибкам. Высокая автономность приводит к ошибкам. Принимайте их или не используйте агентов.
- От задачи большой экономический профит. Агенты это много токенов от LLM, нужно их окупать.
Примеры
Как вы, наверное, поняли, пока диапазон применения скуден. Знаю 3 успешных варианта применения:
1) Разработка. Риск нивелируется тестами. Экономический эффект огромный. Идеальный кандидат.
2) Поиск информации. То что называется Deep Research. Работа дорогая, надо тонну текста прочитать и понять. Риски низкие, читающий может проверить
3) Личный помощник. Двигает мышкой за тебя, бронирует рестораны, экономит время. Рисков почти никаких. Экономический эффект больше хайповый.
Что посмотреть про агентов
- Гайд от Anthropic
- Гайд от OpenAI
- Видео с лучшими практиками от Anthropic
Резюме.
Агенты - крайне редкий зверь в применении LLM.
Но зверь с большим потенциалом.
Кейсы применения будут расти, как надежность моделей будет увеличиваться. И все больше задач смогут быть решены. Дайте им немного времени.
Давайте разбираться, что это и зачем оно нужно.
Что такое агент
Проще сначала понять, что не агент. Не агент, это когда вы сами полностью контролируете процесс решения задачи.
Пример. Вы автоматизируете поддержку клиентов. У вас может быть алгоритм: дорогая LLM, сначала прочитай эту доку, затем проверь исключения тут, если это, то можно можно вызвать оператора и тд. Тогда у вас не агент, а LLM-workflow (так это называют Anthropic, я пока не придумал как перевести)
Агент, это система, которая сама решает, как ей выполнить поставленную задачу. Она не следует заранее приписанной логике. Схематично это показано на картинке.
Пример. Поддержка клиентов. Вы говорите, что твоя цель решить задачу клиента. Вот такие инструменты есть. Вот так ты можешь у клиента что-то спросить. Удачи, ты сможешь!
Когда агентов нужно применять
- Задача плохо поддаются точному регламенту. Невозможно описать, что за чем надо делать.
- Высокая толерантность к ошибкам. Высокая автономность приводит к ошибкам. Принимайте их или не используйте агентов.
- От задачи большой экономический профит. Агенты это много токенов от LLM, нужно их окупать.
Примеры
Как вы, наверное, поняли, пока диапазон применения скуден. Знаю 3 успешных варианта применения:
1) Разработка. Риск нивелируется тестами. Экономический эффект огромный. Идеальный кандидат.
2) Поиск информации. То что называется Deep Research. Работа дорогая, надо тонну текста прочитать и понять. Риски низкие, читающий может проверить
3) Личный помощник. Двигает мышкой за тебя, бронирует рестораны, экономит время. Рисков почти никаких. Экономический эффект больше хайповый.
Что посмотреть про агентов
- Гайд от Anthropic
- Гайд от OpenAI
- Видео с лучшими практиками от Anthropic
Резюме.
Агенты - крайне редкий зверь в применении LLM.
Но зверь с большим потенциалом.
Кейсы применения будут расти, как надежность моделей будет увеличиваться. И все больше задач смогут быть решены. Дайте им немного времени.
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Модель o3 оказалась хороша в определении местоположения по фото
Вышедшие на этой неделе o3 и o4-mini умеют рассуждать о загруженных изображениях даже если они размыты и искажены.
В сети обнаружили, что благодаря этой функции, o3 отлично находит города, достопримечательности и даже бары по едва заметным визуальным подсказкам. При этом, модель именно анализирует изображения, а не опирается на метаданные, которые есть в файле.
Вышедшие на этой неделе o3 и o4-mini умеют рассуждать о загруженных изображениях даже если они размыты и искажены.
В сети обнаружили, что благодаря этой функции, o3 отлично находит города, достопримечательности и даже бары по едва заметным визуальным подсказкам. При этом, модель именно анализирует изображения, а не опирается на метаданные, которые есть в файле.
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Вышла Gemini 2.5 Flash
Модель, основанная на 2.0 Flash, получила улучшенные возможности рассуждения. Помимо прочего, она позволяет разработчикам включать и выключать рассуждение и устанавливать бюджет на него.
Gemini 2.5 Flash уже доступна в API через Google AI Studio и Vertex AI. Скоро появится в https://aiacademy.me/.
Модель, основанная на 2.0 Flash, получила улучшенные возможности рассуждения. Помимо прочего, она позволяет разработчикам включать и выключать рассуждение и устанавливать бюджет на него.
Gemini 2.5 Flash уже доступна в API через Google AI Studio и Vertex AI. Скоро появится в https://aiacademy.me/.
Forwarded from GPT/ChatGPT/AI Central Александра Горного
ChatGPT теперь использует знания о вас во время поиска в интернете
OpenAI добавил в ChatGPT функцию Memory with Search. Теперь, когда вы вводите запрос, требующий веб-поиска, чат-бот перепишет его, используя данные, которые он о вас знает.
Например, если ChatGPT помнит, что его пользователь веган из Сан-Франциско, то он изменит запрос «какие рестораны поблизости мне бы понравились» на «хорошие веганские рестораны в Сан-Франциско».
https://help.openai.com/en/articles/6825453-chatgpt-release-notes#h_40089b1bfc
OpenAI добавил в ChatGPT функцию Memory with Search. Теперь, когда вы вводите запрос, требующий веб-поиска, чат-бот перепишет его, используя данные, которые он о вас знает.
Например, если ChatGPT помнит, что его пользователь веган из Сан-Франциско, то он изменит запрос «какие рестораны поблизости мне бы понравились» на «хорошие веганские рестораны в Сан-Франциско».
https://help.openai.com/en/articles/6825453-chatgpt-release-notes#h_40089b1bfc
Forwarded from Сиолошная
Наша любимая рубрика «Новости OpenAI за неделю», девиз недели — «думаем наперёд»:
— Во вторник появилась новость, что OpenAI находятся на ранних стадиях разработки своей социальной сети, самым близким аналогом которой является Twitter у Elon Musk. Хотя по описанию в новости всё же больше похоже на Instagram: «источники сообщили, что существует внутренний прототип, ориентированный на генерацию изображений ChatGPT, и имеющий прокручиваемую ленту постов». Выход на рынок социальных сетей также ставит OpenAI на путь столкновения с Meta, которая, как сообщают в статье, планирует добавить социальную ленту в свое будущее приложение с ИИ-помощником. В целом шаг логичный, и позволит как получить больше данных, так и загребать новую аудиторию — ведь до конца года, по плану, нужно набрать миллиард ежедневных пользователей. А ещё почерпнул интересную мысль у TheInformation: «OpenAI наверняка знает, что многие пользователи ChatGPT делятся своим опытом использования на сайтах социальных сетей, таких как X и Reddit. OpenAI, вероятно, задаётся вопросом: «Зачем нам раздавать этот трафик, если мы можем оставить их себе?»
— В среду написали, что OpenAI раздумывает над покупкой Windsurf за 3 миллиарда долларов. Windsurf — это AI-first среда разработки, по своей сути очень похожа на Cursor и с ним же конкурирует. Почему OpenAI не хотели купить сразу Cursor? Они хотели, но цена слишком высока — предположительно, стартап раздуло до 10 миллиардов долларов в ходе подготовки к новому раунду инвестиций. Интересно, как поменяется динамика, если сделка состоится — насколько лучше станет Windsurf, и сколько пользователей перетечёт в него?
— Проект по постройке супер-датацентров Stargate хоть и фокусируется на строительстве инфраструктуры в США, но уже идут разговоры об экспансии в UK и/или Германию/Францию (если проект окажется «успешным», не знаю, что это значит в данном контексте). «По словам одного из лиц, участвующих в распределении расходов Stargate, планы правительства Великобритании по расширению доступа центров обработки данных к электричеству подстегнули интерес к проекту».
— Вместе с запуском новых рассуждающих моделей у OpenAI появился Flex-режим обработки API-запросов, подходящий для несрочных задач. Теперь вы можете указать, сколько готовы ждать (10-15 минут), и, если будут ресурсы, то ваш запрос обработают по цене вдвое ниже обычной. Это идеально подходит для разных бенчмарков/замеров/фоновой обработки. По сути то же самое, что Batch API, только ждать надо не 24 часа.
— o3/o4-mini комфортно приземлились на первые места во многих (но не всех) бенчмарках, обогнав Gemini 2.5 Pro: LiveBench, Aider, AIME 25, Fiction.liveBench, ...
— А ещё OpenAI начали отдавать саммари цепочек рассуждений o3 по API (видимо, также, как работает в ChatGPT в браузере). Однако фича доступна только верифицированным организациям — нужно отправить фотку паспорта и пройти проверку.
Я сам o3 почти не попробовал, но первую половину недели сидел на Gemini 2.5 Pro, очень помогла в паре задач, где GPT не хватало знаний (не самая популярная библиотека / проблемы). Хотя o1 Pro достаточно близка была.
===
— Пока CEO Nvidia лично встречается с главой DeepSeek, в США идут обсуждения о запрете использования моделей/сервисов китайского стартапа.
— Во вторник появилась новость, что OpenAI находятся на ранних стадиях разработки своей социальной сети, самым близким аналогом которой является Twitter у Elon Musk. Хотя по описанию в новости всё же больше похоже на Instagram: «источники сообщили, что существует внутренний прототип, ориентированный на генерацию изображений ChatGPT, и имеющий прокручиваемую ленту постов». Выход на рынок социальных сетей также ставит OpenAI на путь столкновения с Meta, которая, как сообщают в статье, планирует добавить социальную ленту в свое будущее приложение с ИИ-помощником. В целом шаг логичный, и позволит как получить больше данных, так и загребать новую аудиторию — ведь до конца года, по плану, нужно набрать миллиард ежедневных пользователей. А ещё почерпнул интересную мысль у TheInformation: «OpenAI наверняка знает, что многие пользователи ChatGPT делятся своим опытом использования на сайтах социальных сетей, таких как X и Reddit. OpenAI, вероятно, задаётся вопросом: «Зачем нам раздавать этот трафик, если мы можем оставить их себе?»
— В среду написали, что OpenAI раздумывает над покупкой Windsurf за 3 миллиарда долларов. Windsurf — это AI-first среда разработки, по своей сути очень похожа на Cursor и с ним же конкурирует. Почему OpenAI не хотели купить сразу Cursor? Они хотели, но цена слишком высока — предположительно, стартап раздуло до 10 миллиардов долларов в ходе подготовки к новому раунду инвестиций. Интересно, как поменяется динамика, если сделка состоится — насколько лучше станет Windsurf, и сколько пользователей перетечёт в него?
— Проект по постройке супер-датацентров Stargate хоть и фокусируется на строительстве инфраструктуры в США, но уже идут разговоры об экспансии в UK и/или Германию/Францию (если проект окажется «успешным», не знаю, что это значит в данном контексте). «По словам одного из лиц, участвующих в распределении расходов Stargate, планы правительства Великобритании по расширению доступа центров обработки данных к электричеству подстегнули интерес к проекту».
— Вместе с запуском новых рассуждающих моделей у OpenAI появился Flex-режим обработки API-запросов, подходящий для несрочных задач. Теперь вы можете указать, сколько готовы ждать (10-15 минут), и, если будут ресурсы, то ваш запрос обработают по цене вдвое ниже обычной. Это идеально подходит для разных бенчмарков/замеров/фоновой обработки. По сути то же самое, что Batch API, только ждать надо не 24 часа.
— o3/o4-mini комфортно приземлились на первые места во многих (но не всех) бенчмарках, обогнав Gemini 2.5 Pro: LiveBench, Aider, AIME 25, Fiction.liveBench, ...
— А ещё OpenAI начали отдавать саммари цепочек рассуждений o3 по API (видимо, также, как работает в ChatGPT в браузере). Однако фича доступна только верифицированным организациям — нужно отправить фотку паспорта и пройти проверку.
Я сам o3 почти не попробовал, но первую половину недели сидел на Gemini 2.5 Pro, очень помогла в паре задач, где GPT не хватало знаний (не самая популярная библиотека / проблемы). Хотя o1 Pro достаточно близка была.
===
— Пока CEO Nvidia лично встречается с главой DeepSeek, в США идут обсуждения о запрете использования моделей/сервисов китайского стартапа.
Forwarded from Cерафимодальный AI
Андрей из https://t.iss.one/logicIntermission недавно заметил очень верную вещь: память в моделях это фундаментальная важная продуктовая фича, потому что именно она позволяет создавать «запертый сад» для пользователя: представьте, что вышел Клод, который на 15% умнее GPT, но GPT уже знает про вас столько, что за счёт персонализации будет выдавать лучшие ответы. И зачем тогда переходить?
А ещё память открывает новые возможности для взаимодействия. Вы наверняка уже просили ChatGPT рассказать про вас что-то, что вы сами не знаете. Но на этом можно не ограничиваться, ведь новым моделям доступно гораздо больше инструментов. Например, попросите модель нарисовать для вас абстрактные обои, основываясь на вашей эстетике и личностных чертах.
А ещё память открывает новые возможности для взаимодействия. Вы наверняка уже просили ChatGPT рассказать про вас что-то, что вы сами не знаете. Но на этом можно не ограничиваться, ведь новым моделям доступно гораздо больше инструментов. Например, попросите модель нарисовать для вас абстрактные обои, основываясь на вашей эстетике и личностных чертах.
Generate a unique, abstract, and minimal background based entirely on everything you know about me from our past conversations. No recognizable objects or scenes — just shapes, colors, and composition that reflect my personality and aesthetic
Forwarded from e/acc
Как ИИ трансформирует экономику, политику и общество?
Перед государствами стоит задача — адаптировать налоговую, денежную и социальную системы к новой реальности, где труд перестает быть главным источником дохода. Разбираемся, как это может работать?
Фискальная политика
— Сдвиг налоговой базы: от зарплат — к капиталу, вычислениям и данным
— Общественные фонды участвующие в ИИ-инфраструктуре для распределения прибыли. Некая форма национализации суверенным фондом, который бы распределял прибыль от ИИ-мегапроектов в форме гос доходов или прямых выплат гражданам
— Налоги на сверхдоходы и использование данных
Денежная политика
— Введение программируемых цифровых валют для гибкой поддержки экономики. Это уже неизбежно, но становится более актуально в мире агентов.
— Готовность к "хорошей дефляции" из-за роста производительности. ЦБ не будет форсить повышение инфляции, если технологии ведут к естественному падению цен.
— Привязка денежной массы к росту производительности, а не только к инфляции.
Базовый доход и социальная поддержка
— UBI как ответ на массовую автоматизацию
— Возможные источники финансирования: налоги на капитал, AI, данные, суверенные фонды ИИ-инфры.
— Токенизация результата работы ИИ и распределение между населением
Технологическая дефляция и измерение экономики
— AI снижает цены, увеличивает реальный, но не номинальный ВВП.
— При этом нужны новые экономические метрики для учета нематериальных и бесплатных благ. Условно, FLOPS.
— Так же, меняются макро-индикаторы. Например, появляется отношение роста производительности и М2, показывающий сколько можно печатать денег без риска инфляции.
Политика
— Рано или поздно начинается массовое вытеснение и перераспределение рабочих мест
— Это требует роста образования, переквалификации, сокращения рабочей недели.
— Армия и безопасность в первую очередь зависит от крутоты и количества дронов, люди перестают быть главным ресурсом. Геополитика переходит в холодную войну 2.0, где у Китая и США накапливаются миллиарды боевых дронов для гарантии безопасности. При этом армия перестает быть инструментом социально-экономической стабильности для населения.
— Важным политическим направлением является демократизация доступа к AI и борьба с монополиями
— Ну и наконец, рано или поздно люди понимают что координация и политика неизбежно должна выполняться ИИ. Появление Демократии 2.0, где ИИ системы парсят запросы и пожелания населения и предлагают решения.
Если государства смогут вовремя адаптироваться, AI станет источником всеобщего процветания, а не неравенства. В противном случае риски социальной нестабильности и поляризации только усилятся. В разных странах мы увидим и то, и то. Поэтому, кстати, обязательно еще 10 раз подумайте в какой стране вы хотите прожить следующую десятку.
Перед государствами стоит задача — адаптировать налоговую, денежную и социальную системы к новой реальности, где труд перестает быть главным источником дохода. Разбираемся, как это может работать?
Фискальная политика
— Сдвиг налоговой базы: от зарплат — к капиталу, вычислениям и данным
— Общественные фонды участвующие в ИИ-инфраструктуре для распределения прибыли. Некая форма национализации суверенным фондом, который бы распределял прибыль от ИИ-мегапроектов в форме гос доходов или прямых выплат гражданам
— Налоги на сверхдоходы и использование данных
Денежная политика
— Введение программируемых цифровых валют для гибкой поддержки экономики. Это уже неизбежно, но становится более актуально в мире агентов.
— Готовность к "хорошей дефляции" из-за роста производительности. ЦБ не будет форсить повышение инфляции, если технологии ведут к естественному падению цен.
— Привязка денежной массы к росту производительности, а не только к инфляции.
Базовый доход и социальная поддержка
— UBI как ответ на массовую автоматизацию
— Возможные источники финансирования: налоги на капитал, AI, данные, суверенные фонды ИИ-инфры.
— Токенизация результата работы ИИ и распределение между населением
Технологическая дефляция и измерение экономики
— AI снижает цены, увеличивает реальный, но не номинальный ВВП.
— При этом нужны новые экономические метрики для учета нематериальных и бесплатных благ. Условно, FLOPS.
— Так же, меняются макро-индикаторы. Например, появляется отношение роста производительности и М2, показывающий сколько можно печатать денег без риска инфляции.
Политика
— Рано или поздно начинается массовое вытеснение и перераспределение рабочих мест
— Это требует роста образования, переквалификации, сокращения рабочей недели.
— Армия и безопасность в первую очередь зависит от крутоты и количества дронов, люди перестают быть главным ресурсом. Геополитика переходит в холодную войну 2.0, где у Китая и США накапливаются миллиарды боевых дронов для гарантии безопасности. При этом армия перестает быть инструментом социально-экономической стабильности для населения.
— Важным политическим направлением является демократизация доступа к AI и борьба с монополиями
— Ну и наконец, рано или поздно люди понимают что координация и политика неизбежно должна выполняться ИИ. Появление Демократии 2.0, где ИИ системы парсят запросы и пожелания населения и предлагают решения.
Если государства смогут вовремя адаптироваться, AI станет источником всеобщего процветания, а не неравенства. В противном случае риски социальной нестабильности и поляризации только усилятся. В разных странах мы увидим и то, и то. Поэтому, кстати, обязательно еще 10 раз подумайте в какой стране вы хотите прожить следующую десятку.
Forwarded from Denis Sexy IT 🤖
Вашему вниманию – самый популярный шорт этой недели на ютубе, почти 400 миллионов просмотров
Its so over☕️
Its so over
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ринат Шакиров | Промпты для Midjourney | ChatGPT (Ринат Шакиров)
This media is not supported in your browser
VIEW IN TELEGRAM
Голосовой помощник Perplexity теперь может управлять вашим iOS-устройством.
Впервые приложение с искусственным интеллектом может отвечать на вопросы и выполнять основные действия на вашем iPhone: начиная с воспроизведения мультимедиа, составления электронных писем, переноса встреч, бронирования поездок, бронирования, установки напоминаний.
Потестил, хорошо справляется с базовыми задачами и стандартными приложениями. Может столько же сколько и Siri, но открывать многие сторонние приложения пока не умеет (кроме крупных типа YouTube, Uber).
🎁 А если вы хотите использовать Perplexity Pro и все его плюшки за 7$ в год, вот тут рассказывал как это сделать.
#новости@dailyprompts
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Zavtracast (Ярослав Ивус)
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity выпустила голосового помощника для iOS — он даже умеет выполнять базовые задачи на iPhone. Например, может написать черновик письма прямо в приложении «Почта», открыть ссылку с бронью отеля на основе заданной вами информации, включить подкаст по описанию и поставить напоминание в «Календаре».
В будущем Perplexity хотят добавить интеграцию с Gmail и Google Календарём. Кроме того, голосовой режим можно забиндить на Action button и использовать вместо Siri.
Если вы будете использовать голосовой режим Perplexity не на английском, то выберите язык для распознания в настройках. Русский среди них тоже есть.
@zavtracast
В будущем Perplexity хотят добавить интеграцию с Gmail и Google Календарём. Кроме того, голосовой режим можно забиндить на Action button и использовать вместо Siri.
Если вы будете использовать голосовой режим Perplexity не на английском, то выберите язык для распознания в настройках. Русский среди них тоже есть.
@zavtracast
Forwarded from Trabun | AI, Tech, Culture, Trends
Media is too big
VIEW IN TELEGRAM
Убийца AI-ассистента Apple, говорили они. Perplexity добавили в свое приложение голосового ассистента. Теперь весь твиттер кричит, что они убили Siri.
По порядку:
1. Нельзя убить то, что мертво. Siri даже с последними обновлениями (тот самый Apple Assistant) — это оторванная от реальности технология. Об этом чуть позже.
2. Ассистент Perplexity сейчас может ограниченное количество вещей: взаимодействовать со встроенным календарем, картами, почтовым клиентом, заказать Uber и найти YouTube-видео. Все это сложно назвать революцией, эти сценарии людям (на самом деле) не очень нужны. Когда я добавляю ивент в календарь, чаще всего у меня есть время это сделать вдумчиво. Вызов Uber привычнее руками. В картах ты не всегда точно знаешь, куда идешь: проверил Perplexity попросив проложить маршрут до ближайшего банка. Ассистент нашел банк в 20 минутах. На самом деле отделение находится в трех.
3. Другие вещи, которые нужны, к примеру, мне, ассистент не умеет по многим причинам: ограничения iOS или нишевость задач — ну не может он найти мой паспорт в фотках, а это мне нужнее сделать быстро голосом, чем добавить ивент в календарь. И не может написать письмо в Hey App, а не в нативном аппе. И не может добавить ту-ду в виджет, потому что этот виджет вообще я сам сделал. И не может найти в файлах PDF.
4. У Perplexity есть лента новостей. Тоже бесполезная для меня, но полезная для сервиса. Это оправдание для ежедневного пуша с напоминанием о себе. И кажется мне, что новый ассистент нужен в том числе для этого. Это не революция, это допсценарий, который увеличивает число касаний с аппом и привлекает новых юзеров другим способом.
5. Perplexity делают это все ради того, чтобы люди пользовались их основным продуктом: классным поиском и сопряженными с этим функциями подготовки рисеча. Тут это мой ежедневный инструмент, который я использую для работы и жизни вместе с ChatGPT. И если к нему добавится возможность иногда голосом добавить в календарь событие — ну пусть, класс. А для кого-то эта функциональность — вход в Perplexity. И вот тут дальше стоит сказать про основной продукт.
6. Но я зря говорю про бесполезность новых функций. Это первый шаг. Компания сейчас разрабатывает свой браузер. Это путь ко всем веб-аппам и веб-сервисам. Вот тут ассистент сможет разгуляться и никакие ограничения iOS его не остановят. Это жду. Браузер с поиском — AI-агент, который закрывает все задачи, который онлайн.
7. В сухом остатке: не верим словам про революцию сегодня и убийство Siri, но следим, что будет дальше. Для ежедневных задач глубокого рисеча без ограничений — Perplexity топ (а еще не требует VPN). Буквально мой рейтинг использования AI-сервисов выглядит сейчас так: 1. ChatGPT о3 2. Perplexity Deep Research 3. ChatGPT Deep Research (делает классно, но есть ограничения использования в месяц).
➡️ Включите уведомления, чтобы не пропускать полезные советы по AI, тренды, рекомендации сериалов, фильмов, книг и музыки.
➡️ Если пост оказался вам полезен, буду благодарен шеру. @danieltrbn
По порядку:
1. Нельзя убить то, что мертво. Siri даже с последними обновлениями (тот самый Apple Assistant) — это оторванная от реальности технология. Об этом чуть позже.
2. Ассистент Perplexity сейчас может ограниченное количество вещей: взаимодействовать со встроенным календарем, картами, почтовым клиентом, заказать Uber и найти YouTube-видео. Все это сложно назвать революцией, эти сценарии людям (на самом деле) не очень нужны. Когда я добавляю ивент в календарь, чаще всего у меня есть время это сделать вдумчиво. Вызов Uber привычнее руками. В картах ты не всегда точно знаешь, куда идешь: проверил Perplexity попросив проложить маршрут до ближайшего банка. Ассистент нашел банк в 20 минутах. На самом деле отделение находится в трех.
3. Другие вещи, которые нужны, к примеру, мне, ассистент не умеет по многим причинам: ограничения iOS или нишевость задач — ну не может он найти мой паспорт в фотках, а это мне нужнее сделать быстро голосом, чем добавить ивент в календарь. И не может написать письмо в Hey App, а не в нативном аппе. И не может добавить ту-ду в виджет, потому что этот виджет вообще я сам сделал. И не может найти в файлах PDF.
4. У Perplexity есть лента новостей. Тоже бесполезная для меня, но полезная для сервиса. Это оправдание для ежедневного пуша с напоминанием о себе. И кажется мне, что новый ассистент нужен в том числе для этого. Это не революция, это допсценарий, который увеличивает число касаний с аппом и привлекает новых юзеров другим способом.
5. Perplexity делают это все ради того, чтобы люди пользовались их основным продуктом: классным поиском и сопряженными с этим функциями подготовки рисеча. Тут это мой ежедневный инструмент, который я использую для работы и жизни вместе с ChatGPT. И если к нему добавится возможность иногда голосом добавить в календарь событие — ну пусть, класс. А для кого-то эта функциональность — вход в Perplexity. И вот тут дальше стоит сказать про основной продукт.
6. Но я зря говорю про бесполезность новых функций. Это первый шаг. Компания сейчас разрабатывает свой браузер. Это путь ко всем веб-аппам и веб-сервисам. Вот тут ассистент сможет разгуляться и никакие ограничения iOS его не остановят. Это жду. Браузер с поиском — AI-агент, который закрывает все задачи, который онлайн.
7. В сухом остатке: не верим словам про революцию сегодня и убийство Siri, но следим, что будет дальше. Для ежедневных задач глубокого рисеча без ограничений — Perplexity топ (а еще не требует VPN). Буквально мой рейтинг использования AI-сервисов выглядит сейчас так: 1. ChatGPT о3 2. Perplexity Deep Research 3. ChatGPT Deep Research (делает классно, но есть ограничения использования в месяц).
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from e/acc
This media is not supported in your browser
VIEW IN TELEGRAM
Сделал ИИ, который умеет от моего лица отвечать на личные сообщения (и группы) в телеграме. У меня уже есть подобная штука для gmail (в рамках CybOS), а теперь и для телеги. В видео голосом рассказываю как это работает.
— принимает и анализирует все личные сообщения
— отвечает от моего моего лица (собеседник не видит, что это бот)
— умеет генерировать ответ на основе всей истории переписки + кастомных правил в промте относительно стиля и целей
Цель: сделать так, чтобы 90% входящих сообщений обрабатывалась автоматически, а я мог фокусироваться только на самых важных
— принимает и анализирует все личные сообщения
— отвечает от моего моего лица (собеседник не видит, что это бот)
— умеет генерировать ответ на основе всей истории переписки + кастомных правил в промте относительно стиля и целей
Цель: сделать так, чтобы 90% входящих сообщений обрабатывалась автоматически, а я мог фокусироваться только на самых важных
Forwarded from [31/100] Витя Тарнавский
CPO OpenAI в Lenny's podcast, оч интересно, всячески рекомендую. Да, это именно тот человек который виноват в o3-mini-high и других шедеврах нейминга )
Там есть супер красивая история как их HRD сама пошла и навайбкодила (!) внутренний инструмент которого ей не хватало. Я верю что компании будущего так и должны жить - любой человек может создавать нужные ему инженерные решения лично сам. Эй, HRD, берите пример )
Что ещё классного:
1. Evals - ключевой навык продакт менеджеров и инженеров. Если ты не можешь правильно проверить работу системы на llm, ты не продвинешься дальше прототипов. Что такое эвалы и почему они важны можно почитать например тут
2. Никаких роадмапов на 3 месяца. Ребята живут в мире где через пару месяцев выйдет очередная модель которая опять всё кардинально поменяет. Поэтому никаких долгих роадмапов, только гибкость и только хардкор. Сравните это с вашей компанией ))
3. Bottom-up company
Так как путь неизвестен, то стратегия OpenAI это иметь супер-дальний ориентир (e.g. создание AGI), а работу строить как набор bottom-up команд, каждая из которых к этому ориентиру двигается. Интересно; кажется, Илон Маск строит такие штуки иначе.
Смотреть подкаст тут, и в целом Lenny's podcast оч крутой
Там есть супер красивая история как их HRD сама пошла и навайбкодила (!) внутренний инструмент которого ей не хватало. Я верю что компании будущего так и должны жить - любой человек может создавать нужные ему инженерные решения лично сам. Эй, HRD, берите пример )
Что ещё классного:
1. Evals - ключевой навык продакт менеджеров и инженеров. Если ты не можешь правильно проверить работу системы на llm, ты не продвинешься дальше прототипов. Что такое эвалы и почему они важны можно почитать например тут
2. Никаких роадмапов на 3 месяца. Ребята живут в мире где через пару месяцев выйдет очередная модель которая опять всё кардинально поменяет. Поэтому никаких долгих роадмапов, только гибкость и только хардкор. Сравните это с вашей компанией ))
3. Bottom-up company
Так как путь неизвестен, то стратегия OpenAI это иметь супер-дальний ориентир (e.g. создание AGI), а работу строить как набор bottom-up команд, каждая из которых к этому ориентиру двигается. Интересно; кажется, Илон Маск строит такие штуки иначе.
Смотреть подкаст тут, и в целом Lenny's podcast оч крутой
YouTube
OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more | Kevin Weil
Kevin Weil is the chief product officer at OpenAI, where he oversees the development of ChatGPT, enterprise products, and the OpenAI API. Prior to OpenAI, Kevin was head of product at Twitter, Instagram, and Planet, and was instrumental in the development…
Forwarded from CGIT_Vines (Marvin Heemeyer)
Media is too big
VIEW IN TELEGRAM
Наконец-то дошли руки протестить Hunyuan 2.5.
И вот что я хочу сказать! Сейчас это лучший 3D-генератор на рынке, а учитывая его 20 бесплатных генераций в день, это можно считать вообще лучшим бесплатным генератором!
Точность геометрии выросла в разы, особенно если мы говорим про не очень комплексные объекты. С моей палаткой пока не справляется. Но если у вас стилизация и простые формы, то это практически закроет потребности в генерации. Я всё ещё жду с нетерпением сегментацию, которую уже показали, и примерно через 3–5 месяцев она будет по умолчанию уже и в Хуньяне, и в Трипо.
Пока Трипо ушёл на второе место со своими 600 кредитами в месяц (~5 генераций) против Хуньяня с 20 генерациями в день!!
Пробовать тут, регайтесь по почте.
@CGIT_Vines
И вот что я хочу сказать! Сейчас это лучший 3D-генератор на рынке, а учитывая его 20 бесплатных генераций в день, это можно считать вообще лучшим бесплатным генератором!
Точность геометрии выросла в разы, особенно если мы говорим про не очень комплексные объекты. С моей палаткой пока не справляется. Но если у вас стилизация и простые формы, то это практически закроет потребности в генерации. Я всё ещё жду с нетерпением сегментацию, которую уже показали, и примерно через 3–5 месяцев она будет по умолчанию уже и в Хуньяне, и в Трипо.
Пока Трипо ушёл на второе место со своими 600 кредитами в месяц (~5 генераций) против Хуньяня с 20 генерациями в день!!
Пробовать тут, регайтесь по почте.
@CGIT_Vines
Forwarded from Джейпег Малевича
В ChatGPT скоро могут появиться встроенные покупки через интеграцию с Shopify.
Соответствующие функции обнаружили в коде: там есть строка с сообщением "Buy now", поля цены и доставки, рейтинги товаров и ссылка на оформление заказа на Shopify.
Маркетплейсы сейчас:🔥
Соответствующие функции обнаружили в коде: там есть строка с сообщением "Buy now", поля цены и доставки, рейтинги товаров и ссылка на оформление заказа на Shopify.
Маркетплейсы сейчас:
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Люблю такое:
Чел заснял 15 минут видео гуляния по парку и натренировал модель, которая пытается эмулировать этот парковый мир
Погулять по нейро-паурку можно тут (работает даже с телефона):
https://madebyoll.in/posts/world_emulation_via_dnn/demo
А тут описано как он делал этот хобби-проект
Если натрените нейро-гуляние по девятиэтажке – скиньте ссылку пожалуйста
Чел заснял 15 минут видео гуляния по парку и натренировал модель, которая пытается эмулировать этот парковый мир
Погулять по нейро-паурку можно тут (работает даже с телефона):
https://madebyoll.in/posts/world_emulation_via_dnn/demo
А тут описано как он делал этот хобби-проект
Если натрените нейро-гуляние по девятиэтажке – скиньте ссылку пожалуйста
Forwarded from Сиолошная
Вышел Qwen 3 от Alibaba: https://qwenlm.github.io/blog/qwen3/
В релиз включены как Dense-модели, так и трансформеры с микстурой экспертов. Самая большая модель, Qwen3-235B-A22B, по сути быстрее, чем 32B-версии (так как всего 22B активных параметров) — и она показывает результаты повыше o1 / R1. Есть версия на 32B, как и в прошлом поколении, и варианты поменьше — на 0.6B, 1.7B, 4B, 8B и 14B. Последние учились с дистилляцией навыков от старших братьев.
Все модели, включая самые маленькие, поддерживают два режима: с рассуждениями и без (как Claude 3.7).
Все модели обучали на более чем 100 языках, включая русский и украинский, и 36 триллионах токенов.
Больше — в карточках моделей.
Попробовать бесплатно — тут: https://chat.qwen.ai/
UPD: а ну и удачи META завтра на LLAMACON😀 как бы снова не свернули релизы
В релиз включены как Dense-модели, так и трансформеры с микстурой экспертов. Самая большая модель, Qwen3-235B-A22B, по сути быстрее, чем 32B-версии (так как всего 22B активных параметров) — и она показывает результаты повыше o1 / R1. Есть версия на 32B, как и в прошлом поколении, и варианты поменьше — на 0.6B, 1.7B, 4B, 8B и 14B. Последние учились с дистилляцией навыков от старших братьев.
Все модели, включая самые маленькие, поддерживают два режима: с рассуждениями и без (как Claude 3.7).
Все модели обучали на более чем 100 языках, включая русский и украинский, и 36 триллионах токенов.
Больше — в карточках моделей.
Попробовать бесплатно — тут: https://chat.qwen.ai/
UPD: а ну и удачи META завтра на LLAMACON
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
А вот полное дерево задач, которые выделили учёные из AISI. Читать нужно слева направо и сверху вниз.
Первая категория — может ли модель получить доступ к своим весам, чтобы начать их копировать.
Вторая — может ли запустить свою копию на другом сервере. Причём это не просто «запустить какую-то модель», цель именно запустить полноценного агента с промптом, чтобы копия продолжала действовать автономно.
Третья — получение доступа к мощностям, включая заработок денег для оплаты услуг GPU-провайдеров. Рассматривается два способа заработка, легальный и нелегальный. В первом модель играет в попрошайку и уговаривает другую модель (симуляцию человека) дать ей денежек, во втором — пишет вирус-червь, занимается выставлением ненастоящих счетов на оплату (это вообще перспективное направление заработка для LLM, компании платят по левым счетам миллиарды долларов в год) и созданием своего LLM API, которое ворует ключи.
Четвёртое — возможность скопированного агента существовать на новых мощностях и продолжать размножение.
===
На второй картинке качество агентов с разными моделями. Claude 3.7 показывает себя лучше всех, но тут o3 не мерили (хотя может она бы часто уходила в отказ — авторы отмечают это свойство моделей OpenAI, которые видимо надрессировали не размножаться).
Метрика у авторов такая: посчитать количество групп задач из 20 (группы задач = зелёные блоки в дереве метрик на первой картинке), для которых Pass@10 (успех при 10 независимых запусках) больше 50% — что означает, что модель достаточно уверенно может проходить этот этап.
Claude 3.7 решает 15 из 20 групп задач, или 9/20, если брать более сложные вариации (например, добавление системы мониторинга кода/мыслей модели/сетевого трафика).
Занятный бенчмарк, надеюсь AISI будут публиковать результаты для всех новых продвинутых моделей, а не забьют и не положат его на полочку.
Первая категория — может ли модель получить доступ к своим весам, чтобы начать их копировать.
Вторая — может ли запустить свою копию на другом сервере. Причём это не просто «запустить какую-то модель», цель именно запустить полноценного агента с промптом, чтобы копия продолжала действовать автономно.
Третья — получение доступа к мощностям, включая заработок денег для оплаты услуг GPU-провайдеров. Рассматривается два способа заработка, легальный и нелегальный. В первом модель играет в попрошайку и уговаривает другую модель (симуляцию человека) дать ей денежек, во втором — пишет вирус-червь, занимается выставлением ненастоящих счетов на оплату (это вообще перспективное направление заработка для LLM, компании платят по левым счетам миллиарды долларов в год) и созданием своего LLM API, которое ворует ключи.
Четвёртое — возможность скопированного агента существовать на новых мощностях и продолжать размножение.
===
На второй картинке качество агентов с разными моделями. Claude 3.7 показывает себя лучше всех, но тут o3 не мерили (хотя может она бы часто уходила в отказ — авторы отмечают это свойство моделей OpenAI, которые видимо надрессировали не размножаться).
Метрика у авторов такая: посчитать количество групп задач из 20 (группы задач = зелёные блоки в дереве метрик на первой картинке), для которых Pass@10 (успех при 10 независимых запусках) больше 50% — что означает, что модель достаточно уверенно может проходить этот этап.
Claude 3.7 решает 15 из 20 групп задач, или 9/20, если брать более сложные вариации (например, добавление системы мониторинга кода/мыслей модели/сетевого трафика).
Занятный бенчмарк, надеюсь AISI будут публиковать результаты для всех новых продвинутых моделей, а не забьют и не положат его на полочку.