Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.
Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.
Среди всего, что есть, я чаще смотрю именно их:
LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.
EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.
Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.
LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.
SWE-Bench — для программистов.
Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.
OpenRouter — удобно смотреть, что популярно и что используют.
Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.
@tips_ai #tools
Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.
Среди всего, что есть, я чаще смотрю именно их:
LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.
EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.
Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.
LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.
SWE-Bench — для программистов.
Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.
OpenRouter — удобно смотреть, что популярно и что используют.
Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.
@tips_ai #tools
👍22❤7🔥4🫡1
Я редко делюсь промптами в канал — не вижу в этом смысла.
Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом.
Хотя, мой пост набрал 862 репоста, а может стоит продолжать…
Самый простой способ — это создать свой своего личного промпт-инженера в Custom GPT и прикрутите к нему официальный гайд по промптам или возьмите готовые GPTs
Практически все, кто выпускает новые модели, делятся руководствами.
Например, у GPT-5 есть целый мануал на сайте OpenAI Cookbooks. Или у Google руководство по NanoBanano.
Загляните еще в prompts.chat — это первый и известный справочник промптов с 135к звезд на GitHub. Еще на этот сайт, захожу иногда.
Я перестал копить золотую коллекцию промптов, чаще всего сам наговариваю, но если нужно выкладывать в канал, дайте знать.
@tips_ai #prompt
Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом.
Хотя, мой пост набрал 862 репоста, а может стоит продолжать…
Самый простой способ — это создать свой своего личного промпт-инженера в Custom GPT и прикрутите к нему официальный гайд по промптам или возьмите готовые GPTs
Практически все, кто выпускает новые модели, делятся руководствами.
Например, у GPT-5 есть целый мануал на сайте OpenAI Cookbooks. Или у Google руководство по NanoBanano.
Загляните еще в prompts.chat — это первый и известный справочник промптов с 135к звезд на GitHub. Еще на этот сайт, захожу иногда.
Я перестал копить золотую коллекцию промптов, чаще всего сам наговариваю, но если нужно выкладывать в канал, дайте знать.
@tips_ai #prompt
1👍50🔥16❤9🤡4🗿2😢1
This media is not supported in your browser
VIEW IN TELEGRAM
У Perplexity вышел браузер Comet для всех пользователей
Кто постеснялся встать в очередь на передачу инвайтов или еще не получил инвайт, то сейчас можете скачать по ссылке.
Но без подписки Perplexity делать нечего, я активировал её на год тут.
@tips_ai #news
Кто постеснялся встать в очередь на передачу инвайтов или еще не получил инвайт, то сейчас можете скачать по ссылке.
Но без подписки Perplexity делать нечего, я активировал её на год тут.
@tips_ai #news
👍17🔥7🗿4❤2
Куда стартапы сливают деньги на AI
Прочитал вчера статью от a16z (у них работа изучать стартапы) вместе с Mercury (банковские услуги стартапам) посмотрели, какие AI-сервисы за лето больше всего заработали на стартапах.
Я к таким топам отношусь скептически, данные пусть и от 200к стартапов, но все они клиенты Mercury.
26 место cluely?
🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨
• Ассистенты, тулзы для встреч, креативные штуки обогнали узкоспециализированные: 60% vs 40%. В топе сразу 6 сервисов для митингов, например Fyxer, Happyscribe, Plaud, Otter AI, Read AI, Cluely.
• Вайбкод: Replit на третьем месте после OpenAI и Anthropic, ниже Cursor, Lovable и какой-то Emergent.
• Есть сервисы Crosby, Cognition, 11x: берут на себя работу юристов, сейлзов и рекрутеров.
• По трафику Lovable обгоняет Replit, а по тратам наоборот: Replit в топ-3, Lovable на 18-м месте.
Больше денег уходит на креативные инструменты: Freepik, ElevenLabs, Canva, Photoroom, Midjourney, Descript, Opus Clip, Capcut, Arcad, Tavus.
Маркетинговые тулзы используют не только маркетологи, а вайбкодинг не только разработчики.
Очень интересно, какие у вас инструменты в топе?
@tips_ai #news
Прочитал вчера статью от a16z (у них работа изучать стартапы) вместе с Mercury (банковские услуги стартапам) посмотрели, какие AI-сервисы за лето больше всего заработали на стартапах.
Я к таким топам отношусь скептически, данные пусть и от 200к стартапов, но все они клиенты Mercury.
26 место cluely?
• Ассистенты, тулзы для встреч, креативные штуки обогнали узкоспециализированные: 60% vs 40%. В топе сразу 6 сервисов для митингов, например Fyxer, Happyscribe, Plaud, Otter AI, Read AI, Cluely.
• Вайбкод: Replit на третьем месте после OpenAI и Anthropic, ниже Cursor, Lovable и какой-то Emergent.
• Есть сервисы Crosby, Cognition, 11x: берут на себя работу юристов, сейлзов и рекрутеров.
• По трафику Lovable обгоняет Replit, а по тратам наоборот: Replit в топ-3, Lovable на 18-м месте.
Больше денег уходит на креативные инструменты: Freepik, ElevenLabs, Canva, Photoroom, Midjourney, Descript, Opus Clip, Capcut, Arcad, Tavus.
Маркетинговые тулзы используют не только маркетологи, а вайбкодинг не только разработчики.
Очень интересно, какие у вас инструменты в топе?
@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤11🔥11
Tips AI | IT & AI
Решил скачать TikTok и посмотреть, что с ним стало после выхода Sora 2
{кот крадет рыбу}
> Больше 200 млн просмотров
> Стертый водяной знак,
например с помощью этого сервиса
Удалил Тикток😊
@tips_ai #generated
{кот крадет рыбу}
> Больше 200 млн просмотров
> Стертый водяной знак,
например с помощью этого сервиса
Удалил Тикток
@tips_ai #generated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁47👍9🔥7🤡2❤1
OpenAI представил свой конструктор агентов
Agent Builder — инструмент, который позволит собирать своих AI-агентов и рабочие процессы без кода.
Можно не мучиться с API, а просто накидывать блоки на канве: логика, ветвления, запросы, файлы, guardrails — всё как в n8n или Zapier, только внутри OpenAI.
Интерфейс drag-and-drop, уже есть готовые шаблоны:
• боты поддержки
• Q&A-помощники
• обработка данных
• сравнение документов
Есть логика (if-else, циклы), коннекторы MCP, шаги с одобрением, guardrails, поиск по файлам, трансформация данных.
В основе OpenAI Agents SDK. Он управляет тем, как агент вызывает инструменты, получает ответы и двигается по шагам.
Плюс встроенная наблюдаемость: можно видеть, что агент делает в реальном времени и где он залип.
Всё происходит в отдельном UI прямо в OpenAI с панелью компонентов, предпросмотром, тестами и публикацией.
Собрал флоу > протестировал > запустил.
Можно строить [тут]
@tips_ai #news
Agent Builder — инструмент, который позволит собирать своих AI-агентов и рабочие процессы без кода.
Можно не мучиться с API, а просто накидывать блоки на канве: логика, ветвления, запросы, файлы, guardrails — всё как в n8n или Zapier, только внутри OpenAI.
Интерфейс drag-and-drop, уже есть готовые шаблоны:
• боты поддержки
• Q&A-помощники
• обработка данных
• сравнение документов
Есть логика (if-else, циклы), коннекторы MCP, шаги с одобрением, guardrails, поиск по файлам, трансформация данных.
В основе OpenAI Agents SDK. Он управляет тем, как агент вызывает инструменты, получает ответы и двигается по шагам.
Плюс встроенная наблюдаемость: можно видеть, что агент делает в реальном времени и где он залип.
Всё происходит в отдельном UI прямо в OpenAI с панелью компонентов, предпросмотром, тестами и публикацией.
Собрал флоу > протестировал > запустил.
Можно строить [тут]
@tips_ai #news
🔥22👍15❤9
>Использование компьютера
>Поддерживается только использование браузера🤔
Ночью, ожидая gemini 3
↳ Google показали новую модель Gemini 2.5 Computer Use.
По результатам тестов обгоняет агентские режимы от OpenAI, Claude Sonnet 4 и 4.5.
Неплохо понимает интерфейсы веб-сайтов. Ей можно поручить заполнение форм, перенос данных между сервисами и авторизацию.
В системном промпте можно настроить какие действия подтверждать, а какие нет.
Попробуйте демо-версию на Browserbase (о котором писал тут) Или через API в Gemini API и Vertex AI.
@tips_ai #news
>Поддерживается только использование браузера
Ночью, ожидая gemini 3
↳ Google показали новую модель Gemini 2.5 Computer Use.
По результатам тестов обгоняет агентские режимы от OpenAI, Claude Sonnet 4 и 4.5.
Неплохо понимает интерфейсы веб-сайтов. Ей можно поручить заполнение форм, перенос данных между сервисами и авторизацию.
В системном промпте можно настроить какие действия подтверждать, а какие нет.
Попробуйте демо-версию на Browserbase (о котором писал тут) Или через API в Gemini API и Vertex AI.
@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍10❤1
Tips AI | IT & AI
Я редко делюсь промптами в канал — не вижу в этом смысла. Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом. Хотя, мой пост набрал 862 репоста, а может стоит продолжать… Самый простой способ — это создать свой…
В продолжении этого [поста]
От OpenAI вышел гайд по написанию промптов к Sora 2
Структура такая:
@tips_ai #prompt
От OpenAI вышел гайд по написанию промптов к Sora 2
Структура такая:
[Описание сцены простым языком: персонажей, костюмы, декорации, погоду и другие детали. Будьте максимально описательны, чтобы создать видео, соответствующее вашему замыслу.]
Cinematography:
Camera shot: [композиция и угол съёмки, например: общий план, съёмка с уровня глаз]
Mood: [общий тон, например: кинематографично и напряжённо, игриво и с интригой, роскошное ожидание]
Actions:
• [Действие 1: чёткое, конкретное движение или жест]
• [Действие 2: ещё одно заметное действие в сцене]
• [Действие 3: ещё одно действие или реплика]
Dialogue:
[Если в кадре есть диалог, добавьте короткие естественные фразы здесь или в списке действий. Делайте их лаконичными, чтобы они соответствовали длительности сцены.]
@tips_ai #prompt
👍23🔥8❤6
Figure 03 — вышел новый гуманоид для дома, офиса и вообще куда угодно.
Его рост 167см, вес 60 кг, может работать 5 часов на одной зарядке и поднимать до 20 кг.
Батарея заряжается беспроводным способом через катушки в ступнях: встаёт на коврик и получает 2 кВт энергии.
Во главе всего — Helix, ИИ для зрения, языка и действий.
Робот учится так же, как мы, наблюдая и слушая. Камеры стали вдвое быстрее, с меньшей задержкой и на 60% шире угол обзора.
Каждый палец снабжён сенсорами, которые чувствуют до 3 граммов. А камеры на ладонях видят, даже если основной взгляд закрыт.
Корпус теперь не голый металл: обёрнут в мягкий текстиль с пеной под ним. Стирается, меняется без инструментов.
Мне понравилось как он выглядит, про цену такого робота, я не нашел.
Сначала будут выпускать 12 000 роботов в год, а через 4 года 100 000 штук.
Будущее ближе, чем кажется…
@tips_ai #news
Его рост 167см, вес 60 кг, может работать 5 часов на одной зарядке и поднимать до 20 кг.
Батарея заряжается беспроводным способом через катушки в ступнях: встаёт на коврик и получает 2 кВт энергии.
Во главе всего — Helix, ИИ для зрения, языка и действий.
Робот учится так же, как мы, наблюдая и слушая. Камеры стали вдвое быстрее, с меньшей задержкой и на 60% шире угол обзора.
Каждый палец снабжён сенсорами, которые чувствуют до 3 граммов. А камеры на ладонях видят, даже если основной взгляд закрыт.
Корпус теперь не голый металл: обёрнут в мягкий текстиль с пеной под ним. Стирается, меняется без инструментов.
Мне понравилось как он выглядит, про цену такого робота, я не нашел.
Сначала будут выпускать 12 000 роботов в год, а через 4 года 100 000 штук.
Будущее ближе, чем кажется…
@tips_ai #news
👍27🔥15❤10🤣2
Антропики запустили плагины для Claude Code
Плагины дают устанавливать и обмениваться коллекциями слэш-команд, агентов, MCP-серверов.
Я сразу же добавил готовые плагины с этого репозитория по команде:
Но с первого раза не выйдет, потому что Claude, оказывается, сначала нужно понять, что такое плагин — пусть посмотрит их [тут].
@tips_ai #news
Плагины дают устанавливать и обмениваться коллекциями слэш-команд, агентов, MCP-серверов.
Я сразу же добавил готовые плагины с этого репозитория по команде:
/plugin marketplace add https://github.com/anthropics/claude-codeНо с первого раза не выйдет, потому что Claude, оказывается, сначала нужно понять, что такое плагин — пусть посмотрит их [тут].
@tips_ai #news
👍19❤9🔥5🤡2
Forwarded from Мысли вслух
Может ли LLM притвориться покупателем?
Новости о предсказаниях реакций на маркетинговые компании по мотивам Sydney Sweeney и джинс American Eagle вдохновляют исследователей использовать LLM вместо фокус групп.
PyMC Labs попросили LLM «притворяться» покупателем с определённым демографическим профилем, показали ей продукт и попросили поделиться впечатлением, которое потом оценивает другая модель.
Они проверили, может ли языковая модель предсказать, купит ли человек продукт. Без обучения, без данных продаж, просто на основе описания товара и роли, которую она играет.
Модель получает анкету: пол, возраст, доход, место жительства. Ей показывают карточку продукта, например, шампунь.
Просили ответить, как обычный человек: что думаешь, купишь ли, почему да или нет.
Потом другой ИИ переводит этот текст в оценку по шкале от «точно не куплю» до «скорее всего да».
Результат совпал с реальными опросами людей на 90%. Без fine-tuning.
Метод назвали semantic similarity rating - смысловое сопоставление, насколько ответ похож по смыслу на реальные человеческие формулировки: «вряд ли куплю» или «очень хочу попробовать».
Самое интересное - тексты этих виртуальных покупателей оказались глубже человеческих и более четко объясняют: что смущает, что нравится, чего боятся. Модель не просто рассчитывает вероятность, она воспроизводит сам процесс человеческого размышления.
По итогам для простых предсказаний можно использовать детальный промпт по мотивам исследования и не учить модели на больших объёмах. Точно стоит попробовать использовать для анализа маркетинговых гипотез.
@maxvotek | linkedin | substack
Новости о предсказаниях реакций на маркетинговые компании по мотивам Sydney Sweeney и джинс American Eagle вдохновляют исследователей использовать LLM вместо фокус групп.
PyMC Labs попросили LLM «притворяться» покупателем с определённым демографическим профилем, показали ей продукт и попросили поделиться впечатлением, которое потом оценивает другая модель.
Они проверили, может ли языковая модель предсказать, купит ли человек продукт. Без обучения, без данных продаж, просто на основе описания товара и роли, которую она играет.
Модель получает анкету: пол, возраст, доход, место жительства. Ей показывают карточку продукта, например, шампунь.
Просили ответить, как обычный человек: что думаешь, купишь ли, почему да или нет.
Потом другой ИИ переводит этот текст в оценку по шкале от «точно не куплю» до «скорее всего да».
Результат совпал с реальными опросами людей на 90%. Без fine-tuning.
Метод назвали semantic similarity rating - смысловое сопоставление, насколько ответ похож по смыслу на реальные человеческие формулировки: «вряд ли куплю» или «очень хочу попробовать».
Самое интересное - тексты этих виртуальных покупателей оказались глубже человеческих и более четко объясняют: что смущает, что нравится, чего боятся. Модель не просто рассчитывает вероятность, она воспроизводит сам процесс человеческого размышления.
По итогам для простых предсказаний можно использовать детальный промпт по мотивам исследования и не учить модели на больших объёмах. Точно стоит попробовать использовать для анализа маркетинговых гипотез.
@maxvotek | linkedin | substack
🔥31👍8❤5🗿1
Искал статью, которую читал давно.
Поиск в истории Chrome не очень хорошо работает. Приходится всегда скролить вручную.
Нашёл в магазине расширений: Better History.
Там есть календарь и нормальный поиск. Нашел статью, теперь пишу пост.
Плагин бесплатный, попробуйте.
@tips_ai #tools
Поиск в истории Chrome не очень хорошо работает. Приходится всегда скролить вручную.
Нашёл в магазине расширений: Better History.
Там есть календарь и нормальный поиск. Нашел статью, теперь пишу пост.
Плагин бесплатный, попробуйте.
@tips_ai #tools
👍29❤9🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Прошла неделя с выхода конструктора агентов от OpenAI.
В первый день все писали, что это новый убийца N8N.
Я попробовал, он пока сырой, но кто знает, ведь codex в начале тоже был не очень.
Сегодня n8n показывает AI Workflow Builder (Beta)
n8n собирает черновой вариант флоу с помощью чата с AI: добавлять ноды, связывать шаги и не нужно писать код.
Дальше можно исправить или доработать вручную.
Работает пока только в облаке. Для self-hosted пока решения нет.
Кредиты зависят от плана:
• Trial — 20
• Starter — 50
• Pro — 150
Каждое обращение к ИИ тратит один кредит, что-то прям очень мало.
В общем фичу от n8n точно стоит попробовать, ведь это больше их специфика.
@tips_ai #news
В первый день все писали, что это новый убийца N8N.
Я попробовал, он пока сырой, но кто знает, ведь codex в начале тоже был не очень.
Сегодня n8n показывает AI Workflow Builder (Beta)
n8n собирает черновой вариант флоу с помощью чата с AI: добавлять ноды, связывать шаги и не нужно писать код.
Дальше можно исправить или доработать вручную.
Работает пока только в облаке. Для self-hosted пока решения нет.
Кредиты зависят от плана:
• Trial — 20
• Starter — 50
• Pro — 150
Каждое обращение к ИИ тратит один кредит, что-то прям очень мало.
В общем фичу от n8n точно стоит попробовать, ведь это больше их специфика.
@tips_ai #news
1👍18❤11🔥6
Последнее время сильно ведусь на твиты от людей, которые как то тестируют Gemini 3.0 Pro.
Например — копии интерфейсов Windows и macOS с первого промпта.
Оказывается тестирование идёт в Google AI Studio уже больше недели, чтобы попробовать модель, нужно включить Gemini 2.5 Pro, начать отправлять 15-25 запросов и дождаться включения A/B-теста.
(у меня не получилось)
Ответы в A/B-тесте сильно отличаются от обычной Gemini 2.5 Pro и юзеры решили, что Google тестирует новую Gemini 3.0 Pro.
Кому верить, я не знаю, но примеры, которые они показывают — удивляют🤔
@tips_ai #news
Например — копии интерфейсов Windows и macOS с первого промпта.
Оказывается тестирование идёт в Google AI Studio уже больше недели, чтобы попробовать модель, нужно включить Gemini 2.5 Pro, начать отправлять 15-25 запросов и дождаться включения A/B-теста.
(у меня не получилось)
Ответы в A/B-тесте сильно отличаются от обычной Gemini 2.5 Pro и юзеры решили, что Google тестирует новую Gemini 3.0 Pro.
Кому верить, я не знаю, но примеры, которые они показывают — удивляют
@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥9❤8