Tips AI | IT & AI
22.1K subscribers
2.22K photos
1.34K videos
25 files
1.91K links
Авторский канал про сервисы и технологии IT и AI, которые могут упростить (или не совсем) жизнь.

Пишу только то, что сам считаю интересным. Автор: @igortru

Информация по рекламе: @tipsprbot
Download Telegram
Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.

Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.

Среди всего, что есть, я чаще смотрю именно их:

LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.

EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.

Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.

LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.

SWE-Bench — для программистов.

Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.

OpenRouter — удобно смотреть, что популярно и что используют.

Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.

@tips_ai #tools
👍227🔥4🫡1
Я редко делюсь промптами в канал — не вижу в этом смысла.

Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом.

Хотя, мой пост набрал 862 репоста, а может стоит продолжать…

Самый простой способ — это создать свой своего личного промпт-инженера в Custom GPT и прикрутите к нему официальный гайд по промптам или возьмите готовые GPTs

Практически все, кто выпускает новые модели, делятся руководствами.

Например, у GPT-5 есть целый мануал на сайте OpenAI Cookbooks. Или у Google руководство по NanoBanano.

Загляните еще в prompts.chat — это первый и известный справочник промптов с 135к звезд на GitHub. Еще на этот сайт, захожу иногда.

Я перестал копить золотую коллекцию промптов, чаще всего сам наговариваю, но если нужно выкладывать в канал, дайте знать.

@tips_ai #prompt
1👍50🔥169🤡4🗿2😢1
This media is not supported in your browser
VIEW IN TELEGRAM
У Perplexity вышел браузер Comet для всех пользователей

Кто постеснялся встать в очередь на передачу инвайтов или еще не получил инвайт, то сейчас можете скачать по ссылке.

Но без подписки Perplexity делать нечего, я активировал её на год тут.

@tips_ai #news
👍17🔥7🗿42
Куда стартапы сливают деньги на AI

Прочитал вчера статью от a16z (у них работа изучать стартапы) вместе с Mercury (банковские услуги стартапам) посмотрели, какие AI-сервисы за лето больше всего заработали на стартапах.

Я к таким топам отношусь скептически, данные пусть и от 200к стартапов, но все они клиенты Mercury.

26 место cluely?
🎨🎨🎨🎨🎨
🎨🎨🎨🎨🎨
🎨🎨🎨🎨🎨

• Ассистенты, тулзы для встреч, креативные штуки обогнали узкоспециализированные: 60% vs 40%. В топе сразу 6 сервисов для митингов, например Fyxer, Happyscribe, Plaud, Otter AI, Read AI, Cluely.

• Вайбкод: Replit на третьем месте после OpenAI и Anthropic, ниже Cursor, Lovable и какой-то Emergent.

• Есть сервисы Crosby, Cognition, 11x: берут на себя работу юристов, сейлзов и рекрутеров.

• По трафику Lovable обгоняет Replit, а по тратам наоборот: Replit в топ-3, Lovable на 18-м месте.

Больше денег уходит на креативные инструменты: Freepik, ElevenLabs, Canva, Photoroom, Midjourney, Descript, Opus Clip, Capcut, Arcad, Tavus.

Маркетинговые тулзы используют не только маркетологи, а вайбкодинг не только разработчики.

Очень интересно, какие у вас инструменты в топе?

@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2411🔥11
Tips AI | IT & AI
🎣 Рыбные воры /Dalle 3 @tips_ai #generated
Решил скачать TikTok и посмотреть, что с ним стало после выхода Sora 2

{кот крадет рыбу}

> Больше 200 млн просмотров
> Стертый водяной знак,
например с помощью этого сервиса

Удалил Тикток 😊

@tips_ai #generated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁47👍9🔥7🤡21
OpenAI представил свой конструктор агентов

Agent Builder — инструмент, который позволит собирать своих AI-агентов и рабочие процессы без кода.

Можно не мучиться с API, а просто накидывать блоки на канве: логика, ветвления, запросы, файлы, guardrails — всё как в n8n или Zapier, только внутри OpenAI.

Интерфейс drag-and-drop, уже есть готовые шаблоны:
• боты поддержки
• Q&A-помощники
• обработка данных
• сравнение документов

Есть логика (if-else, циклы), коннекторы MCP, шаги с одобрением, guardrails, поиск по файлам, трансформация данных.

В основе OpenAI Agents SDK. Он управляет тем, как агент вызывает инструменты, получает ответы и двигается по шагам.

Плюс встроенная наблюдаемость: можно видеть, что агент делает в реальном времени и где он залип.

Всё происходит в отдельном UI прямо в OpenAI с панелью компонентов, предпросмотром, тестами и публикацией.

Собрал флоу > протестировал > запустил.

Можно строить [тут]

@tips_ai #news
🔥22👍159
>Использование компьютера
>Поддерживается только использование браузера 🤔

Ночью, ожидая gemini 3
↳ Google показали новую модель Gemini 2.5 Computer Use.

По результатам тестов обгоняет агентские режимы от OpenAI, Claude Sonnet 4 и 4.5.

Неплохо понимает интерфейсы веб-сайтов. Ей можно поручить заполнение форм, перенос данных между сервисами и авторизацию.

В системном промпте можно настроить какие действия подтверждать, а какие нет.

Попробуйте демо-версию на Browserbase (о котором писал тут) Или через API в Gemini API и Vertex AI.

@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍101
Tips AI | IT & AI
Я редко делюсь промптами в канал — не вижу в этом смысла. Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом. Хотя, мой пост набрал 862 репоста, а может стоит продолжать… Самый простой способ — это создать свой…
В продолжении этого [поста]

От OpenAI вышел гайд по написанию промптов к Sora 2

Структура такая:
[Описание сцены простым языком: персонажей, костюмы, декорации, погоду и другие детали. Будьте максимально описательны, чтобы создать видео, соответствующее вашему замыслу.]

Cinematography:
Camera shot: [композиция и угол съёмки, например: общий план, съёмка с уровня глаз]
Mood: [общий тон, например: кинематографично и напряжённо, игриво и с интригой, роскошное ожидание]

Actions:
• [Действие 1: чёткое, конкретное движение или жест]
• [Действие 2: ещё одно заметное действие в сцене]
• [Действие 3: ещё одно действие или реплика]

Dialogue:
[Если в кадре есть диалог, добавьте короткие естественные фразы здесь или в списке действий. Делайте их лаконичными, чтобы они соответствовали длительности сцены.]


@tips_ai #prompt
👍23🔥86
Figure 03 вышел новый гуманоид для дома, офиса и вообще куда угодно.

Его рост 167см, вес 60 кг, может работать 5 часов на одной зарядке и поднимать до 20 кг.

Батарея заряжается беспроводным способом через катушки в ступнях: встаёт на коврик и получает 2 кВт энергии.

Во главе всего — Helix, ИИ для зрения, языка и действий.

Робот учится так же, как мы, наблюдая и слушая. Камеры стали вдвое быстрее, с меньшей задержкой и на 60% шире угол обзора.

Каждый палец снабжён сенсорами, которые чувствуют до 3 граммов. А камеры на ладонях видят, даже если основной взгляд закрыт.

Корпус теперь не голый металл: обёрнут в мягкий текстиль с пеной под ним. Стирается, меняется без инструментов.

Мне понравилось как он выглядит, про цену такого робота, я не нашел.

Сначала будут выпускать 12 000 роботов в год, а через 4 года 100 000 штук.

Будущее ближе, чем кажется…

@tips_ai #news
👍27🔥1510🤣2
Антропики запустили плагины для Claude Code

Плагины дают устанавливать и обмениваться коллекциями слэш-команд, агентов, MCP-серверов.

Я сразу же добавил готовые плагины с этого репозитория по команде:

/plugin marketplace add https://github.com/anthropics/claude-code


Но с первого раза не выйдет, потому что Claude, оказывается, сначала нужно понять, что такое плагин — пусть посмотрит их [тут].

@tips_ai #news
👍199🔥5🤡2
Forwarded from Мысли вслух
Может ли LLM притвориться покупателем?

Новости о предсказаниях реакций на маркетинговые компании по мотивам Sydney Sweeney и джинс American Eagle вдохновляют исследователей использовать LLM вместо фокус групп.

PyMC Labs попросили LLM «притворяться» покупателем с определённым демографическим профилем, показали ей продукт и попросили поделиться впечатлением, которое потом оценивает другая модель.

Они проверили, может ли языковая модель предсказать, купит ли человек продукт. Без обучения, без данных продаж, просто на основе описания товара и роли, которую она играет.

Модель получает анкету: пол, возраст, доход, место жительства. Ей показывают карточку продукта, например, шампунь.

Просили ответить, как обычный человек: что думаешь, купишь ли, почему да или нет.

Потом другой ИИ переводит этот текст в оценку по шкале от «точно не куплю» до «скорее всего да».

Результат совпал с реальными опросами людей на 90%. Без fine-tuning.

Метод назвали semantic similarity rating - смысловое сопоставление, насколько ответ похож по смыслу на реальные человеческие формулировки: «вряд ли куплю» или «очень хочу попробовать».

Самое интересное - тексты этих виртуальных покупателей оказались глубже человеческих и более четко объясняют: что смущает, что нравится, чего боятся. Модель не просто рассчитывает вероятность, она воспроизводит сам процесс человеческого размышления.

По итогам для простых предсказаний можно использовать детальный промпт по мотивам исследования и не учить модели на больших объёмах. Точно стоит попробовать использовать для анализа маркетинговых гипотез.

@maxvotek | linkedin | substack
🔥31👍85🗿1
Искал статью, которую читал давно.

Поиск в истории Chrome не очень хорошо работает. Приходится всегда скролить вручную.

Нашёл в магазине расширений: Better History.

Там есть календарь и нормальный поиск. Нашел статью, теперь пишу пост.

Плагин бесплатный, попробуйте.

@tips_ai #tools
👍299🔥5
Media is too big
VIEW IN TELEGRAM
Я одного только не понимаю, где хоть один пример работы G1 в быту, например как у figure 03

Кунг-фу это круто, но зачем нам робот, который практикует удары? 🫤​​​​​​​​

@tips_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
😁38🤣5🔥4🤡3
This media is not supported in your browser
VIEW IN TELEGRAM
Прошла неделя с выхода конструктора агентов от OpenAI.

В первый день все писали, что это новый убийца N8N.

Я попробовал, он пока сырой, но кто знает, ведь codex в начале тоже был не очень.

Сегодня n8n показывает AI Workflow Builder (Beta)

n8n собирает черновой вариант флоу с помощью чата с AI: добавлять ноды, связывать шаги и не нужно писать код.

Дальше можно исправить или доработать вручную.

Работает пока только в облаке. Для self-hosted пока решения нет.

Кредиты зависят от плана:
• Trial — 20
• Starter — 50
• Pro — 150

Каждое обращение к ИИ тратит один кредит, что-то прям очень мало.

В общем фичу от n8n точно стоит попробовать, ведь это больше их специфика.

@tips_ai #news
1👍1811🔥6
Последнее время сильно ведусь на твиты от людей, которые как то тестируют Gemini 3.0 Pro.

Например — копии интерфейсов Windows и macOS с первого промпта.

Оказывается тестирование идёт в Google AI Studio уже больше недели, чтобы попробовать модель, нужно включить Gemini 2.5 Pro, начать отправлять 15-25 запросов и дождаться включения A/B-теста.

(у меня не получилось)

Ответы в A/B-тесте сильно отличаются от обычной Gemini 2.5 Pro и юзеры решили, что Google тестирует новую Gemini 3.0 Pro.

Кому верить, я не знаю, но примеры, которые они показывают — удивляют 🤔

@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥98