ИИволюция 👾
10.3K subscribers
742 photos
328 videos
1 file
698 links
Авторский канал Сергея Пахандрина про AI, нейросети, вайб-разработку, ChatGPT (и другие LLM). Рассказываю о своём опыте и экспериментах с AI.

По всем вопросам: @pakhandrin
Download Telegram
Forwarded from Data Secrets
Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).
👍42
Forwarded from Data Secrets
Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.

Лица инвесторов представили?

Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.

P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
🔥10🗿1
Forwarded from Data Secrets
Один из пазлов бенчмарка ARC AGI, который o3 не смогла решить

Попробуйте ответить и вы: прямоугольник, на который указывает стрелка, должен остаться красным или стать синим?

Проверим, кто победит ИИ в решении задач для дошкольников 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄С наступающим!

Желаю вам с радостью встретить Новый год! Пусть все желания и мечты исполняются.

Очень рад, что мы с вами встретились. Сколько еще всего впереди удивительного!❤️

ИИволюция
Please open Telegram to view this post
VIEW IN TELEGRAM
2526🔥14
Видимо, StarckOverflow переживает не лучшие времена.

Вы им ещё пользуетесь? Как он там поживает? Не грустит без трафика?

Что пожелаем ему в 2025?

ИИволюция
👍9🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
С 1-м днём 2025! Все живы после салатиков? 🤣

А chatgpt вы не забыли поздравить? Он ведь вам весь год помогал, делал за вас всю работу и всего за $20 в месяц 😅

С Новым годом 🎄

ИИволюция
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣29🔥6
Forwarded from Denis Sexy IT 🤖
Сэм Альтман написал новый пост в блог. OpenAI теперь точно знает как сделать АИ, главные пункты:

Переход к AGI и суперинтеллекту
Альтман пишет, что компания уже знает, как построить полноценный AGI, и готовится к созданию ещё более мощного ИИ – суперинтеллекта. Этот шаг он считает ключевым для будущего науки, экономики и общества

Роль ChatGPT и «точка перелома» в развитии AI
Запуск ChatGPT в конце 2022 года стал катализатором невиданного роста в ИИ-индустрии, привлёк к OpenAI огромное внимание и дал старт реальному внедрению мощных языковых моделей в разных областях

Масштабные перемены в OpenAI после успеха ChatGPT
Компания выросла с небольшого исследовательского коллектива до полноценной организации, способной строить массовые продукты. Альтман описывает стресс и сложности, связанные с «воспитанием» нового типа компании, для которой нет готовых учебников

Уроки из кризисного момента (увольнение Альтмана)
Неожиданное увольнение CEO и последовавший хаос высветили слабые места в системе корпоративного управления. Сэм подчёркивает, насколько важно разнообразие мнений в совете директоров и прозрачная, стабильная структура управления для компании, работающей с такой прорывной технологией

Стратегия «постепенного» и безопасного развития ИИ
OpenAI верит в подход: выпускать модели, постепенно повышая их сложность и возможности, вовлекая общество в процесс адаптации и совершенствуя безопасность и этичность применений в реальном времени

Упор на колоссальную ответственность
Альтман отмечает, что OpenAI «не может быть обычной компанией» из-за масштаба последствий работы с AI и необходимости действовать с особой осторожностью и прозрачно, чтобы ИИ приносил пользу всему человечеству

Эмоциональные аспекты и человеческий фактор
Автор описывает, насколько тяжёлым, выматывающим и одновременно невероятно «вознаграждающим» оказался путь к текущим достижениям. Он подчеркивает важность поддержки коллег, партнёров и друзей в кризисные моменты

Признание непредсказуемости развития AI
Несмотря на имеющиеся планы, он признаёт, что векторы развития будут меняться. Команда не могла предугадать необходимость превращаться в продуктовую компанию, но адаптировалась к новым вызовам и продолжит этот курс

Главная цель — «сделать историю» и принести пользу
Первоначальная мечта — создать самую значимую технологию в истории и использовать её во благо людей. Альтман напоминает, что OpenAI придерживается этой миссии, продолжая «двигаться вперёд» и стремясь к открытиям и улучшению жизни человечества


***

Самое главное в первом пункте – если АИ-думерам еще не было по настоящему страшно, то теперь пора, можно паниковать

Ставлю на 2027 как год достижения полноценного АИ
15🗿4👍1
У Anthropic пару недель назад вышел пост про агентов: https://www.anthropic.com/research/building-effective-agents

Он прекрасен тем, что определяет, что является агентом, а что не является. С точки зрения авторов поста, агент = система, в которой языковые модели динамически управляют собственными вызовами и инструментами, контролируя выполнение какой-то задачи.

Авторы утверждают, что для большинства случаев агенты не нужны: чем проще решение, тем лучше. С чем я полностью согласен 👏

Основное содержание поста — примитивы и паттерны оркестрирования языковых моделей без агентов. Основной примитив: улучшенная языковая модель, которая имеет доступ к инструментам, поиску и памяти. Этот примитив может быть реализован по-разному, например через конечное число последовательных вызовов языковой модели.

🔹Паттерн 1: цепочка промптов
Если задача разбивается на несколько последовательных подзадач, их можно решать отдельными вызовами языковой модели. Например, если вы хотите сделать систему, пишущую книги, вы сначала делаете вызов для генерации названия книги, потом отдельные вызовы для краткого описания, содержания, выжимок глав и непосредственно самих глав.

🔹Паттерн 2: маршрутизация
Если ваше приложение разбивается на несколько возможных параллельных путей, то стоит сделать классификатор, который будет определять нужный путь, и специализированные промпты под каждый из путей. Например, если вы делаете чатбот с несколькими независимыми функциями (рекомендация фильмов, ответы на вопросы по фильмам, чат на общие темы), то стоит использовать этот паттерн. В древних чатботах часто был детектор интентов, который делал ровно это 👴

🔹Паттерн 3: параллелизация
Если задача разбивается на несколько параллельных подзадач, то стоит их и вызывать параллельно. Например, если вам нужно извлечь огромный JSON из текста или переписки, возможно вам стоит извлекать его по кусочкам. Отличие от маршрутизации в том, что в ней нам нужна была только одна ветка, а тут нам нужны результаты всех вызовов.

🔹Паттерн 4: ведущий-ведомый 😭
То же самое, что и параллелизация, только с динамическим количеством и содержанием подзадач. Например, так можно делать агрегацию результатов поиска.

🔹Паттерн 5: цикл оценки
Если есть чёткие критерии оценки качества выполнения задачи, то можно одной языковой моделью решать задачу, а другой — оценивать качество решения и давать обратную связь. И делать это в цикле. Это может работать много где, например в переводе текстов.

Ну и наконец последний паттерн — агенты, которые совершают действия в определенной среде, получают от среды обратную связь, и снова совершают действия.

Мне в разных местах в разное время пришлось использовать первые 3 паттерна. При этом тогда я не формулировал их как отдельные паттерны. Это не какие-то абстрактные штуки, это кристаллизация того, как удобно и просто строить системы (как и любые другие паттерны проектирования).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
Всех с понедельником! 😀

Всё, теперь точно праздники позади, возвращаюсь к активному постингу 👾

ИИволюция
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣24🗿1
Промптинг в o1

о1 это совершенно иной тип моделей и промпты для таких моделей нужно писать иначе.

Структура:
- Цель
- Формат ответа
- Что нужно учесть: условия, ограничения и т.п.
- Контекст

Грег Брокман репостнул шпаргалку в Твиттере, как правильно промптить о1.

Пользуйтесь!

ИИволюция
👍31🔥72
This media is not supported in your browser
VIEW IN TELEGRAM
Тогда и сейчас

Сравнение возможностей AI видеомоделей за 2 года. Февраль 2023 и Январь 2025 (автор)

Еще года два и Нетфликс на ходу будет генерировать нам фильм вечерком под наши хотелки?

ИИволюция
🔥186🗿1
Forwarded from Neural Shit
🤣27😢3
Media is too big
VIEW IN TELEGRAM
Когда соперники и враги стали лучшими друзьями.

По версии AI 😀

ИИволюция
🔥16🤣32👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Генеративный UI

В будущем нас ждёт генеративный UI с помощью AI (если мы не перескочим его сразу в стадию проактивных ассистентов и голосового управления).

Можно будет под себя создать любой сервис/приложение или даже сменить оформление на какое вам вздумается просто попросив и описав, что вам хочется увидеть.

Записал для вас видео как пример смены оформления под себя в одном из сервисов. Поиграться самому можно по ссылке.

ИИволюция
🔥20👍4
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT появляются задачи и чат становится проактивным

- Теперь чатик становится немного проактивным, его можно просить ставить напоминалки или добавлять ту-душки.
- Можно даже ставить чатику задачи, например: «Присылай мне прогноз погоды в 9 утра каждый день» или «Присылай мне шутку в конце рабочего дня в 18:00».
- Сам чат на основании общения с вами может сам предлагать задачи и напоминания исходя из контекста. Пользователь должен их одобрить.
- Для работы с задачами нужно переключиться в режим “ChatGPT Tasks” выбрав модель “GPT-4o with scheduled tasks” (помечено как beta).
- Напоминалка будет отправлена в чате и продублирована письмом.
- Поддерживаются регулярные задачи, например “каждое утро в 9:30 подготовить отчет”.
- Поддерживается до 10 активных задач.
- Управлять задачами можно прям в чате или в специальном разделе “Tasks” в профиле.
- Доступно с сегодня всем платным подписчикам.

UPD: вероятно произошел массовый наплыв на раздел с задачами, постоянно отваливается постановка задач, раздел Tasks недоступен (выдаётся ошибка). У кого такая же ситуаци?

ИИволюция
👍21🔥5🤣3
А вот так увы не умеет.

Было бы здорово, если бы он мог предварительно сбегать в Интернет, найти информацию и присылать мне мини отчет о найденном 😀

ИИволюция
😢12🗿2
Может так наконец-то эта привычка будет работать, потому что все хэбит-трекеры не работают 😅

ИИволюция
🤣18🔥3👍2
Forwarded from Data Secrets
AGI, это ты?
🤣33🗿2