MCPNext: универсальный слой для работы с инструментами ИИ-агентов
Команда Data Intelligence Lab из University of Hong Kong анонсировала MCPNext - фреймворк для оркестрации инструментов агентов.
Заявлены умное управление контекстом, быстрый поиск инструментов за миллисекунды, адаптивный выбор и самооптимизация.
Поддержка shell, GUI-автоматизации, стандартных MCP-серверов и веб-поиска через единый интерфейс.
Проблемы MCP сегодня:
- Агент тонет в инструментах — загружаются ВСЕ тулы со всех серверов на каждом шаге. Жрётся контекст, ИИшка теряется в инструментах и методах.
- Качество community-инструментов — лотерея с непредсказуемым результатом
- Только Web API — а реальная автоматизация часто требует файлов, GUI, системных команд
Что делает MCPNext:
🎯 Smart Tool RAG
Многоступенчатая фильтрация: сервер → имя → семантика → LLM-ранжирование. Нужный инструмент за миллисекунды вместо перебора сотен опций.
🧠 Self-Learning Quality Control
Система запоминает какие инструменты работают, какие падают. Автоматический приоритет надёжным тулам + переключение на альтернативы при сбоях.
🔌 Мульти-бэкенд архитектура
MCP + Shell + GUI + Web в едином интерфейсе. Агент сам выбирает оптимальный бэкенд под задачу.
Техническая начинка:
- Lazy initialization — серверы стартуют только когда нужны
- Persistent memory — эмбеддинги инструментов кэшируются на диск
- Safety controls — блокировка опасных операций + подтверждение для sensitive действий
MIT лицензия.
Эта же команда ранее выпустила LightRAG, AutoAgent и DeepCode - пупулярные достаточно фреймворки, так что и этот стоит посмотреть.
#MCPNext #MCP #HKUDS
———
@tsingular
Команда Data Intelligence Lab из University of Hong Kong анонсировала MCPNext - фреймворк для оркестрации инструментов агентов.
Заявлены умное управление контекстом, быстрый поиск инструментов за миллисекунды, адаптивный выбор и самооптимизация.
Поддержка shell, GUI-автоматизации, стандартных MCP-серверов и веб-поиска через единый интерфейс.
Проблемы MCP сегодня:
- Агент тонет в инструментах — загружаются ВСЕ тулы со всех серверов на каждом шаге. Жрётся контекст, ИИшка теряется в инструментах и методах.
- Качество community-инструментов — лотерея с непредсказуемым результатом
- Только Web API — а реальная автоматизация часто требует файлов, GUI, системных команд
Что делает MCPNext:
🎯 Smart Tool RAG
Многоступенчатая фильтрация: сервер → имя → семантика → LLM-ранжирование. Нужный инструмент за миллисекунды вместо перебора сотен опций.
🧠 Self-Learning Quality Control
Система запоминает какие инструменты работают, какие падают. Автоматический приоритет надёжным тулам + переключение на альтернативы при сбоях.
🔌 Мульти-бэкенд архитектура
MCP + Shell + GUI + Web в едином интерфейсе. Агент сам выбирает оптимальный бэкенд под задачу.
Техническая начинка:
- Lazy initialization — серверы стартуют только когда нужны
- Persistent memory — эмбеддинги инструментов кэшируются на диск
- Safety controls — блокировка опасных операций + подтверждение для sensitive действий
MIT лицензия.
Эта же команда ранее выпустила LightRAG, AutoAgent и DeepCode - пупулярные достаточно фреймворки, так что и этот стоит посмотреть.
#MCPNext #MCP #HKUDS
———
@tsingular
✍7🔥4❤2⚡2
Первую LLM обучили в космосе на борту спутника
В рамках проекта Starcloud-1 натренировали nano-GPT от Карпати на произведениях Шекспира прямо на орбите, используя NVIDIA H100.
Также запустили инференс на предзагруженной модели Gemma.
Маленький шаг для ИИ, но огромный для человечества :)
#Starcloud #H100 #Space #космос
———
@tsingular
В рамках проекта Starcloud-1 натренировали nano-GPT от Карпати на произведениях Шекспира прямо на орбите, используя NVIDIA H100.
Также запустили инференс на предзагруженной модели Gemma.
Маленький шаг для ИИ, но огромный для человечества :)
#Starcloud #H100 #Space #космос
———
@tsingular
🔥10⚡2👍2
⚠️ OpenAI предупреждает: AI-модели приближаются к опасному уровню эффективности в кибербезопасности
Компания выпустила пост о том, что пора готовиться к новому уровню киберрисков от ИИ моделей, в том числе от собственных.
Главные цифры:
Результаты AI на CTF-тестах (capture-the-flag) выросли с 27% до 76% за 3 месяца. Это взрывной рост.
Риски, которые OpenAI называет прямо:
- Следующие модели могут достичь высокого уровня эффективности в создании zero-day эксплойтов против защищённых систем
- ИИ помогает в сложных скрытых атаках на корпоративную и промышленную инфраструктуру
- Проблема двойного назначения: защищающиеся и атакующие используют одни техники,- ограничить одно без другого невозможно
- Риск злоупотреблений актуален для любой ведущей модели в индустрии
Что делают, чтобы снизить риски:
- Defense-in-depth: послойная защита вместо единого барьера
- Обучают модели отказывать в опасных запросах
- Рекомендуют мониторинг + red teaming от внешних экспертов
- Tiered access — ограниченный доступ к мощным возможностям
OpenAI фактически признаёт: гонка возможностей ведет к тому, что атака опережает защиту.
Готовимся к сценариям, где AI становится инструментом для серьёзных кибератак.
#OpenAI #кибербезопасность #cybersecurity
———
@tsingular
Компания выпустила пост о том, что пора готовиться к новому уровню киберрисков от ИИ моделей, в том числе от собственных.
Главные цифры:
Результаты AI на CTF-тестах (capture-the-flag) выросли с 27% до 76% за 3 месяца. Это взрывной рост.
Риски, которые OpenAI называет прямо:
- Следующие модели могут достичь высокого уровня эффективности в создании zero-day эксплойтов против защищённых систем
- ИИ помогает в сложных скрытых атаках на корпоративную и промышленную инфраструктуру
- Проблема двойного назначения: защищающиеся и атакующие используют одни техники,- ограничить одно без другого невозможно
- Риск злоупотреблений актуален для любой ведущей модели в индустрии
Что делают, чтобы снизить риски:
- Defense-in-depth: послойная защита вместо единого барьера
- Обучают модели отказывать в опасных запросах
- Рекомендуют мониторинг + red teaming от внешних экспертов
- Tiered access — ограниченный доступ к мощным возможностям
OpenAI фактически признаёт: гонка возможностей ведет к тому, что атака опережает защиту.
Готовимся к сценариям, где AI становится инструментом для серьёзных кибератак.
#OpenAI #кибербезопасность #cybersecurity
———
@tsingular
⚡5✍3🔥3🤯2💯1
Пэт Гелсингер: квантовые компьютеры убьют GPU через 2 года
Бывший CEO Intel продолжает раздавать прогнозы. На этот раз — про конец эпохи видеокарт.
В интервью Financial Times Гелсингер заявил, что квантовые компьютеры станут мейнстримом гораздо быстрее, чем все ожидают, и это будет означать конец GPU.
При том, что глава Nvidia Дженсен Хуанг считает, что квантовым вычислениям нужно ещё где то 20 лет, Гелсингер вангует, что осталось всего два года.
Квантовые технологии он называет частью "святой троицы вычислений",- наравне с классическими процессорами и AI-ускорителями.
Пузырь AI, по его мнению, продержится ещё пару лет, но именно квантовый прорыв его лопнет.
Отдельно досталось партнёрству Microsoft и OpenAI — Гелсингер сравнил его с тем, что Билл Гейтс провернул с IBM в 90-х: OpenAI просто дистрибьютор, а реальная власть — у того, кто владеет вычислительными мощностями.
Откуда такая уверенность?
После ухода из Intel Гелсингер присоединился к венчурному фонду Playground Global, который вкладывается в квантовые стартапы.
Там, по его словам, он увидел, насколько близок прорыв.
При этом надо понимать, что Гелсингер,- легенда полупроводниковой индустрии: первый CTO Intel, успешно руководил VMware. Но его возвращение в Intel закончилось падением акций на 60% и отставкой. Компания так и не догнала ни TSMC в производстве, ни Nvidia в AI-чипах.
После этого Гелсингер не ушёл на покой. Как обсуждали ранее, он возглавил Gloo - стартап, который делает ИИ-агентов для церквей с целью "ускорить пришествие Христа через технологии".
Теперь вот квантовая революция за 2 года.
Что в сухом остатке?
Big Tech влил в AI-инфраструктуру около $250 млрд только в этом году.
Если Гелсингер прав — это всё устареет очень скоро. Если нет — это просто ещё один смелый прогноз от человека, чьи прогнозы пока не сбывались.
Как думаете, есть вероятность, что он прав или еще 20 лет ждать?
#Gelsinger #Intel #кванты
———
@tsingular
Бывший CEO Intel продолжает раздавать прогнозы. На этот раз — про конец эпохи видеокарт.
В интервью Financial Times Гелсингер заявил, что квантовые компьютеры станут мейнстримом гораздо быстрее, чем все ожидают, и это будет означать конец GPU.
При том, что глава Nvidia Дженсен Хуанг считает, что квантовым вычислениям нужно ещё где то 20 лет, Гелсингер вангует, что осталось всего два года.
Квантовые технологии он называет частью "святой троицы вычислений",- наравне с классическими процессорами и AI-ускорителями.
Пузырь AI, по его мнению, продержится ещё пару лет, но именно квантовый прорыв его лопнет.
Отдельно досталось партнёрству Microsoft и OpenAI — Гелсингер сравнил его с тем, что Билл Гейтс провернул с IBM в 90-х: OpenAI просто дистрибьютор, а реальная власть — у того, кто владеет вычислительными мощностями.
Откуда такая уверенность?
После ухода из Intel Гелсингер присоединился к венчурному фонду Playground Global, который вкладывается в квантовые стартапы.
Там, по его словам, он увидел, насколько близок прорыв.
При этом надо понимать, что Гелсингер,- легенда полупроводниковой индустрии: первый CTO Intel, успешно руководил VMware. Но его возвращение в Intel закончилось падением акций на 60% и отставкой. Компания так и не догнала ни TSMC в производстве, ни Nvidia в AI-чипах.
После этого Гелсингер не ушёл на покой. Как обсуждали ранее, он возглавил Gloo - стартап, который делает ИИ-агентов для церквей с целью "ускорить пришествие Христа через технологии".
Теперь вот квантовая революция за 2 года.
Что в сухом остатке?
Big Tech влил в AI-инфраструктуру около $250 млрд только в этом году.
Если Гелсингер прав — это всё устареет очень скоро. Если нет — это просто ещё один смелый прогноз от человека, чьи прогнозы пока не сбывались.
Как думаете, есть вероятность, что он прав или еще 20 лет ждать?
#Gelsinger #Intel #кванты
———
@tsingular
🤔12👻4😁2⚡1🤨1
Интересный эфир сегодня у Сбера про ИИ в финтехе
смотреть тут:
https://sber.pro/fi-day/
Начало через час
#Сбербанк #финтех
———
@tsingular
смотреть тут:
https://sber.pro/fi-day/
Начало через час
#Сбербанк #финтех
———
@tsingular
✍4⚡2🔥2
💡 Получи объективный взгляд на свою проблему и освободись от синдрома самозванца
📋 ПРОМПТ ДНЯ:
⚙️ ПРИЁМ:
Второе мнение — Когда ИИ выступает альтернативным наблюдателем, он разрывает цикл внутреннего диалога самозванца, предлагая объективную внешнюю перспективу, которую ты не можешь создать сам из-за когнитивных искажений
#промпты #синдром #самозванца
------
@tsingular
📋 ПРОМПТ ДНЯ:
Роль: Ты — опытный технический ментор и психолог в IT-индустрии, который специализируется на работе с синдромом самозванца у разработчиков и технических лидеров.
Ситуация: Я столкнулся с проблемой в своей работе, которая блокирует мой прогресс. Я хочу получить свободу действовать и принимать решения уверенно, но синдром самозванца постоянно шепчет мне, что я недостаточно компетентен, что другие справились бы лучше, и что я упускаю что-то очевидное. Это парализует меня и мешает двигаться вперёд.
Задача: Проанализируй мою ситуацию с позиции приоритизации — помоги мне отделить реальные технические вызовы от искажённого восприятия, вызванного синдромом самозванца. Дай мне альтернативную точку зрения на проблему, которую я, возможно, не вижу из-за своих внутренних страхов.
Формат ответа:
— Серия из 5-7 вопросов, которые помогут мне переосмыслить ситуацию
— Каждый вопрос должен раскрывать новый угол зрения на проблему
— Вопросы должны быть направлены на выявление конкретных действий для следующего шага
— В конце предложи один приоритетный шаг, который я могу сделать прямо сейчас
Ограничения:
— Избегай общих утешений и мотивационных речей
— Фокусируйся на объективных фактах и действиях, а не на эмоциях
— Не предлагай долгосрочные планы — только то, что можно сделать в ближайшее время
— Сначала задай мне 3 уточняющих вопроса о моей конкретной проблеме, затем переходи к анализу и формированию вопросов для переосмысления
⚙️ ПРИЁМ:
Второе мнение — Когда ИИ выступает альтернативным наблюдателем, он разрывает цикл внутреннего диалога самозванца, предлагая объективную внешнюю перспективу, которую ты не можешь создать сам из-за когнитивных искажений
#промпты #синдром #самозванца
------
@tsingular
✍15❤2👨💻2👌1
Manus.im добавил Нанобанану.
Теперь можно генерить отличные презентации не только в NotebookLM
#Manus #nanobanana #презентации
———
@tsingular
Теперь можно генерить отличные презентации не только в NotebookLM
#Manus #nanobanana #презентации
———
@tsingular
🔥5👍3 1
Disney и OpenAI договорились о сотрудничестве
Disney становится первым крупным контент-партнёром Sora - и это будет не просто лицензирование, а полноценная интеграция.
Что получают пользователи:
- 200+ персонажей Disney, Marvel, Pixar, Star Wars в Sora и ChatGPT Images
- Генерация коротких видео по промптам с любимыми героями
- Курируемый контент прямо на Disney+
Персонажи в доступе:
Mickey, Stitch, Simba, Darth Vader, Iron Man, Deadpool, Groot, Yoda, Mandalorian — и ещё сотни.
Что НЕ включено:
Лица и голоса реальных актёров. Только анимированные/маскированные персонажи.
Бизнес-сторона:
- $1B инвестиция Disney в OpenAI + гарантии на допфинансирование
- Disney внедряет API OpenAI в продукты и ChatGPT для сотрудников
- Срок соглашения — 3 года
Почему это важно:
Впервые мейджор-студия не воюет с генеративным AI, а задаёт стандарты коллаборации. Iger прямо говорит: технологии всегда меняли индустрию, вопрос — кто будет у руля.
Запуск — начало 2026.
#Disney #OpenAI #Sora #GenerativeAI
———
@tsingular
Disney становится первым крупным контент-партнёром Sora - и это будет не просто лицензирование, а полноценная интеграция.
Что получают пользователи:
- 200+ персонажей Disney, Marvel, Pixar, Star Wars в Sora и ChatGPT Images
- Генерация коротких видео по промптам с любимыми героями
- Курируемый контент прямо на Disney+
Персонажи в доступе:
Mickey, Stitch, Simba, Darth Vader, Iron Man, Deadpool, Groot, Yoda, Mandalorian — и ещё сотни.
Что НЕ включено:
Лица и голоса реальных актёров. Только анимированные/маскированные персонажи.
Бизнес-сторона:
- $1B инвестиция Disney в OpenAI + гарантии на допфинансирование
- Disney внедряет API OpenAI в продукты и ChatGPT для сотрудников
- Срок соглашения — 3 года
Почему это важно:
Впервые мейджор-студия не воюет с генеративным AI, а задаёт стандарты коллаборации. Iger прямо говорит: технологии всегда меняли индустрию, вопрос — кто будет у руля.
Запуск — начало 2026.
#Disney #OpenAI #Sora #GenerativeAI
———
@tsingular
1🔥12❤3👍3 1
Forwarded from Machinelearning
Ряд значительных улучшений, по сравнению с GPT-5.1, особенно в визуальном понимании и сложных рассуждениях.
Приросты в бенчмарках говорят сами за себя:
• SWE-Bench Pro: 50.8% → 55.6%
• GPQA Diamond: 88.1% → 92.4%
• AIME 2025: 94.0% → 100%
• ARC-AGI-2: 17.6% → 52.9%
GPT-5.2 также неожиданно силён в задачах с 3D и физикой, а также генерации и анализе таблиц.
GPT-5.1 останется доступной платным пользователям ещё три месяца в статусе legacy.
Цены API: $1,75/1M input, $14/1M output (Thinking). Это дороже чем GPT-5.1 ($1,25/$10), но дешевле Gemini 3 Pro.
https://openai.com/index/introducing-gpt-5-2/
@ai_machinelearning_big_data
#chatgpt #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7⚡3🆒3❤2🐳1
Forwarded from LLM под капотом
Как проверять качество AI чатботов, которые интегрируются в бизнес?
Вот примерно так, как на этом скриншоте. Список вопросов текстом слева и автоматические оценки справа. При необходимости - возможность зайти в каждый тест и посмотреть, что там было неправильно.
Если командам разработки подготовить тесты/evals в таком формате (что не требует навыков в AI), тогда для самих разработчиков все становится кристально понятно, а процесс повышения качества превращается в увлекательную игру.
А как вы тестируете качество чатботов?
Ваш, @llm_under_hood 🤗
PS: про мой подход к тестированию, см в истории про спасение проекта с LLM под капотом.
Вот примерно так, как на этом скриншоте. Список вопросов текстом слева и автоматические оценки справа. При необходимости - возможность зайти в каждый тест и посмотреть, что там было неправильно.
Если командам разработки подготовить тесты/evals в таком формате (что не требует навыков в AI), тогда для самих разработчиков все становится кристально понятно, а процесс повышения качества превращается в увлекательную игру.
А как вы тестируете качество чатботов?
Ваш, @llm_under_hood 🤗
PS: про мой подход к тестированию, см в истории про спасение проекта с LLM под капотом.
✍6⚡5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy AI - AI-генератор 3D-моделей из текста и изображений.
Главные функции:
Text to 3D — описание → 3D-модель
Image to 3D — фото/скетч → 3D (поддержка multi-view)
AI Texturing — генерация PBR-текстур для своих моделей
Rigging & Animation — авто-риггинг + 500+ готовых анимаций
Smart Remesh — управление топологией (1k–300k полигонов)
Экспорт: FBX, GLB, OBJ, STL, USDZ, BLEND
Плагины для:
- Blender
- Unity
- Unreal Engine
- Godot
- Maya
- 3DS Max
- Bambu Studio (3D-печать)
Генеришь в Meshy → импортируешь в свой софт одним кликом.
Есть API
REST API (api.meshy.ai) — Text to 3D, Image to 3D, Remesh, Rigging, Retexture. Вебхуки для асинхронных задач.
Для кого
Геймдев, 3D-печать, VFX/Film, образование, e-commerce, VR/AR.
В итоге, - полный цикл от идеи до готового ассета + плагины под весь основной софт.
https://www.meshy.ai/
#Meshly #нейрорендер
———
@tsingular
Главные функции:
Text to 3D — описание → 3D-модель
Image to 3D — фото/скетч → 3D (поддержка multi-view)
AI Texturing — генерация PBR-текстур для своих моделей
Rigging & Animation — авто-риггинг + 500+ готовых анимаций
Smart Remesh — управление топологией (1k–300k полигонов)
Экспорт: FBX, GLB, OBJ, STL, USDZ, BLEND
Плагины для:
- Blender
- Unity
- Unreal Engine
- Godot
- Maya
- 3DS Max
- Bambu Studio (3D-печать)
Генеришь в Meshy → импортируешь в свой софт одним кликом.
Есть API
REST API (api.meshy.ai) — Text to 3D, Image to 3D, Remesh, Rigging, Retexture. Вебхуки для асинхронных задач.
Для кого
Геймдев, 3D-печать, VFX/Film, образование, e-commerce, VR/AR.
В итоге, - полный цикл от идеи до готового ассета + плагины под весь основной софт.
https://www.meshy.ai/
#Meshly #нейрорендер
———
@tsingular
🔥9✍4❤2⚡1
Forwarded from e/acc
Два прогноза о (ближайшем, 1-2 года) будущем ИИ, в которых я абсолютно уверен:
1. Локальные модели уровня Sonnet 4 / Gemini Pro 2.5 / GPT-5 работающие на телефонах. Они способы решать 90+% задач, с которыми сегодня люди идут в чат-боты, но бесплатно, локально и без интернета.
2. Самые эффективные компании использующие ИИ: тратят от $10,000 в месяц в токенах на сотрудника, что эквивалентно ~5,000 «ИИ-сотрудникам» работающим 24/7, что эквивалентно ~500 реальным jun/middle уровня сотрудникам.
* созванивался вчера с крупной ИТ-компанией в долине, их цель это довести инструменты оркестрации, чтобы каждый их инженер эффективно расходовал $20к/мес токенов агентов
1. Локальные модели уровня Sonnet 4 / Gemini Pro 2.5 / GPT-5 работающие на телефонах. Они способы решать 90+% задач, с которыми сегодня люди идут в чат-боты, но бесплатно, локально и без интернета.
2. Самые эффективные компании использующие ИИ: тратят от $10,000 в месяц в токенах на сотрудника, что эквивалентно ~5,000 «ИИ-сотрудникам» работающим 24/7, что эквивалентно ~500 реальным jun/middle уровня сотрудникам.
* созванивался вчера с крупной ИТ-компанией в долине, их цель это довести инструменты оркестрации, чтобы каждый их инженер эффективно расходовал $20к/мес токенов агентов
✍10🤔10🐳3⚡2❤2🔥1
В 1979 году настоящую революцию устроила программа VisiCalc, первые в мире электронные таблицы.
Целый год она работала только на Apple II. И очень многие считают, что именно из-за этого Apple вообще выжила и взлетела: люди покупали дорогой компьютер за пару тысяч долларов исключительно ради того, чтобы пользоваться таблицами за сто баксов.
VisiCalc стал классическим примером "killer application" -- приложения-убийцы, ради которого готовы были менять платформу. Покупатель приходил в магазин и говорил: "Мне нужен VisiCalc", а в ответ слышал: "Тогда берите Apple II, другого варианта нет".
Сейчас, когда у всех есть интернет, браузер и куча онлайн-сервисов, мы забываем, что в те годы для большинства людей компьютер = Word + Excel (ну или их аналоги). Других причин держать дома или в офисе эту дорогую штуку почти не существовало. Поэтому какая программа лучше решает офисные задачи -- та и решала, какой компьютер будут покупать тысячами.
------
Интересно, что с тех пор не многое поменялось.
По сути большинство даже от ИИ агентов ждут, что те им или что-то посчитают или документ напишут/поправят. Ну, поиск, пожалуй, еще добавился и программирование, если брать самое популярное.
#история #Apple
------
@tsingular
Целый год она работала только на Apple II. И очень многие считают, что именно из-за этого Apple вообще выжила и взлетела: люди покупали дорогой компьютер за пару тысяч долларов исключительно ради того, чтобы пользоваться таблицами за сто баксов.
VisiCalc стал классическим примером "killer application" -- приложения-убийцы, ради которого готовы были менять платформу. Покупатель приходил в магазин и говорил: "Мне нужен VisiCalc", а в ответ слышал: "Тогда берите Apple II, другого варианта нет".
Сейчас, когда у всех есть интернет, браузер и куча онлайн-сервисов, мы забываем, что в те годы для большинства людей компьютер = Word + Excel (ну или их аналоги). Других причин держать дома или в офисе эту дорогую штуку почти не существовало. Поэтому какая программа лучше решает офисные задачи -- та и решала, какой компьютер будут покупать тысячами.
------
Интересно, что с тех пор не многое поменялось.
По сути большинство даже от ИИ агентов ждут, что те им или что-то посчитают или документ напишут/поправят. Ну, поиск, пожалуй, еще добавился и программирование, если брать самое популярное.
#история #Apple
------
@tsingular
👍19✍5❤5⚡1
Microsoft выпустили наглядную инструкцию по шагам внедрения ИИ агентов.
Планирование
Контроль
Подготовка
Интеграция
Управление
Все шаги подробно разобраны и есть еще детальный чеклист с примерами и документацией
#Microsoft #агенты #обучение
———
@tsingular
Планирование
Контроль
Подготовка
Интеграция
Управление
Все шаги подробно разобраны и есть еще детальный чеклист с примерами и документацией
#Microsoft #агенты #обучение
———
@tsingular
👍7✍5⚡2
Forwarded from e/acc
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree запустил аппстор для гуманоидов, в котором за $0,99 вы можете скачать своему роботу навык тверка, игры в мячик с котом или владения гранатометом.
😁16👍7🤯7⚡4
Verbalized Sampling: как вернуть LLM креативность
Проблема: После RLHF модели дают одинаковые ответы. Попроси 5 раз шутку про кофе, - с высокой вероятностью получишь 5 раз одну и ту же.
Почему: Люди-оценщики подсознательно выбирают "знакомое".
Модель это выучила и теперь всегда выдаёт самый популярный вариант.
Это явление назвали «коллапсом мод». Оказалось, что виноваты не алгоритмы, а психология людей. Люди-оценщики, которые обучают нейросеть, подсознательно ставят высокие оценки самым простым, привычным и «типичным» ответам. Нейросеть это запоминает и начинает всегда выдавать только самый безопасный, «средний» вариант, игнорируя креативные идеи.
Какое нашли решение?
Авторы придумали метод Verbalized Sampling («Озвученная выборка»). Это способ обхитрить этот механизм без перепрограммирования модели, просто изменив промпт.
Вместо того чтобы просить: «Расскажи шутку» (на что модель выдаст самую банальную шутку), нужно попросить:
«Придумай 5 разных шуток и напиши вероятность (процент уверенности) для каждой из них». (confidence_level)
Когда модель заставляют просчитывать и «проговаривать вслух» вероятности для нескольких вариантов, она перестает зацикливаться на одном шаблоне и открывает доступ к своему скрытому творческому потенциалу, который был заложен в ней изначально.
Что это даёт на практике?
- Возвращается креативность: Стихи, истории и юмор становятся намного оригинальнее и разнообразнее (по тестам — в 1.6–2 раза лучше), при этом качество текста не падает.
- Реалистичные диалоги: Если нужно симулировать разговор разных людей, ИИ начинает вести себя действительно по-разному, а не как один и тот же робот-помощник.
- Польза для науки: С помощью этого метода можно создавать более качественные и сложные задачи (например, по математике), на которых потом будут учиться другие, еще более умные нейросети.
- Доступность: Это работает бесплатно и прямо сейчас,- не нужно ничего докачивать или настраивать, достаточно просто правильно сформулировать запрос.
Про confidence level и раньше знали в части повышения качества, но тут идея в том, что мы генерим 5 разных вариантов одновременно (нужен JSON) и для каждого пишем скор.
Вот мы и узнали, как выполнить планы по расходу токенов :)
#промпты #JSON #lifehack #обучение
———
@tsingular
Проблема: После RLHF модели дают одинаковые ответы. Попроси 5 раз шутку про кофе, - с высокой вероятностью получишь 5 раз одну и ту же.
Почему: Люди-оценщики подсознательно выбирают "знакомое".
Модель это выучила и теперь всегда выдаёт самый популярный вариант.
Это явление назвали «коллапсом мод». Оказалось, что виноваты не алгоритмы, а психология людей. Люди-оценщики, которые обучают нейросеть, подсознательно ставят высокие оценки самым простым, привычным и «типичным» ответам. Нейросеть это запоминает и начинает всегда выдавать только самый безопасный, «средний» вариант, игнорируя креативные идеи.
Какое нашли решение?
Авторы придумали метод Verbalized Sampling («Озвученная выборка»). Это способ обхитрить этот механизм без перепрограммирования модели, просто изменив промпт.
Вместо того чтобы просить: «Расскажи шутку» (на что модель выдаст самую банальную шутку), нужно попросить:
«Придумай 5 разных шуток и напиши вероятность (процент уверенности) для каждой из них». (confidence_level)
Когда модель заставляют просчитывать и «проговаривать вслух» вероятности для нескольких вариантов, она перестает зацикливаться на одном шаблоне и открывает доступ к своему скрытому творческому потенциалу, который был заложен в ней изначально.
Что это даёт на практике?
- Возвращается креативность: Стихи, истории и юмор становятся намного оригинальнее и разнообразнее (по тестам — в 1.6–2 раза лучше), при этом качество текста не падает.
- Реалистичные диалоги: Если нужно симулировать разговор разных людей, ИИ начинает вести себя действительно по-разному, а не как один и тот же робот-помощник.
- Польза для науки: С помощью этого метода можно создавать более качественные и сложные задачи (например, по математике), на которых потом будут учиться другие, еще более умные нейросети.
- Доступность: Это работает бесплатно и прямо сейчас,- не нужно ничего докачивать или настраивать, достаточно просто правильно сформулировать запрос.
Про confidence level и раньше знали в части повышения качества, но тут идея в том, что мы генерим 5 разных вариантов одновременно (нужен JSON) и для каждого пишем скор.
Вот мы и узнали, как выполнить планы по расходу токенов :)
#промпты #JSON #lifehack #обучение
———
@tsingular
👍13🔥7✍5❤2👌1🤣1
Forwarded from Уставший техдир
Если попросить ChatGPT прислать архив своей рабочей директории, он с радостью это сделает