Было интересно.
Сберу респект и спасибо.
Много интересных докладов.
- GigaChain
- Embedding
- Alignment
- претрейн
- тренировка Макса
- посттрейн
- распознавание звука
- тренировки звуковых моделей
- генерация звука
и многое другое.
Записи докладов ждём на сайте мероприятия.
https://sberdevices-events.jugru.org/gigachat_17/12/2024
#сбербанк
------
@tsingular
Сберу респект и спасибо.
Много интересных докладов.
- GigaChain
- Embedding
- Alignment
- претрейн
- тренировка Макса
- посттрейн
- распознавание звука
- тренировки звуковых моделей
- генерация звука
и многое другое.
Записи докладов ждём на сайте мероприятия.
https://sberdevices-events.jugru.org/gigachat_17/12/2024
#сбербанк
------
@tsingular
🔥6⚡1👍1
9й день адвента OpeanAi
Технический обзор OpenAI o1 (Декабрь 2024)
Основные обновления
Модель O1
- Релиз
- Ключевые возможности:
- Вызов функций с интеграцией внешних API
- Структурированный вывод по JSON Schema
- Управление поведением через developer messages
- Обработка изображений
- Снижение токенов на 60% по сравнению с preview
- Новый параметр
Улучшения в бенчмарках
Значительный прогресс по сравнению с o1-preview:
- GPQA diamond: 75.7% (+2.4%)
- MMLU: 91.8% (+1%)
- SWE-bench Verified: 48.9% (+7.6%)
- LiveCodeBench: 76.6% (+24.3%)
- MATH: 96.4% (+10.9%)
- AIME 2024: 79.2% (+37.2%)
Улучшения Realtime API
- Интеграция WebRTC
- Снижение стоимости:
- GPT-4o аудио: -60% (40$/1M входящих, 80$/1M исходящих токенов)
- Кэшированное аудио: -87.5% (2.50$/1M токенов)
- GPT-4o mini: 10$/1M входящих, 20$/1M исходящих токенов
- Улучшения сессий:
- Параллельные фоновые ответы
- Настраиваемый контекст ввода
- Контроль времени ответа
- Увеличение максимальной длительности до 30 минут (было 15)
Инструменты разработчика
Preference Fine-Tuning (PFT)
- На основе Direct Preference Optimization
- Доступно для:
- gpt-4o-2024-08-06 (сейчас)
- gpt-4o-mini-2024-07-18 (скоро)
- Отличие от SFT: использует пары предпочтительных/непредпочтительных ответов вместо точных совпадений
- Практическое подтверждение: Rogo AI достигли >80% точности (против 75% базовой)
Новые SDK (Бета)
- Go SDK: оптимизирован для конкурентных систем
- Java SDK: корпоративного уровня с типизированными запросами/ответами
- Дополняет существующие библиотеки Python, Node.js, .NET
Архитектурные изменения
- Повышение эффективности модели (снижение токенов на 60%)
- Интеграция WebRTC с встроенной поддержкой:
- Кодирования аудио
- Обработки потоков
- Подавления шума
- Контроля сетевой нагрузки
- Поддержка браузерных и серверных реализаций
Доступ и развертывание
- Постепенный релиз для usage tier 5
- Расширение на дополнительные уровни
- Корректировка лимитов запросов
- Цены на Preference Fine-Tuning аналогичны SFT
Сегодня прям очень много крутых штук.
Впечатляет
#OpenAI #advent
------
@tsingular
Технический обзор OpenAI o1 (Декабрь 2024)
Основные обновления
Модель O1
- Релиз
o1-2024-12-17 (преемник o1-preview)- Ключевые возможности:
- Вызов функций с интеграцией внешних API
- Структурированный вывод по JSON Schema
- Управление поведением через developer messages
- Обработка изображений
- Снижение токенов на 60% по сравнению с preview
- Новый параметр
reasoning_effortУлучшения в бенчмарках
Значительный прогресс по сравнению с o1-preview:
- GPQA diamond: 75.7% (+2.4%)
- MMLU: 91.8% (+1%)
- SWE-bench Verified: 48.9% (+7.6%)
- LiveCodeBench: 76.6% (+24.3%)
- MATH: 96.4% (+10.9%)
- AIME 2024: 79.2% (+37.2%)
Улучшения Realtime API
- Интеграция WebRTC
async function createRealtimeSession(localStream, remoteAudioEl, token) {
const pc = new RTCPeerConnection();
pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];
pc.addTrack(localStream.getTracks()[0]);
const offer = await pc.createOffer();
await pc.setLocalDescription(offer);
const headers = { Authorization: `Bearer ${token}`, 'Content-Type': 'application/sdp' };
const opts = { method: 'POST', body: offer.sdp, headers };
const resp = await fetch('https://api.openai.com/v1/realtime', opts);
await pc.setRemoteDescription({ type: 'answer', sdp: await resp.text() });
return pc;
}- Снижение стоимости:
- GPT-4o аудио: -60% (40$/1M входящих, 80$/1M исходящих токенов)
- Кэшированное аудио: -87.5% (2.50$/1M токенов)
- GPT-4o mini: 10$/1M входящих, 20$/1M исходящих токенов
- Улучшения сессий:
- Параллельные фоновые ответы
- Настраиваемый контекст ввода
- Контроль времени ответа
- Увеличение максимальной длительности до 30 минут (было 15)
Инструменты разработчика
Preference Fine-Tuning (PFT)
- На основе Direct Preference Optimization
- Доступно для:
- gpt-4o-2024-08-06 (сейчас)
- gpt-4o-mini-2024-07-18 (скоро)
- Отличие от SFT: использует пары предпочтительных/непредпочтительных ответов вместо точных совпадений
- Практическое подтверждение: Rogo AI достигли >80% точности (против 75% базовой)
Новые SDK (Бета)
- Go SDK: оптимизирован для конкурентных систем
- Java SDK: корпоративного уровня с типизированными запросами/ответами
- Дополняет существующие библиотеки Python, Node.js, .NET
Архитектурные изменения
- Повышение эффективности модели (снижение токенов на 60%)
- Интеграция WebRTC с встроенной поддержкой:
- Кодирования аудио
- Обработки потоков
- Подавления шума
- Контроля сетевой нагрузки
- Поддержка браузерных и серверных реализаций
Доступ и развертывание
- Постепенный релиз для usage tier 5
- Расширение на дополнительные уровни
- Корректировка лимитов запросов
- Цены на Preference Fine-Tuning аналогичны SFT
Сегодня прям очень много крутых штук.
Впечатляет
#OpenAI #advent
------
@tsingular
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Ruyi-Models - новый локальный видео генератор
Ruyi — это модель преобразования изображений в видео, способная генерировать видео кинематографического качества с разрешением 768 пикселей и частотой кадров 24 кадра в секунду, всего 5 секунд и 120 кадров. Она поддерживает управление линзой и амплитудой движения.
На RTX 3090 или RTX 4090, можно генерить видео с разрешением 512 пикселей (120 кадров) или с разрешением 768 пикселей (~72 кадра), не теряя качества.
https://github.com/IamCreateAI/Ruyi-Models
Интеграция с ComfyUI из коробки.
#нейрорендер #ComfyUI #видео
------
@tsingular
Ruyi — это модель преобразования изображений в видео, способная генерировать видео кинематографического качества с разрешением 768 пикселей и частотой кадров 24 кадра в секунду, всего 5 секунд и 120 кадров. Она поддерживает управление линзой и амплитудой движения.
На RTX 3090 или RTX 4090, можно генерить видео с разрешением 512 пикселей (120 кадров) или с разрешением 768 пикселей (~72 кадра), не теряя качества.
https://github.com/IamCreateAI/Ruyi-Models
Интеграция с ComfyUI из коробки.
#нейрорендер #ComfyUI #видео
------
@tsingular
👍8⚡1✍1
Media is too big
VIEW IN TELEGRAM
Unitree дороботали ExBody2 - роботы начали детально копировать движения людей
Исследователи представили передовую систему управления для гуманоидных роботов ExBody2.
Платформа сочетает отслеживание ключевых точек тела с контролем скорости движения через обучение с подкреплением.
Технология использует двухэтапную архитектуру (учитель-ученик) и условные вариационные автоэнкодеры для генерации естественных движений.
Тестирование на роботах Unitree G1 и H1 демонстрирует превосходную точность в воспроизведении бега, танцев и сложных акробатических элементов.
Система успешно переносит навыки из симуляции в реальный мир благодаря локальному отслеживанию и периодической коррекции движений.
Новые электронные граждане подрастают. 🤖
#ExBody2 #Unitree #Китай
———
@tsingular
Исследователи представили передовую систему управления для гуманоидных роботов ExBody2.
Платформа сочетает отслеживание ключевых точек тела с контролем скорости движения через обучение с подкреплением.
Технология использует двухэтапную архитектуру (учитель-ученик) и условные вариационные автоэнкодеры для генерации естественных движений.
Тестирование на роботах Unitree G1 и H1 демонстрирует превосходную точность в воспроизведении бега, танцев и сложных акробатических элементов.
Система успешно переносит навыки из симуляции в реальный мир благодаря локальному отслеживанию и периодической коррекции движений.
Новые электронные граждане подрастают. 🤖
#ExBody2 #Unitree #Китай
———
@tsingular
1🔥13🆒4👾1
Google зарелизила Experimental 1206
Оказывается это Gemini 2.0 Experimental Advanced
Есть в API
Это вот та модель, от которой я уже неделю не могу оторваться.
#Google #Gemini
———
@tsingular
Оказывается это Gemini 2.0 Experimental Advanced
Есть в API
Это вот та модель, от которой я уже неделю не могу оторваться.
#Google #Gemini
———
@tsingular
🔥10
Лаборатория Касперского выпустила гайдлайн по безопасному внедрению ИИ
Масштабы внедрения искусственных интеллектов впечатляют - каждая вторая организация применяет нейросети, треть планирует запуск.
Киберпреступники нанесли ущерб в $8 трлн за 2023 год, что стимулирует развитие защитных механизмов.
Регуляторы активизировались: Китай создал AI Safety Framework, ЕС принял AI Act, США выпустили Executive Order.
Эксперты выделили 8 ключевых направлений защиты: от организационных мер до мониторинга систем.
Основные риски: финансовые потери, репутационный ущерб, проблемы с клиентами, угрозы здоровью пациентов.
Документ содержит практические рекомендации по безопасному развертыванию ИИ-систем с учетом отраслевой специфики.
Теперь у безопасников есть чёткий план действий. 🤖🛡
Документ в комментарии. Ссылка открывается не у всех.
#Kaspersky #cybersecurity #guidelines
-------
@tsingular
Масштабы внедрения искусственных интеллектов впечатляют - каждая вторая организация применяет нейросети, треть планирует запуск.
Киберпреступники нанесли ущерб в $8 трлн за 2023 год, что стимулирует развитие защитных механизмов.
Регуляторы активизировались: Китай создал AI Safety Framework, ЕС принял AI Act, США выпустили Executive Order.
Эксперты выделили 8 ключевых направлений защиты: от организационных мер до мониторинга систем.
Основные риски: финансовые потери, репутационный ущерб, проблемы с клиентами, угрозы здоровью пациентов.
Документ содержит практические рекомендации по безопасному развертыванию ИИ-систем с учетом отраслевой специфики.
Теперь у безопасников есть чёткий план действий. 🤖🛡
Документ в комментарии. Ссылка открывается не у всех.
#Kaspersky #cybersecurity #guidelines
-------
@tsingular
✍1
Salesforce выпускает Agentforce 2.0 - обновлеённую армию цифровых работников
Всего спустя 3 месяца после запуска Agentforce, Salesforce представила обновленную платформу для создания автономных ИИ-агентов.
Ключевые улучшения включают:
- расширенную библиотеку навыков,
- интеграцию со Slack
- улучшенный механизм рассуждений Atlas.
Система демонстрирует впечатляющие результаты: 83% запросов решаются без участия человека, количество обращений к специалистам снизилось вдвое.
Платформа интегрируется с CRM, Tableau и другими системами через MuleSoft и обеспечивает круглосуточную автономную работу.
Крупные компании (Accenture, Indeed, Finnair) уже внедряют решение для автоматизации рекрутинга, продаж и поддержки клиентов.
У них код обновлений тоже уже агенты пилят, похоже. 🤖
#Salesforce #Agentforce #Atlas
-------
@tsingular
Всего спустя 3 месяца после запуска Agentforce, Salesforce представила обновленную платформу для создания автономных ИИ-агентов.
Ключевые улучшения включают:
- расширенную библиотеку навыков,
- интеграцию со Slack
- улучшенный механизм рассуждений Atlas.
Система демонстрирует впечатляющие результаты: 83% запросов решаются без участия человека, количество обращений к специалистам снизилось вдвое.
Платформа интегрируется с CRM, Tableau и другими системами через MuleSoft и обеспечивает круглосуточную автономную работу.
Крупные компании (Accenture, Indeed, Finnair) уже внедряют решение для автоматизации рекрутинга, продаж и поддержки клиентов.
У них код обновлений тоже уже агенты пилят, похоже. 🤖
#Salesforce #Agentforce #Atlas
-------
@tsingular
🔥8🆒1
GitHub Copilot теперь бесплатен для всех в VS Code
Автоматическая интеграция даёт доступ к 2000 завершениям кода и 50 сообщениям чата в месяц.
Достаточно зайти в свою учетную запись GitHub.
Copilot Free дает на выбор модели Anthropic's Claude 3.5 Sonnet или OpenAI's GPT-4o.
Вы можете задать вопрос по кодированию, попросить объяснить существующий код или попросить его найти ошибку.
Стоило только купить Курсор 😂
#GithlHub #Copilot
------
@tsingular
Автоматическая интеграция даёт доступ к 2000 завершениям кода и 50 сообщениям чата в месяц.
Достаточно зайти в свою учетную запись GitHub.
Copilot Free дает на выбор модели Anthropic's Claude 3.5 Sonnet или OpenAI's GPT-4o.
Вы можете задать вопрос по кодированию, попросить объяснить существующий код или попросить его найти ошибку.
Стоило только купить Курсор 😂
#GithlHub #Copilot
------
@tsingular
🔥6👍3👨💻1
Microsoft выпустил PromptWizard: приложение для самообучения промптов
Команда из Microsoft опубликовала исходники PromptWizard - фреймворка для оптимизации промптов с помощью механизма самоэволюции.
Система функционирует через API языковых моделей, генерируя, анализируя и улучшая промпты через итеративный процесс.
Экономит до 60% затрат на вычисления, стоимость оптимизации около $0.05 за задачу.
Демонстрирует впечатляющие результаты: 90% точности на GSM8K и 82.3% на SVAMP при использовании всего 5 примеров.
Включает двухэтапную систему: улучшение инструкций и оптимизацию примеров с механизмом обратной связи.
Блог Microsoft
GitHub
Профессия промпт-инженера быстро устаревает.
Теперь промпты оптимизируют сами себя. 🤖
#Microsoft #PromptWizard #промпты
-------
@tsingular
Команда из Microsoft опубликовала исходники PromptWizard - фреймворка для оптимизации промптов с помощью механизма самоэволюции.
Система функционирует через API языковых моделей, генерируя, анализируя и улучшая промпты через итеративный процесс.
Экономит до 60% затрат на вычисления, стоимость оптимизации около $0.05 за задачу.
Демонстрирует впечатляющие результаты: 90% точности на GSM8K и 82.3% на SVAMP при использовании всего 5 примеров.
Включает двухэтапную систему: улучшение инструкций и оптимизацию примеров с механизмом обратной связи.
Блог Microsoft
GitHub
Профессия промпт-инженера быстро устаревает.
Теперь промпты оптимизируют сами себя. 🤖
#Microsoft #PromptWizard #промпты
-------
@tsingular
🔥10✍1🆒1
Go 1.24 готовится к постквантовому будущему
Грядущее обновление Go 1.24 добавит революционные изменения в безопасность и производительность.
Появится постквантовая криптография с алгоритмами ML-KEM-768/1024 для защиты от атак будущих квантовых компьютеров.
Оптимизирована производительность благодаря Swiss Tables для map и улучшенному управлению памятью, снижая CPU нагрузку на 2-3%.
Добавлены пакеты crypto/hkdf, crypto/pbkdf2, crypto/sha3 и усилены требования к RSA ключам.
Улучшен инструментарий разработчика с поддержкой tool директив в go.mod и JSON-выводом для команд сборки.
Расширена поддержка WebAssembly с WASI Preview 1 и новыми возможностями экспорта.
Релиз запланирован на февраль 2025
Когда твой код готов к квантовому будущему раньше, чем появились сами квантовые компьютеры 🤖
#Golang #Quantum #Cryptography
-------
@tsingular
Грядущее обновление Go 1.24 добавит революционные изменения в безопасность и производительность.
Появится постквантовая криптография с алгоритмами ML-KEM-768/1024 для защиты от атак будущих квантовых компьютеров.
Оптимизирована производительность благодаря Swiss Tables для map и улучшенному управлению памятью, снижая CPU нагрузку на 2-3%.
Добавлены пакеты crypto/hkdf, crypto/pbkdf2, crypto/sha3 и усилены требования к RSA ключам.
Улучшен инструментарий разработчика с поддержкой tool директив в go.mod и JSON-выводом для команд сборки.
Расширена поддержка WebAssembly с WASI Preview 1 и новыми возможностями экспорта.
Релиз запланирован на февраль 2025
Когда твой код готов к квантовому будущему раньше, чем появились сами квантовые компьютеры 🤖
#Golang #Quantum #Cryptography
-------
@tsingular
👨💻3👍2
Forwarded from Анализ данных (Data analysis)
Media is too big
VIEW IN TELEGRAM
⚡️ Сегодня был выпущен мощнейший ИИ-движок для физики под названием Genesis.
Что это такое: это платформа для симуляции физики в виртуальных мирах с элементами искусственного интеллекта, позволяющая генерировать практически любые объекты.
Главная цель — создание трехмерных миров с реалистичной физикой, где можно выполнять различные задачи: обучать роботов, проводить физические эксперименты или разрабатывать анимации для игр.
Почему вокруг него столько шума? Genesis отличается невероятной скоростью (в 10–80 раз быстрее аналогов) и высокой эффективностью.
Например, чтобы научить робота ходить, потребуется всего одна видеокарта RTX 4090 и 26 секунд времени.
Для сравнения, аналогичная тренировка в реальных условиях могла бы занять до 129 дней!
Кроме того, Genesis способен самостоятельно генерировать всё необходимое: будь то трёхмерная среда, физика или анимационные последовательности. Разработчики даже предлагают учёным-физикам использовать платформу для изучения поведения воды в разных условиях.
Ожидаются первые захватывающие анонсы на базе Genesis!
📌 Проект
📌 Github
@data_analysis_ml
Что это такое: это платформа для симуляции физики в виртуальных мирах с элементами искусственного интеллекта, позволяющая генерировать практически любые объекты.
Главная цель — создание трехмерных миров с реалистичной физикой, где можно выполнять различные задачи: обучать роботов, проводить физические эксперименты или разрабатывать анимации для игр.
Почему вокруг него столько шума? Genesis отличается невероятной скоростью (в 10–80 раз быстрее аналогов) и высокой эффективностью.
Например, чтобы научить робота ходить, потребуется всего одна видеокарта RTX 4090 и 26 секунд времени.
Для сравнения, аналогичная тренировка в реальных условиях могла бы занять до 129 дней!
Кроме того, Genesis способен самостоятельно генерировать всё необходимое: будь то трёхмерная среда, физика или анимационные последовательности. Разработчики даже предлагают учёным-физикам использовать платформу для изучения поведения воды в разных условиях.
Ожидаются первые захватывающие анонсы на базе Genesis!
📌 Проект
📌 Github
@data_analysis_ml
👍11🆒4🔥3✍2
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ElevenLabs Flash 2.5
Звук генерится всего за 75 миллисекунд, предназначено это для риалтайм разговоров с ИИ. Доступно только по API, а жаль, локальный хостинг позволил бы срезать несколько десятков миллисекунд сетевой задержки.
Хоть задержка у сетапа на основе такой модельки будет заметно побольше (но не факт), чем у омни-моделей вроде GPT-4o или Gemini 2.0 Flash, но тут больше и контроля - одни кастомные голоса чего стоят.
@ai_newz
Звук генерится всего за 75 миллисекунд, предназначено это для риалтайм разговоров с ИИ. Доступно только по API, а жаль, локальный хостинг позволил бы срезать несколько десятков миллисекунд сетевой задержки.
Хоть задержка у сетапа на основе такой модельки будет заметно побольше (но не факт), чем у омни-моделей вроде GPT-4o или Gemini 2.0 Flash, но тут больше и контроля - одни кастомные голоса чего стоят.
@ai_newz
🔥8🤯1👀1
ИИ дегустирует виски: химический анализ против экспертов
Немецкие исследователи создали высокоточную систему анализа алкоголя.
Платформа распознаёт молекулярные профили 16 марок спиртного из США и Шотландии с 90% точностью.
Нейросеть фиксирует пять ключевых ароматических нот, превосходя экспертную группу из 11 дегустаторов.
В американских напитках доминирует ментол и карамель, шотландские отличаются дымными нотами.
Разработка позволит эффективнее выявлять подделки и контролировать стабильность качества продукции.
Минус профессия сомелье :). 🥃🤖
#Fraunhofer #whiskey #виски #сомелье
-------
@tsingular
Немецкие исследователи создали высокоточную систему анализа алкоголя.
Платформа распознаёт молекулярные профили 16 марок спиртного из США и Шотландии с 90% точностью.
Нейросеть фиксирует пять ключевых ароматических нот, превосходя экспертную группу из 11 дегустаторов.
В американских напитках доминирует ментол и карамель, шотландские отличаются дымными нотами.
Разработка позволит эффективнее выявлять подделки и контролировать стабильность качества продукции.
Минус профессия сомелье :). 🥃🤖
#Fraunhofer #whiskey #виски #сомелье
-------
@tsingular
👍8🤔6❤1
Google выпускает Gemini 2.0 Flash с возможностью рассуждать
Технологический гигант представил экспериментальную версию Gemini 2.0 Flash Thinking, демонстрирующую процесс рассуждений.
Нейросеть специализируется на мультимодальном анализе, программировании и решении сложных математических задач.
Для формирования ответов требуется от нескольких секунд до минут, что обусловлено глубоким анализом и самопроверкой.
Над разработкой трудилось около 200 исследователей, создавая конкурента для o1 от OpenAI, DeepSeek-R1 и Qwen от Alibaba.
Модель пока доступна для тестирования в Google AI Studio.
Интересно что будет популярнее, агенты или модели с рассуждениями.
Есть ощущения, что они значительно перекрывают области применимости друг друга.
#Gemini #GoogleAI #FlashThinking
-------
@tsingular
Технологический гигант представил экспериментальную версию Gemini 2.0 Flash Thinking, демонстрирующую процесс рассуждений.
Нейросеть специализируется на мультимодальном анализе, программировании и решении сложных математических задач.
Для формирования ответов требуется от нескольких секунд до минут, что обусловлено глубоким анализом и самопроверкой.
Над разработкой трудилось около 200 исследователей, создавая конкурента для o1 от OpenAI, DeepSeek-R1 и Qwen от Alibaba.
Модель пока доступна для тестирования в Google AI Studio.
Интересно что будет популярнее, агенты или модели с рассуждениями.
Есть ощущения, что они значительно перекрывают области применимости друг друга.
#Gemini #GoogleAI #FlashThinking
-------
@tsingular
🤔7⚡1
Forwarded from Нескучный Data Science (Евгений Смирнов)
📖 В сети появился бесплатный хендбук по математике для анализа данных
Онлайн-учебник, который помогает прокачать математические знания и попрактиковаться в решении реальных задач, с которыми к DS приходят заказчики, специально ко дню математика составили Яндекс Образование и факультет компьютерных наук НИУ ВШЭ. Одним днем, правда, предлагают не ограничиваться — полезной информации и задачек хватит до конца года.
Первые главы хендбука посвятили графам — особенностям, типам, способам применения.
Уже знакомы с графами? Тогда вот небольшая проверка.
Онлайн-учебник, который помогает прокачать математические знания и попрактиковаться в решении реальных задач, с которыми к DS приходят заказчики, специально ко дню математика составили Яндекс Образование и факультет компьютерных наук НИУ ВШЭ. Одним днем, правда, предлагают не ограничиваться — полезной информации и задачек хватит до конца года.
Первые главы хендбука посвятили графам — особенностям, типам, способам применения.
Уже знакомы с графами? Тогда вот небольшая проверка.
❤7✍3🆒1
Anthropic выпустил базовый гайд по построению ИИ-агентов
Новое руководство раскрывает ключевые принципы создания умных помощников.
Выделены 3 класса систем:
- рабочие процессы,
- автономные агенты,
- расширенные LLM.
Предложены и рассмотрены технические паттерны: цепочки промптов, маршрутизация, параллелизация.
Рекомендовано использовать прямые API вместо фреймворков, документировать интерфейсы, тестировать в песочнице.
Основной критерий выбора архитектуры - баланс между сложностью задачи и необходимой автономностью.
cookbook в блокнотах
В копилку годных гайдов.
#Anthropic #Agents #обучение
-------
@tsingular
Новое руководство раскрывает ключевые принципы создания умных помощников.
Выделены 3 класса систем:
- рабочие процессы,
- автономные агенты,
- расширенные LLM.
Предложены и рассмотрены технические паттерны: цепочки промптов, маршрутизация, параллелизация.
Рекомендовано использовать прямые API вместо фреймворков, документировать интерфейсы, тестировать в песочнице.
Основной критерий выбора архитектуры - баланс между сложностью задачи и необходимой автономностью.
cookbook в блокнотах
В копилку годных гайдов.
#Anthropic #Agents #обучение
-------
@tsingular
✍7👍6❤3
OpenAI анонсировала o3
o2 - не будет :)
Серьёзные качественные улучшения.
Выход модели весной или ближе к лету.
Модели умнее докторов наук и, наверное 96% человечества во всех областях.
Способны решать сложные тесты на интеллект, но это жрёт очень много компьюта - в таблице $1000 на решение ARC-AGI, как раз.
https://t.iss.one/ai_newz/3570
Стоимость под $1000/месяц за подписку, скорее всего, станет нормой.
#openAI #advent
———
@tsingular
o2 - не будет :)
Серьёзные качественные улучшения.
Выход модели весной или ближе к лету.
Модели умнее докторов наук и, наверное 96% человечества во всех областях.
Способны решать сложные тесты на интеллект, но это жрёт очень много компьюта - в таблице $1000 на решение ARC-AGI, как раз.
🎓 SOTA результаты по Frontier Math выросли с 2% до 25%.
💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%.
👨💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO.
🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить.
https://t.iss.one/ai_newz/3570
Стоимость под $1000/месяц за подписку, скорее всего, станет нормой.
#openAI #advent
———
@tsingular
🍾8🎄2 2❤1
Forwarded from Агенты ИИ | AGI_and_RL
Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.
😏
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯5 2👍1🆒1
Технозаметки Малышева
Текущий статус близости к AGI https://lifearchitect.ai/agi/ #AGI #Alan ——— @tsingular
Выход О3 сдвинул индикатор на +4%
https://lifearchitect.ai/agi/
Народ вспоминает, как 2 года назад предсказывали, что Arc-AGI будет пройден на 70% не раньше, чем через 4-5 лет, а то и все 8.
При этом скептики говорят, что о3, - это подгонка под результат, потому что тест ARC-AGI 2 o3 уже проходит лишь на 30%, а не на 70%, хотя там абсолютно та же механика, просто другой набор задач.
Получается о3, натренили чисто на ARC-AGI 1.
Но тут же лишь бы начать. Через пару лет будет на 90% проходить любые варианты ARC-AGI N, вот тогда будет ещё веселее. Правда по $10К за решение 1 задачи, но, наверное, некоторые задачи того стОят.
Опять же появление сверх-эффективных моделей это ещё не AGI, но оно даёт разработчиками и учёным возможностью быстрее создать AGI, решая комплексные проблемы за минуты там, где раньше нужны были годы.
А ещё интересно посмотреть ретроспективно на весь движ, что был в OpeanAI последние пол-года.
Ведь о3, которую вчера показали, её же не позавчера сделали :) про неё все внутри знали. И правительство знало и минобороны и много кто ещё.
Поэтому берём новости за пол-года и перечитываем в контексте, - "узнав, что есть модель уровня о3, они ... " и дальше по тексту.
#Alan #AGI #OpenAI #o3
———
@tsingular
https://lifearchitect.ai/agi/
Народ вспоминает, как 2 года назад предсказывали, что Arc-AGI будет пройден на 70% не раньше, чем через 4-5 лет, а то и все 8.
При этом скептики говорят, что о3, - это подгонка под результат, потому что тест ARC-AGI 2 o3 уже проходит лишь на 30%, а не на 70%, хотя там абсолютно та же механика, просто другой набор задач.
Получается о3, натренили чисто на ARC-AGI 1.
Но тут же лишь бы начать. Через пару лет будет на 90% проходить любые варианты ARC-AGI N, вот тогда будет ещё веселее. Правда по $10К за решение 1 задачи, но, наверное, некоторые задачи того стОят.
Опять же появление сверх-эффективных моделей это ещё не AGI, но оно даёт разработчиками и учёным возможностью быстрее создать AGI, решая комплексные проблемы за минуты там, где раньше нужны были годы.
А ещё интересно посмотреть ретроспективно на весь движ, что был в OpeanAI последние пол-года.
Ведь о3, которую вчера показали, её же не позавчера сделали :) про неё все внутри знали. И правительство знало и минобороны и много кто ещё.
Поэтому берём новости за пол-года и перечитываем в контексте, - "узнав, что есть модель уровня о3, они ... " и дальше по тексту.
#Alan #AGI #OpenAI #o3
———
@tsingular
1👍6🔥3 2