Anthropic выпустили Claude Haiku 4.5
Модель даёт производительность Sonnet 4 в коде, но втрое дешевле и вдвое быстрее.
Стоимость: $1/$5 за миллион токенов на вход/выход.
Хайку превосходит Сонет 4 в работе с компьютером (Terminal Bench) и получил ASL-2 - самый безопасный релиз по метрикам misalignment.
Проезный сценарий теперь: Sonnet 4.5 оркестрирующий несколько Haiku 4.5 параллельно.
По ряду метрик обходит даже GPT5
Доступен в API, Amazon Bedrock, Vertex AI и Claude Code.
То, что пять месяцев назад было флагманом, теперь - эконом вариант.
#Claude #Haiku #Anthropic
------
@tsingular
Модель даёт производительность Sonnet 4 в коде, но втрое дешевле и вдвое быстрее.
Стоимость: $1/$5 за миллион токенов на вход/выход.
Хайку превосходит Сонет 4 в работе с компьютером (Terminal Bench) и получил ASL-2 - самый безопасный релиз по метрикам misalignment.
Проезный сценарий теперь: Sonnet 4.5 оркестрирующий несколько Haiku 4.5 параллельно.
По ряду метрик обходит даже GPT5
Доступен в API, Amazon Bedrock, Vertex AI и Claude Code.
То, что пять месяцев назад было флагманом, теперь - эконом вариант.
#Claude #Haiku #Anthropic
------
@tsingular
🔥5⚡3👍3 1
Media is too big
VIEW IN TELEGRAM
Wuji Tech показала робо-руку с моторами прямо в пальцах
Китайская Wuji Tech выпустила руку манипулятор с микроактуаторами внутри каждой фаланги - всего 20 суставов.
Форма ладони более менее реалистичная, но не полностью копирует человеческую подвижность, - все пальцы одной длины, а большой палец касается мизинца боком, а не подушечкой.
В видео показывают поднятие 5 кг гантели двумя пальцами и хват 20 кг бутыли с водой.
Особенно впечатлили ножницы :)
Весит менее 600г, цена около $5.5К
#WujiTech #Wuji #роботы #Китай
———
@tsingular
Китайская Wuji Tech выпустила руку манипулятор с микроактуаторами внутри каждой фаланги - всего 20 суставов.
Форма ладони более менее реалистичная, но не полностью копирует человеческую подвижность, - все пальцы одной длины, а большой палец касается мизинца боком, а не подушечкой.
В видео показывают поднятие 5 кг гантели двумя пальцами и хват 20 кг бутыли с водой.
Особенно впечатлили ножницы :)
Весит менее 600г, цена около $5.5К
#WujiTech #Wuji #роботы #Китай
———
@tsingular
🔥13👍8⚡2❤1
A2AS: вариант фреймворка по безопасности агентных ИИ
Группа разработчиков предложила A2AS — фреймворк для сертификации поведения агентов и защиты во время исполнения.
Идея как с HTTPS: агенты получают сертификаты поведения, которые ограничивают их действия заявленными возможностями.
Фреймворк:
- разделяет системные инструкции от внешних входных данных
- привязывает промпты к корпоративным идентификаторам для контроля доступа
- встраивает политики как код для соблюдения бизнес-правил
- логирует все действия агентов
PDF
#A2AS #Aгенты #cybersecurity
------
@tsingular
Группа разработчиков предложила A2AS — фреймворк для сертификации поведения агентов и защиты во время исполнения.
Идея как с HTTPS: агенты получают сертификаты поведения, которые ограничивают их действия заявленными возможностями.
Фреймворк:
- разделяет системные инструкции от внешних входных данных
- привязывает промпты к корпоративным идентификаторам для контроля доступа
- встраивает политики как код для соблюдения бизнес-правил
- логирует все действия агентов
#A2AS #Aгенты #cybersecurity
------
@tsingular
🔥4
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
СОЗДАВАЙТЕ ВИДЕО ПРЯМО В TELEGRAM 💃
Вы просили — мы сделали! GigaChat теперь генерирует видео и оживляет ваши фотографии с помощью модели Kandinsky
Превращаем текст в видео
Делаем видео из картинки
По желанию вы можете выбрать движение камеры: приближение, отдаление, вращение вокруг объекта и другое
Нажмите «Создать» и подождите, пока ваше видео появится в мини-аппе🏆
Всем пользователям доступно 10 генераций — собирайте контент для соцсетей, промо, креативных и учебных проектов
🎁 Как получить больше генераций
Пробуйте и делитесь результатами в комментариях👇
Вы просили — мы сделали! GigaChat теперь генерирует видео и оживляет ваши фотографии с помощью модели Kandinsky
Как начать: откройте GigaChat в Telegram → Меню → «Создать видео»
Превращаем текст в видео
1️⃣ Укажите формат (горизонтальное или вертикальное, квадрат)2️⃣ Напишите запрос, например: «Мальчик едет по полю на велосипеде»
Делаем видео из картинки
1️⃣ Загрузите своё изображение2️⃣ Опишите действие объекта, например, если на фото человек: «Улыбается и открывает ноутбук»
По желанию вы можете выбрать движение камеры: приближение, отдаление, вращение вокруг объекта и другое
Нажмите «Создать» и подождите, пока ваше видео появится в мини-аппе
Всем пользователям доступно 10 генераций — собирайте контент для соцсетей, промо, креативных и учебных проектов
🔘 +10 в день за вход по Сбер ID🔘 +10 за каждого приглашённого друга🔘 Максимум — 40 видео в день
Пробуйте и делитесь результатами в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4⚡1
Искусственный Интеллект,- это по сути линия технологического горизонта.
Как только очередная умная технология реализована, мы перестаём называть её ИИ, а она превращается в обыденное ML приложение.
И мы под ИИ начинаем подразумевать нечто новое на пути прогресса, так же недостижимое как и горизонт.
Что интересно,- эти линии для всех разные. Отсюда и конфликты в которых одни некую технологию все еще называют ИИ, а для других это уже обыденное приложение и с их точки зрения ИИ ещё далеко.
Будет AGI - найдём причины сказать, что это еще не ИИ, вот будет ASI,- тогда даа.. :)
#мысли #горизонт
------
@tsingular
Как только очередная умная технология реализована, мы перестаём называть её ИИ, а она превращается в обыденное ML приложение.
И мы под ИИ начинаем подразумевать нечто новое на пути прогресса, так же недостижимое как и горизонт.
Что интересно,- эти линии для всех разные. Отсюда и конфликты в которых одни некую технологию все еще называют ИИ, а для других это уже обыденное приложение и с их точки зрения ИИ ещё далеко.
Будет AGI - найдём причины сказать, что это еще не ИИ, вот будет ASI,- тогда даа.. :)
#мысли #горизонт
------
@tsingular
💯9✍4❤2👍1
Страшновато такое вживую видеть. :)
Сначала подумал это манекены рекламируют очки.
#VR #gitex
------
@tsingular
Сначала подумал это манекены рекламируют очки.
#VR #gitex
------
@tsingular
🤣17👀10🔥3😭2❤1🍓1
Надо сказать Музей Будущего после Gitex не выглядит как будущее 😀
Красивое настоящее,- да.
#Museum #Future #Dubai
------
@tsingular
Красивое настоящее,- да.
#Museum #Future #Dubai
------
@tsingular
😁6💯6⚡2😍2✍1👏1🤩1
Forwarded from Neural Kovalskii
SGR Deep Research топ 3 в open-source!
Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей
Хочу с вами поделится очень крутыми новостями!
Бенчмарк и новые фичи!
Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM
3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description
4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)
5) Я разнес тул вэб поиска на /search и /extract
5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента
Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)
Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!
Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок
Тестовый прогон на SimpleQA Verified
Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).
Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o
Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.
Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705
Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо
С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.
Оценка SGR Deep Research на SimpleQA
В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)
Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861
Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)
Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий
Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами
Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!
Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!
Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract
Полный тест такого бенчмарка обошелся в $170
Далее мы планируем оценить работу агента уже на локальных LLM
Репо: https://github.com/vamplabAI/sgr-deep-research
P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)
Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей
Хочу с вами поделится очень крутыми новостями!
Бенчмарк и новые фичи!
Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM
<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>
3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description
4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)
5) Я разнес тул вэб поиска на /search и /extract
5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента
Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)
Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!
Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок
Тестовый прогон на SimpleQA Verified
Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).
Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o
Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.
Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705
Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо
С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.
Оценка SGR Deep Research на SimpleQA
В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)
Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861
Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)
Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий
Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами
Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!
Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!
Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract
Полный тест такого бенчмарка обошелся в $170
Далее мы планируем оценить работу агента уже на локальных LLM
Репо: https://github.com/vamplabAI/sgr-deep-research
P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)
12👍6🔥6❤1
Media is too big
VIEW IN TELEGRAM
Это генерация, но вот вопрос, -
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?
1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.
Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.
#роботы #Tesla
———
@tsingular
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?
1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.
Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.
#роботы #Tesla
———
@tsingular
💯23🔥13🆒3❤2😢2👾2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Только вот руку за $5.5 смотрели, а вот уже проект Tetherai.ai за $314 похожую предлагает.
Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.
18кг поднимает. см. комменты.
Всегда найдётся китаец, который все сделает лучше и дешевле.
Исходники
😀
#tetherai #роботы #руки
------
@tsingular
Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.
18кг поднимает. см. комменты.
Всегда найдётся китаец, который все сделает лучше и дешевле.
Исходники
😀
#tetherai #роботы #руки
------
@tsingular
⚡14👍11👌4🤔3✍2❤1💯1🆒1
Forwarded from RoboFuture
На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.
Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.
Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.
Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.
Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский
Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.
Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.
Как запускать и то и другое описал в ридми.
Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.
Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.
Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.
Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский
Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.
Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.
Как запускать и то и другое описал в ридми.
Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
👍15❤12🔥9✍1🙏1🤣1
Media is too big
VIEW IN TELEGRAM
SharpaWave - новая рука из Сингапура от Sharp Robotics.
Выглядит невероятно.
Шестеренки эти особенно.
Это же как наручные часы, в принципе. Намного сложнее, чем связки или только актуаторы.
Космос, в общем. Вероятно как и цена.
В коммент кину еще видео со стенда.
#Sharp #SharpaWave
------
@tsingular
Выглядит невероятно.
Шестеренки эти особенно.
Это же как наручные часы, в принципе. Намного сложнее, чем связки или только актуаторы.
Космос, в общем. Вероятно как и цена.
В коммент кину еще видео со стенда.
#Sharp #SharpaWave
------
@tsingular
🔥44👀14👍10❤3⚡2🏆1