Технозаметки Малышева

Anthropic выпустили Claude Haiku 4.5

Модель даёт производительность Sonnet 4 в коде, но втрое дешевле и вдвое быстрее.
Стоимость: $1/$5 за миллион токенов на вход/выход.

Хайку превосходит Сонет 4 в работе с компьютером (Terminal Bench) и получил ASL-2 - самый безопасный релиз по метрикам misalignment.

Проезный сценарий теперь: Sonnet 4.5 оркестрирующий несколько Haiku 4.5 параллельно.

По ряду метрик обходит даже GPT5

Доступен в API, Amazon Bedrock, Vertex AI и Claude Code.

То, что пять месяцев назад было флагманом, теперь - эконом вариант.

#Claude #Haiku #Anthropic
------
@tsingular

🔥5⚡3👍31

1.88K views20:00

Технозаметки Малышева

3:22

Media is too big

VIEW IN TELEGRAM

Wuji Tech показала робо-руку с моторами прямо в пальцах

Китайская Wuji Tech выпустила руку манипулятор с микроактуаторами внутри каждой фаланги - всего 20 суставов.

Форма ладони более менее реалистичная, но не полностью копирует человеческую подвижность, - все пальцы одной длины, а большой палец касается мизинца боком, а не подушечкой.

В видео показывают поднятие 5 кг гантели двумя пальцами и хват 20 кг бутыли с водой.
Особенно впечатлили ножницы :)

Весит менее 600г, цена около $5.5К

#WujiTech #Wuji #роботы #Китай
———
@tsingular

🔥13👍8⚡2❤1

6.29K views05:29

Технозаметки Малышева

Opus 4.1 когда вышел?
Уже Legacy 😀

Ждём Opus 4.5, получается.

#Opus #Anthropic
------
@tsingular

✍5❤2

1.76K views07:18

Технозаметки Малышева

A2AS: вариант фреймворка по безопасности агентных ИИ

Группа разработчиков предложила A2AS — фреймворк для сертификации поведения агентов и защиты во время исполнения.

Идея как с HTTPS: агенты получают сертификаты поведения, которые ограничивают их действия заявленными возможностями.

Фреймворк:
- разделяет системные инструкции от внешних входных данных
- привязывает промпты к корпоративным идентификаторам для контроля доступа
- встраивает политики как код для соблюдения бизнес-правил
- логирует все действия агентов

PDF

#A2AS #Aгенты #cybersecurity
------
@tsingular

🔥4

2.26K viewsedited 08:40

Технозаметки Малышева

Forwarded from GigaChat

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

СОЗДАВАЙТЕ ВИДЕО ПРЯМО В TELEGRAM 💃

Вы просили — мы сделали! GigaChat теперь генерирует видео и оживляет ваши фотографии с помощью модели Kandinsky

Как начать: откройте GigaChat в Telegram → Меню → «Создать видео»

Превращаем текст в видео

1️⃣ Укажите формат (горизонтальное или вертикальное, квадрат)
2️⃣ Напишите запрос, например: «Мальчик едет по полю на велосипеде»

Делаем видео из картинки

1️⃣ Загрузите своё изображение
2️⃣ Опишите действие объекта, например, если на фото человек: «Улыбается и открывает ноутбук»

По желанию вы можете выбрать движение камеры: приближение, отдаление, вращение вокруг объекта и другое

Нажмите «Создать» и подождите, пока ваше видео появится в мини-аппе 🏆

Всем пользователям доступно 10 генераций — собирайте контент для соцсетей, промо, креативных и учебных проектов

🎁 Как получить больше генераций

🔘 +10 в день за вход по Сбер ID
🔘 +10 за каждого приглашённого друга
🔘 Максимум — 40 видео в день

Пробуйте и делитесь результатами в комментариях 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4⚡1

1.75K views10:01

Технозаметки Малышева

Искусственный Интеллект,- это по сути линия технологического горизонта.

Как только очередная умная технология реализована, мы перестаём называть её ИИ, а она превращается в обыденное ML приложение.

И мы под ИИ начинаем подразумевать нечто новое на пути прогресса, так же недостижимое как и горизонт.

Что интересно,- эти линии для всех разные. Отсюда и конфликты в которых одни некую технологию все еще называют ИИ, а для других это уже обыденное приложение и с их точки зрения ИИ ещё далеко.

Будет AGI - найдём причины сказать, что это еще не ИИ, вот будет ASI,- тогда даа.. :)

#мысли #горизонт
------
@tsingular

💯9✍4❤2👍1

1.84K viewsedited 10:10

Технозаметки Малышева

Страшновато такое вживую видеть. :)

Сначала подумал это манекены рекламируют очки.

#VR #gitex
------
@tsingular

🤣17👀10🔥3😭2❤1🍓1

2.66K viewsedited 11:35

Технозаметки Малышева

1:57

Media is too big

VIEW IN TELEGRAM

Надо сказать Музей Будущего после Gitex не выглядит как будущее 😀

Красивое настоящее,- да.

#Museum #Future #Dubai
------
@tsingular

😁6💯6⚡2😍2✍1👏1🤩1

2.22K views16:01

Технозаметки Малышева

Forwarded from Neural Kovalskii

SGR Deep Research топ 3 в open-source!

Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей

Хочу с вами поделится очень крутыми новостями!

Бенчмарк и новые фичи!

Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM

<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>

3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description

4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)

5) Я разнес тул вэб поиска на /search и /extract

5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента

Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)

Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!

Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок

Тестовый прогон на SimpleQA Verified

Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).

Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o

Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.

Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705

Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо

С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.

Оценка SGR Deep Research на SimpleQA

В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)

Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861

Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)

Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий

Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами

Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!

Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!

Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract

Полный тест такого бенчмарка обошелся в $170

Далее мы планируем оценить работу агента уже на локальных LLM

Репо: https://github.com/vamplabAI/sgr-deep-research

P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)

12👍6🔥6❤1

2.82K views19:52

Технозаметки Малышева

0:59

Media is too big

VIEW IN TELEGRAM

Это генерация, но вот вопрос, -
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?

1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.

Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.

#роботы #Tesla
———
@tsingular

💯23🔥13🆒3❤2😢2👾2🤔1

7.91K views03:42

Технозаметки Малышева

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Только вот руку за $5.5 смотрели, а вот уже проект Tetherai.ai за $314 похожую предлагает.

Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.

18кг поднимает. см. комменты.

Всегда найдётся китаец, который все сделает лучше и дешевле.

Исходники

😀

#tetherai #роботы #руки
------
@tsingular

⚡14👍11👌4🤔3✍2❤1💯1🆒1

4.43K viewsedited 05:00

Технозаметки Малышева

Forwarded from RoboFuture

На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.

👍15❤12🔥9✍1🙏1🤣1

3.71K views17:23

Технозаметки Малышева

1:10

Media is too big

VIEW IN TELEGRAM

SharpaWave - новая рука из Сингапура от Sharp Robotics.

Выглядит невероятно.
Шестеренки эти особенно.
Это же как наручные часы, в принципе. Намного сложнее, чем связки или только актуаторы.

Космос, в общем. Вероятно как и цена.
В коммент кину еще видео со стенда.

#Sharp #SharpaWave
------
@tsingular

🔥44👀14👍10❤3⚡2🏆1

8.41K viewsedited 19:10

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)