Технозаметки Малышева

Надо сказать Музей Будущего после Gitex не выглядит как будущее 😀

Красивое настоящее,- да.

#Museum #Future #Dubai
------
@tsingular

😁6💯6⚡2😍2✍1👏1🤩1

2.22K views16:01

Технозаметки Малышева

Forwarded from Neural Kovalskii

SGR Deep Research топ 3 в open-source!

Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей

Хочу с вами поделится очень крутыми новостями!

Бенчмарк и новые фичи!

Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM

<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>

3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description

4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)

5) Я разнес тул вэб поиска на /search и /extract

5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента

Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)

Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!

Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок

Тестовый прогон на SimpleQA Verified

Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).

Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o

Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.

Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705

Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо

С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.

Оценка SGR Deep Research на SimpleQA

В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)

Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861

Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)

Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий

Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами

Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!

Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!

Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract

Полный тест такого бенчмарка обошелся в $170

Далее мы планируем оценить работу агента уже на локальных LLM

Репо: https://github.com/vamplabAI/sgr-deep-research

P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)

12👍6🔥6❤1

2.82K views19:52

Технозаметки Малышева

0:59

Media is too big

VIEW IN TELEGRAM

Это генерация, но вот вопрос, -
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?

1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.

Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.

#роботы #Tesla
———
@tsingular

💯23🔥13🆒3❤2😢2👾2🤔1

7.91K views03:42

Технозаметки Малышева

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Только вот руку за $5.5 смотрели, а вот уже проект Tetherai.ai за $314 похожую предлагает.

Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.

18кг поднимает. см. комменты.

Всегда найдётся китаец, который все сделает лучше и дешевле.

Исходники

😀

#tetherai #роботы #руки
------
@tsingular

⚡14👍11👌4🤔3✍2❤1💯1🆒1

4.43K viewsedited 05:00

Технозаметки Малышева

Forwarded from RoboFuture

На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.

👍15❤12🔥9✍1🙏1🤣1

3.71K views17:23

Технозаметки Малышева

1:10

Media is too big

VIEW IN TELEGRAM

SharpaWave - новая рука из Сингапура от Sharp Robotics.

Выглядит невероятно.
Шестеренки эти особенно.
Это же как наручные часы, в принципе. Намного сложнее, чем связки или только актуаторы.

Космос, в общем. Вероятно как и цена.
В коммент кину еще видео со стенда.

#Sharp #SharpaWave
------
@tsingular

🔥44👀14👍10❤3⚡2🏆1

8.41K viewsedited 19:10

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Will Smith в Veo 3.1

Мне кажется, это уже AGI...

Тут и звук, и макаронина.

Сколько Виллов Смитов дадим?

@cgevent

🔥15👍12⚡2👾1

3.32K views10:24

Технозаметки Малышева

После поездки собралось около 500 фоток разных.
Причем все в перемешку.
И виды на город и слайды с конференции.

Написал сортировщик, который с помощью локальной модели на ноутбуке их распознает и раскидывает по разным папкам с моделью gemma3:27b и в базе делает описание каждой.

очень удобный этот ваш ИИ.

как отработает, посмотрю результат и может выложу на гите через пару дней.

обработка 1 фотки - 18 секунд

#dev
———
@tsingular

🔥22✍8❤3

3K viewsedited 12:50

Технозаметки Малышева

В последнее время много споров на эту тему, а тем временем IBM в своей инструкции 1979 года уже все обозначили.

«Компьютер никогда не может быть привлечен к ответственности, поэтому компьютер никогда не должен принимать управленческие решения».

– IBM Training Manual, 1979

ну и теперь обновили рекомендации.

Кратко: держите человека "под рукой" если решения ответственные, но часть низкорисковых все-таки можно доверить ИИ.

source

#IBM #риски #документация
———
@tsingular

✍13👍5😁3⚡2❤1

3.16K viewsedited 14:22

Технозаметки Малышева

Forwarded from e/acc

0:56

Media is too big

VIEW IN TELEGRAM

Как в анекдоте про электропарикмахерские:

— но ведь голова у всех же разной формы!
— это только до первой стрижки…

😁28💯6👏5🤣4👀1

2.8K views15:08

Технозаметки Малышева

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

Вот как это может быть, например.

Пока ещё псом управляет оператор, но это временно.

Больше ценных специалистов смогут освободить свое время для более важных вещей, чем курьерство.

#роботы #курьеры #собаки
------
@tsingular

👍20✍3⚡3❤‍🔥3❤2😁2

6.63K views16:51

Технозаметки Малышева

Forwarded from Адель и МЛь

Свежий цирк с ИИ и математикой.

Парни из OpenAI запостили, что с помощью gpt-5 удалось найти решения 10 открытых проблем Эрдёша. (Это такие математические головоломки про то, как расставлять точки на плоскости, чтобы они были везде близко, но не слишком, как складывать числа, чтобы не повторяться или как строить графы, чтобы в них всегда были циклы нужной длины)

Почти для всех это звучало как «gpt-5 решил нерешенную математику». ИИ рвет ученых в щепки, мы обречены, вот это вот всё.

Реальность оказалась проще: gpt-5 нашел старые статьи с решениями, которые банально пропустили раньше. Тоже неплохо, но уже не так сочно.

Прокомментил аж CEO Google DeepMind (нобелевский лауреат межу прочим) - «это стыдоба».

Оригинальный пост автор уже удалил со словами «сорян, я думал очевидно, что я имею ввиду». Правда это или отмазки - решайте сами.

Короче, математика жива, ИИ - еще не бог (пока что). Продолжаем жечь токены.

😁16👍6🔥4❤3

2.06K views19:39

Технозаметки Малышева

DeepMind + Commonwealth Fusion Systems: ИИ для термояда

Google DeepMind объединился с CFS, чтобы довести до ума SPARC — первый токамак, который должен выдать больше энергии, чем потребляет.

В дело идёт TORAX — симулятор плазмы на JAX, который прогоняет миллионы виртуальных экспериментов до запуска реактора. RL-агенты ищут оптимальные настройки магнитов, топливной инжекции и нагрева, чтобы плазма при 100+ млн градусов не развалилась.

Особая задача — размазать концентрированный тепловой поток по стенкам через магнитную развёртку (~1 Гц). Но пока нет полноценной валидации: как RL-траектории впишутся в лимиты HTS-катушек, вихревые токи и механику в реальном времени.

Devon Battaglia из CFS говорит, что TORAX сэкономил им кучу времени на настройку симуляций.

Сначала RL играл в Dota, теперь рулит плазмой при температуре Солнца. Масштабируемся.

#SPARC #Fusion #TORAX
------
@tsingular

🔥7⚡3👍3❤1

2.03K views19:40

Технозаметки Малышева

Маск сотоварищи достроили к своему GPU кластеру 100К видеокарт (Nvidia H200 Blackwell) за 19 дней.

Раньше на это уходили годы.
Ждем новый Grok5 ASAP.

#Musk #Grok #GPU
———
@tsingular

👀12🤯65❤1

2.48K viewsedited 19:44

Технозаметки Малышева

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Oracle Database 26ai: ИИ встроили в базу данных

Oracle выкатили Database 26ai - первую СУБД, где ИИ живёт внутри самой базы, а не где-то снаружи через API.

Теперь можно делать семантический поиск, генерить текст и анализировать данные SQL-запросами.
Никаких внешних сервисов - модели крутятся локально на серверах с базой.

Поддержка векторов, RAG из коробки, интеграция с популярными LLM.

Оракл обещает, что это ускорит работу с данными в разы - не нужно гонять информацию туда-сюда между базой и ИИ-сервисами.

По сути, они превратили классическую реляционную БД в AI-native платформу.
Данные и интеллект теперь в одном месте.

Напоминает Vertex от Google.

#Oracle #Database
------
@tsingular

👍17⚡3

2.33K viewsedited 05:17

Технозаметки Малышева

Amazon удвоила инвестиции в Anthropic до $8 млрд

Amazon вложила ещё $4 млрд в Anthropic, доведя общий объём до $8 млрд.
Взамен Anthropic делает AWS основным партнёром для обучения моделей и будет тренировать их на Trainium — собственных чипах Amazon.

Claude на Bedrock уже используют десятки тысяч компаний и миллионы пользователей. Клиенты AWS получат ранний доступ к дообучению новых моделей на своих данных.

Trainium2 обходится на 50-70% дешевле Nvidia H100 за миллиард токенов, но пока отстаёт по производительности.

Всё это на фоне антимонопольных разбирательств: Минюст США требует разорвать партнёрство Google с Anthropic, а британский регулятор CMA уже одобрил сделку.

Доля Anthropic на корпоративном рынке выросла с 12% до 24% за год.

#Amazon #Anthropic #Trainium #AWS
------
@tsingular

❤3🔥3👍1

1.85K views05:46

About

Blog

Apps

Platform