Технозаметки Малышева
8.64K subscribers
3.84K photos
1.43K videos
40 files
4.01K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Code Learning
Media is too big
VIEW IN TELEGRAM
Veo 3.1 — это генератор целой 1 минуты видео и чистое 1080p.

Ролики теперь не разваливаются: персонажи держат лицо и одежду, камера плывёт, сюжет тянется без дерганий. Было 8 секунд, стало 60 — плюс мультипромпты: даёшь несколько описаний, Veo склеивает их в единую сцену с переходами.

⤷ Ознакомиться на сайте

CodeLearning
👍17🤯12🔥102🎃1
Qwen3-VL доступна в облаке Ollama

Самая мощная визуальная модель из серии Qwen теперь работает в облаке Ollama.
Флагман Qwen3-VL-235B с контекстом 256K токенов (расширяется до миллиона) умеет обрабатывать несколько изображений, делать OCR на 32 языках и решать математические задачи.

Работает через CLI, Python и JavaScript библиотеки.

Бесплатный доступ с почасовыми лимитами.
Скоро обещают локальную версию.

#Qwen3VL #Ollama #VisionLLM
------
@tsingular
👍1052
Anthropic выпустили Claude Haiku 4.5

Модель даёт производительность Sonnet 4 в коде, но втрое дешевле и вдвое быстрее.
Стоимость: $1/$5 за миллион токенов на вход/выход.

Хайку превосходит Сонет 4 в работе с компьютером (Terminal Bench) и получил ASL-2 - самый безопасный релиз по метрикам misalignment.

Проезный сценарий теперь: Sonnet 4.5 оркестрирующий несколько Haiku 4.5 параллельно.

По ряду метрик обходит даже GPT5

Доступен в API, Amazon Bedrock, Vertex AI и Claude Code.

То, что пять месяцев назад было флагманом, теперь - эконом вариант.

#Claude #Haiku #Anthropic
------
@tsingular
🔥53👍31
Media is too big
VIEW IN TELEGRAM
Wuji Tech показала робо-руку с моторами прямо в пальцах

Китайская Wuji Tech выпустила руку манипулятор с микроактуаторами внутри каждой фаланги - всего 20 суставов.

Форма ладони более менее реалистичная, но не полностью копирует человеческую подвижность, - все пальцы одной длины, а большой палец касается мизинца боком, а не подушечкой.

В видео показывают поднятие 5 кг гантели двумя пальцами и хват 20 кг бутыли с водой.
Особенно впечатлили ножницы :)

Весит менее 600г, цена около $5.5К

#WujiTech #Wuji #роботы #Китай
———
@tsingular
🔥13👍821
Opus 4.1 когда вышел?
Уже Legacy 😀

Ждём Opus 4.5, получается.

#Opus #Anthropic
------
@tsingular
52
A2AS: вариант фреймворка по безопасности агентных ИИ

Группа разработчиков предложила A2AS — фреймворк для сертификации поведения агентов и защиты во время исполнения.

Идея как с HTTPS: агенты получают сертификаты поведения, которые ограничивают их действия заявленными возможностями.

Фреймворк:
- разделяет системные инструкции от внешних входных данных
- привязывает промпты к корпоративным идентификаторам для контроля доступа
- встраивает политики как код для соблюдения бизнес-правил
- логирует все действия агентов

PDF

#A2AS #Aгенты #cybersecurity
------
@tsingular
🔥4
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
СОЗДАВАЙТЕ ВИДЕО ПРЯМО В TELEGRAM 💃

Вы просили — мы сделали! GigaChat теперь генерирует видео и оживляет ваши фотографии с помощью модели Kandinsky

Как начать: откройте GigaChat в Telegram → Меню → «Создать видео»


Превращаем текст в видео
1️⃣ Укажите формат (горизонтальное или вертикальное, квадрат)
2️⃣ Напишите запрос, например: «Мальчик едет по полю на велосипеде»


Делаем видео из картинки
1️⃣ Загрузите своё изображение
2️⃣ Опишите действие объекта, например, если на фото человек: «Улыбается и открывает ноутбук»


По желанию вы можете выбрать движение камеры: приближение, отдаление, вращение вокруг объекта и другое

Нажмите «Создать» и подождите, пока ваше видео появится в мини-аппе 🏆

Всем пользователям доступно 10 генераций — собирайте контент для соцсетей, промо, креативных и учебных проектов

🎁 Как получить больше генераций
🔘 +10 в день за вход по Сбер ID
🔘 +10 за каждого приглашённого друга
🔘 Максимум — 40 видео в день


Пробуйте и делитесь результатами в комментариях
👇
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥41
Искусственный Интеллект,- это по сути линия технологического горизонта.

Как только очередная умная технология реализована, мы перестаём называть её ИИ, а она превращается в обыденное ML приложение.

И мы под ИИ начинаем подразумевать нечто новое на пути прогресса, так же недостижимое как и горизонт.

Что интересно,- эти линии для всех разные. Отсюда и конфликты в которых одни некую технологию все еще называют ИИ, а для других это уже обыденное приложение и с их точки зрения ИИ ещё далеко.

Будет AGI - найдём причины сказать, что это еще не ИИ, вот будет ASI,- тогда даа.. :)

#мысли #горизонт
------
@tsingular
💯942👍1
Страшновато такое вживую видеть. :)

Сначала подумал это манекены рекламируют очки.

#VR #gitex
------
@tsingular
🤣17👀10🔥3😭21🍓1
Надо сказать Музей Будущего после Gitex не выглядит как будущее 😀

Красивое настоящее,- да.

#Museum #Future #Dubai
------
@tsingular
😁6💯62😍21👏1🤩1
Forwarded from Neural Kovalskii
SGR Deep Research топ 3 в open-source!

Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей

Хочу с вами поделится очень крутыми новостями!

Бенчмарк и новые фичи!

Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM
<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>

3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description

4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)

5) Я разнес тул вэб поиска на /search и /extract

5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента

Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)

Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!

Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок

Тестовый прогон на SimpleQA Verified

Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).

Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o

Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.

Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705

Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо

С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.

Оценка SGR Deep Research на SimpleQA

В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)

Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861

Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)

Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий

Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами

Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!

Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!


Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract

Полный тест такого бенчмарка обошелся в $170

Далее мы планируем оценить работу агента уже на локальных LLM

Репо: https://github.com/vamplabAI/sgr-deep-research

P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)
12👍6🔥61
Media is too big
VIEW IN TELEGRAM
Это генерация, но вот вопрос, -
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?

1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.

Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.

#роботы #Tesla
———
@tsingular
💯23🔥13🆒32😢2👾2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Только вот руку за $5.5 смотрели, а вот уже проект Tetherai.ai за $314 похожую предлагает.

Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.

18кг поднимает. см. комменты.

Всегда найдётся китаец, который все сделает лучше и дешевле.

Исходники

😀

#tetherai #роботы #руки
------
@tsingular
14👍11👌4🤔321💯1🆒1