Технозаметки Малышева
8.49K subscribers
3.8K photos
1.42K videos
40 files
3.98K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
OpenAI подписал контракт с Oracle на $30 млрд в год

OpenAI заключил соглашение с Oracle на сумму $30 млрд ежегодно 💰
Контракт предусматривает сдачу в аренду мощностей датацентров Оракла в эквиваленте 4.5 ГВт под задачи OpenAI.

Это один из крупнейших облачных договоров в истории индустрии.
Инфраструктура будет распределена между несколькими площадками Oracle Cloud.

Что-то какие-то доткомовские флэшбэки мучают, когда 2 ИИ игрока начинают друг другу в аренду мощности сдавать и модели хостить.
Какая-то деривативная рекурсия возникает, не находите?

#OpenAI #Oracle #Cloud
———
@tsingular
💯1332
This media is not supported in your browser
VIEW IN TELEGRAM
В Steam появилась игра Virtual Girlfriend

В Steam появилась новая игра Virtual Girlfriend — симулятор виртуальных отношений с ИИ-персонажем.

Игра позволяет создать собственную виртуальную подругу и общаться с ней через продвинутую систему искусственного интеллекта.

Персонаж с LLM и TTS может поддерживать разговоры, запоминать детали общения и развивать отношения.

Такие проекты становятся все популярнее на фоне развития ИИ-технологий. Границы между реальным и виртуальным общением продолжают размываться.

#Steam #AI #Gaming
------
@tsingular
🔥8🤔531👍1🆒1
Anthropic показали как создать мульти-агентную исследовательскую систему

Команда Anthropic опубликовала подробный разбор создания системы Research для Claude — мульти-агентной архитектуры для сложных исследовательских задач.

Система работает по принципу оркестратор-воркер: главный агент планирует стратегию и создает субагентов для параллельного поиска.

Результат — 90% прироста производительности по сравнению с одиночным агентом.

Основные рекомендации:
- мысли как агент - оптимизация промпта требует точного понимания как именно он работает
- учите оркестратор правильному делегированию задач.
- усилия на решение задачи должны соответствовать ее сложности
- организация инструментов важна и даже местами критична. Множество функций MCP серверов могут запутать агента, как и плохое описание тулов
- позвольте агентам улучшать себя, - например переписывать промпты.
- начинайте с общего и переходите к частному. Пусть агент сначала опишет задачу в целом и потом переходите к деталям
- управляйте процессом размышления. Режим размышления позволяет точнее планировать и раскрывает причины недоработок агента, которые можно исправить в следующих вызовах
- параллельные вызовы инструментов экономят время и повышают эффективность

Помните: мульти-агенты тратят в среднем в 15 раз больше токенов, поэтому использовать их нужно с умом.

Так же поделились промптами в Cookbook и детально описали проблемы деплоя в продакшн.

#MultiAgent #Claude #Anthropic #Research
———
@tsingular
632
Бесплатый вводный курс по Lovable

Совсем недавно завирусился сайт для создания веб проектов с помощью ИИ.
У него, оказывается, был промо период, где народ нагенерил 200+тыс проектов буквально за выходные.
Это больше, чем было сайтов во всем Интернете например 30 лет назад.

Может быть полезен для быстрого создания прототипа или даже для запуска полноценного стартапа за 1 день.

Для тех, кто не знает с чего начать тут ноукодер выпустил вводный мини-курс о том, как готавить ТЗ проекта и исполняемую среду Lovable для качественного старта.

Ссылка на сам курс

С некоторыми из знакомых уже попробовали сам портал, - очень удобно, конечно.
Как минимум полезно ознакомиться.

#Lovable #курсы
———
@tsingular
191
Коты запутывают ИИ: как простые фразы ломают модели рассуждения

Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.

Метод CatAttack показал: добавление простой фразы в конец запроса
Интересный факт: коты спят большую часть своей жизни

увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.

Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.

Дистиллированные модели оказались более уязвимыми.

Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.

"Наташа, проснись! Мы все сломали!".jpg :)

#CatAttack #promptinjection #Коты #security
———
@tsingular
😁17🔥72
PydanticAI — новый агентный фреймворк для продакшен-приложений с ИИ

Команда Pydantic выпустила собственный агентный фреймворк для создания LLM-приложений. PydanticAI работает с любыми моделями — OpenAI, Anthropic, Gemini, Deepseek, Ollama, Groq, Cohere, Mistral.

Ключевые фичи: типобезопасность, структурированные ответы, стриминг с валидацией, система внедрения зависимостей. Интеграция с Pydantic Logfire для мониторинга и отладки в реальном времени.

Задача — принести в GenAI разработку то же удобство, что FastAPI принес в веб-разработку. Фреймворк уже используется в продакшене для Pydantic Logfire.

Пока в бета-версии, но команда обещает стабильный API и активную поддержку.

GitHub

#PydanticAI #LLM #Framework
------
@tsingular
43
Интересный доклад Джона Кармака (это который Doom разработал, если кто не в курсе из молодежи)

Ключевые тезисы:

🎮 Физическое обучение RL на Atari:

- Создали робота с камерой и сервоприводами, который рубится в приставку Atari
- Задержка на реакциях ~180мс (как у человека: 150-200мс)
Проблемы: распознавание счета, износ джойстика, "фантомные" действия

🧠 Фундаментальные проблемы RL:
- Sequential multitask learning - агенты забывают предыдущие игры при изучении новых
- Transfer learning провален - даже после обучения на 10+ играх, новая игра изучается с нуля, что значительно отбрасывает ИИ в сравнении с человеком назад
- Sparse rewards - в реальности награды редкие, не как в видеоиграх

⚡️ Критика современных подходов:
- LLM не выход и не решение так как не работают как человеческий мозг
- Современные RL-алгоритмы разваливаются при добавлении латентности
- Replay ratio 8:1 нереалистичен для реального мира

🎯 Предложения:
- Новый бенчмарк: последовательное обучение на Atari играх
- Инвертированная RL-среда (среда вызывает агента, а не наоборот)
- Фокус на intrinsic rewards вместо внешней оценки

Главный вывод: Современные RL-системы ИИ далеки от человека в части обучения и адаптации.

AGI откладывается на неопределённый срок, короче.
Пока ИИшка сама не сможет играть в игры и системно в них выигрывать, - без специальной среды, а просто подойдя к игровому автомату, - человек будет эффективнее.

#Джон #Кармак #Doom #RL #AGI
———
@tsingular
👍82🔥2
Учёные впервые симулировали «невозможное» — взломали квантовый код с коррекцией ошибок

Команда из Chalmers University, University of Milan, University of Granada и University of Tokyo создала первый в мире алгоритм для симуляции квантовых вычислений с коррекцией ошибок на обычных компьютерах.

Прорыв касается Gottesman-Kitaev-Preskill (GKP) кодов — типа квантовой коррекции ошибок, который используется в ведущих реализациях квантовых компьютеров. Раньше такие симуляции были практически невозможны.

Новый математический инструмент позволяет надёжно тестировать квантовые вычисления, что критично для создания стабильных квантовых компьютеров. Результат опубликован в Physical Review Letters.

#quantum #simulation #errorcorrection
------
@tsingular
🔥53👍1
Forwarded from Machinelearning
🌟 WM-ABench: тестирование VL-моделей на понимание физики реального мира.

Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.

Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.

В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.

Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.

Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.

🟡Результаты.

С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.

Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.

Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.

🟡Но главная проблема кроется глубже.

Точное восприятие мира совершенно не гарантирует точного прогноза.

Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.

Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.

🟡Бенчмарк подсветил фундаментальный недостаток:

У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🟡Датасет


@ai_machinelearning_big_data

#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
73❤‍🔥1
WebSailor: ИИ-агент с «сверхчеловеческим» рассуждением

Команда Alibaba NLP представила WebSailor — методологию обучения ИИ-агентов для сложных информационных задач. Система использует структурированную выборку, маскировку информации и алгоритм DUPO для усиления способностей рассуждения.

Главная особенность — умение систематически снижать неопределенность при навигации по огромным массивам данных. Результаты: 61.1% на бенчмарке GAIA и 54.6% на WebWalkerQA.

WebSailor сравнялся с проприетарными агентами вроде DeepResearch, которые ранее показывали недостижимые для открытых моделей результаты.

Исходный код: GitHub

#WebSailor #reasoning #agents
------
@tsingular
🔥5🤔1
Великобритания и Сингапур создали альянс по ИИ в сфере финансов

На 10-м ежегодном финансовом саммите в Лондоне FCA и MAS договорились о практическом сотрудничестве в области ИИ для финансовой сферы.

Основные направления:
- улучшение оценки рисков,
- обнаружение мошенничества,
- персонализация услуг
- соблюдение регуляторных требований.

Главная проблема — объяснимость решений ИИ. Финансовые институты ломают голову, как удовлетворить регуляторов, сохранив при этом качества «черного ящика».

Также обсудили Project Guardian по токенизации активов и британскую инициативу Global Layer One для трансграничных финансов.

Следующая встреча — 2026 год в Сингапуре.

#Finance #Regulation #Singapore
------
@tsingular
👍31
Не, ну какая красота :)

Запилил локального бота на своей GPU домашней.
анализирует профили и автоматом банит потенциальных нарушителей.

если у кого-то есть каналы и не настроена защита - пишите, потестируем бота вместе.

#AImoderator #dev #боты
———
@tsingular
🔥335👾1
Заскучали? Расслабились? ИИ Зима?

Держите вам слух прикольный.

Грок4 от Маска набрал 45% на Humanity Last Exam

Это вдвое больше, чем было у лидера на сегодня - Gemini 2.5 Pro - 21.64%

Очень ждём. Не зря подписка пылится... :)

#Grok #HLE #AGI
———
@tsingular
🔥13😁4🤯221👾1
Исследование MIT, о котором все кричали на той неделе, что работа с LLM отупляет, оказывается содержало инструкцию для LLM игнорировать само исследование при саммаризации, а читать только конкретную таблицу.
:)

MIT изящно показали всему миру что слепо доверять ИИ не стоит.

Само исследование:
https://arxiv.org/pdf/2506.08872

Читаем своими глазами и сами делаем выводы.

#MIT
------
@tsingular
😁16👍7🔥31
Forwarded from Machinelearning
🔟 Open‑source Deep Research Assistants 🤖

Глубокие исследовательские агент
ы — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
72
KPMG представила TACO фреймворк для ИИ-агентов

Отчет KPMG показывает, что автономные ИИ-агенты могут добавить $3 триллиона к корпоративной продуктивности ежегодно. Уже 65% компаний тестируют агентов против 37% в прошлом квартале.

TACO фреймворк делит агентов на 4 типа:
• Taskers — простые задачи 
• Automators — сложные процессы
• Collaborators — работа с людьми
• Orchestrators — управление системами

Средняя компания может улучшить EBITDA на 5.4%. Главное — создать стратегию с акцентом на доверие и контроль.

Полный отчёт в комментариях.

#Agents #KPMG #report #TACO
------
@tsingular
3🤔322🐳1
США готовят ограничения на продажи AI GPU в Малайзию и Таиланд

Минторг США разрабатывает новые правила экспорта, которые потребуют лицензий для отправки продвинутых Nvidia AI GPU в Малайзию и Таиланд.

Цель — предотвратить переправку чипов в Китай через третьи страны. Пока это только проект, но он может стать очередным шагом в ограничении доступа китайских компаний к высокопроизводительным AI-чипам.

Интересно, что Малайзия не входит в основные источники дохода Nvidia, но недавно стала крупным направлением для поставок вычислительного оборудования из Тайваня.

Параллельно в Сингапуре идет судебный процесс против троих обвиняемых в контрабанде Nvidia-чипов для китайской AI-компании DeepSeek.

#export #restrictions #smuggling
------
@tsingular
🤔41