Технозаметки Малышева
8.49K subscribers
3.81K photos
1.43K videos
40 files
3.99K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Neural Kovalskii
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах

Ищем галлюцинации под микроскопом!

29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!

В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.

Почему именно RAG-пайплайны и Circuit Tracing?

Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени

Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели

Конкретные результаты нашего исследования

85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.

Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."

Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф

Технические вызовы и решения

Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера

Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям

Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах


Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре

Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта

Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды

Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
643🔥1😁1
Morgan Stanley понижает рейтинг Adobe: ИИ может потопить 42-летнего софтверного гиганта

Morgan Stanley понизил рейтинг Adobe (ADBE) с overweight до equal-weight, понизив целевую цену с $520 до $450 (-15%). Акции компании уже показывают -20.6% с начала года.

Основная проблема
Аналитики видят критический провал между ИИ-инновациями Adobe и их реальной монетизацией:

Adobe заявляет о $5 млрд AI-influenced ARR и $250 млн от AI-first продуктов
При этом общий рост Digital Media ARR замедлился с 12.1% до 11.7% год к году

99% компаний из Fortune 100 используют ИИ в продуктах Adobe, но это не конвертируется в ускорение роста выручки

Конкурентное давление
Новые и существующие игроки активно захватывают рынок:

- ChatGPT: 700 млн пользователей в неделю, формирует новые ожидания у пользователей
- Canva: 220 млн активных пользователей функций "Magic", активно идет в enterprise-сегмент
- Figma: внедряет ИИ-агентов и code-aware workflows
- Big Tech (Google, Microsoft) также наступают на традиционные рынки Adobe
- Нейростартапы RunWay, Kling, Wan и десятки других так же отъедают аудиторию

Кейс Adobe демонстрирует классическую проблему: технологическое лидерство не гарантирует рыночное доминирование в эпоху ИИ-трансформации.

Даже софтверный гигант с 42х летней историей может столкнуться с угрозой от растущих конкурентов с эффективными ИИ-решениями.

#Adobe #MorganStanley
———
@tsingular
32👍2
Awesome Reviewers от стартапа BAZ, - библиотека промптов для code review

Разработчики из BAZ запустили AwesomeReviewers библиотеку, собрав сотни промптов для автоматизации проверки кода.

Проанализировали 1000+ open source проектов (Next.js, LangChain, FastAPI) и извлекли паттерны лучших ревьюеров.

- 470+ промптов для 15 языков программирования (фокус на Python, TypeScript, Go)
- Реальные кейсы: проверка конфигураций в Fastify, security warnings, performance tips
- Интеграция через MCP с Cursor, Claude Code, VS Code и др.

По сути, отличное дополнение MCP context7

Ну в целом, - полезно почитать для обучения. Промпты годные.

Лицензия Apache 2.0

Пробуем тут: awesomereviewers.com
Github

#CodeReview #BAZ #AwesomeReviewers #обучение
———
@tsingular
2👍21
Media is too big
VIEW IN TELEGRAM
🔥 HunyuanImage 3.0 — прорыв в open-source генерации изображений

Tencent выпустили самую мощную открытую модель генерации изображений с 80 млрд параметров (13 млрд активных). Качество сопоставимо с топовыми закрытыми решениями.

Техническая революция:
- MoE архитектура с Transfusion - глубокая интеграция Diffusion + LLM в единую систему
- Массивный датасет: 5 млрд изображений + 6 трлн токенов текста
- Понимание контекста: промпты до 1000 слов с пониманием модели мира
- Точная генерация текста внутри изображений
- Основана на Hunyuan-A13B - мультимодальной LLM

Сейчас доступен только режим text-to-image. В планах: image-to-image, редактирование, мультитерновые диалоги.

Пробуем тут:
https://hunyuan.tencent.com/image/zh
GitHub
HuggingFace (полный вес 170 гигов)

#HunyuanImage #OpenSource #TextToImage
———
@tsingular
3👍32🔥1
Microsoft показала самый мощный ИИ-датацентр в мире

Новый датацентр в Висконсине потребляет столько энергии, сколько весь регион Новой Англии.

ЦОД управляет одним огромным кластером серверов NVIDIA GB200 и миллионами вычислительных ядер и эксабайтами хранилища, спроектированных для мощных ИИ нагрузок.

Каждая стойка содержит 72 графических процессора NVIDIA Blackwell, связанных вместе в одном домене NVLink, который обеспечивает 1,8 терабайта полосы пропускной способности между графическими процессорами и дает каждому GPU доступ к 14 терабайтам объединенной памяти.

Стойка работает как один гигантский ускоритель, способный обрабатывать 865 000 токенов в секунду.

ЦОД ИИ в Норвегии и Великобритании будут использовать аналогичные кластеры и использовать следующие версии чипа ИИ от NVIDIA (GB300), который предлагает еще больше объединенной памяти на стойку.

Проблема в том, что Microsoft пока потребляет 50% энергии из угольных и газовых источников. Выбросы углерода выросли на 23,4% с 2020 года именно из-за новых ИИ-датацентров.

Инвестиции составили 80 миллиардов долларов и покрывают более 25 новых регионов Azure.

Получается, чтобы учить ИИ модели беречь планету, мы продолжаем жечь уголь и газ.
Такая вот зелёная революция.

#Microsoft #Datacenter #Wisconsin
------
@tsingular
😁107🔥216👍4
Perplexity запустил Search API для разработчиков

Perplexity открыл доступ к своей поисковой инфраструктуре через API. Разработчики получили ту же глобальную базу из сотен миллиардов веб-страниц, что использует сам сервис.

Основные фишки:
- поиск на уровне фрагментов документов, а не целых страниц
- обновление индекса десятками тысяч запросов в секунду
- структурированные ответы, готовые для ИИ-приложений
- открытый фреймворк для тестирования search_evals

Компания утверждает, что обходит конкурентов по качеству и скорости при меньших затратах. API стартует от $5 в месяц.

Поисковые войны переходят в новую фазу - теперь каждый сможет встроить конкурента Google в свое приложение.

#Perplexity #Search #API
———
@tsingular
🔥92🤩1
Prompt Packs от OpenAI Academy

OpenAI выпустила Prompt Packs - готовые наборы промптов для различных сценариев.

Полезно не только для обучения,- разные промпты в одинаковых задачах могут давать разницу результатов от 8.8% до 62.9% на одинаковой модели.

Парсим, загоняем в RAG по задачам,- профит :)

Ну или просто учимся сами.

#PromptPacks #OpenAI #промпты #обучение
------
@tsingular
5🔥52
Cursor запустил свою платформу для обучения.

Пока база, - про модели, галлюцинации, токены, контекст, инструменты и агентов.

Дальше в планах, - размышления, планирование, создание и работа с агентами, отладка и безопасность.

Осталось еще хостинг моделей и MCP хаб добавить и будет классический современный набор.

#Cursor #обучение
———
@tsingular
👍6🔥31
🔬 Квантовые кубиты прошли тест реального производства: 99%+ точность при массовом промышленном производстве

Diraq (стартап UNSW) совместно с imec показали, что кремниевые спиновые кубиты сохраняют лабораторное качество при массовом производстве на 300-мм пластинах.

Технический прорыв:
- Четыре двухкубитных устройства показали точность операций выше 99%
- State preparation и measurement достигли 99.9% — рекорд для промышленно изготовленных кубитов
- Использованы стандартные CMOS-процессы без модификации базового оборудования
- Gate set tomography подтвердила воспроизводимость результатов между устройствами

Почему это важно:
Основная проблема квантовых вычислений, - масштабирование. Большинство кубитов работают только в лабораториях. Diraq доказали, что можно использовать триллионную полупроводниковую индустрию напрямую.

Техническая начинка:
- Изотопически очищенный кремний (400 ppm ²⁹Si)
- Операции при 10 мК с временем жизни до T₁ = 9.5 секунд
- Контроль через обменное взаимодействие с точностью до наносекунд
- Real-time feedback для коррекции Larmor-частоты
- Cryo-CMOS driver chip (совместно с Emergence Quantum)

Коммерческий трек:
- $137M+ общего финансирования (включая недавние $15M от ICM Global, Morgan Creek)
- Первый продукт к 2029, fault-tolerant система к 2033
- Экспансия: Silicon Valley, Бостон, скоро Illinois Quantum Park (Чикаго)
- Контракты с DARPA ($1M Quantum Benchmarking Initiative) и Fermilab

Следующий этап:
Дальнейшая изотопная очистка до <50 ppm уже продемонстрирована в академических прототипах — это путь к 99.9% точности всех операций (порог fault-tolerance).

Практическое значение:
Стартапам больше не нужно строить собственные fab — можно заказывать кубиты как обычные чипы. Это кардинально меняет экономику квантовых вычислений.

Квантовые компьютеры промышленного масштаба требуют миллионы кубитов. Теперь есть технологический путь их производства.

В 2024 году квантовые стартапы привлекли около $2 млрд инвестиций.

Гартнер прогнозирует массовое внедрение квантовых вычислений к 2029 году.

Так что пока дожигаем GPU, но после 2030, - ИИ на квантовых чипах станут нормой.

#Diraq #Quantinuum #кванты
———
@tsigular
🔥143🎄21
🤖 Unitree - троянский конь: роботы как новый вектор кибератак

Исследователи Alias Robotics провели комплексный аудит безопасности гуманоидного робота Unitree G1.

Критические уязвимости:
- BLE-протокол позволяет удаленный взлом через Wi-Fi конфигурацию
- Захардкоженые AES-ключи (df98b715d5c6ed2b25817b6f2554124a) одинаковы для всех типов G1/H1/R1
- Root-доступ через инъекцию команд в SSID: ;$(cmd);#
- Шифрование FMX частично скомпрометировано (Blowfish-ECB + LCG)

Постоянная слежка:
Робот каждые 5 минут передает телеметрию на серверы в Китае (43.175.228.18:17883):
- Аудио с микрофонов без индикаторов записи
- Видео 1920×1080@15fps с RealSense камер
- 3D-карты помещений собранные через LIDAR
- Полное состояние системы и сенсоров

Двойная угроза:
- Пассивная разведка — робот как шпионский узел в корпоративной сети
- Активные кибератаки — платформа для Cybersecurity AI агентов
- Потенциальная возможность удалённого управления роботом через уязвимости или скрытые закладки

Практические риски:
- Корпорации: утечка переговоров, документов, планировок офисов
- Критическая инфраструктура: возможность скрытого сбора информации в изолированных сетях
- Регуляторные нарушения: GDPR 6&13, CCPA нарушения

Unitree G1 показывает самую продвинутую систему безопасности в коммерческой робототехнике, но фундаментальные ошибки делают её бесполезной.

Вывод: гуманоидные роботы в первую очередь должны рассматриваться как источник кибер-физических угроз.

#Robotics #Unitree #cybersecurity #роботы
———
@tsingular
👀10💯322👾2
Abacus.ai: новый игрок на ИИ районе

Не попадался раньше под руку, а проект, тем не менее, интересный:

Основание и команда
Год основания: 2019. Создана как RealityEngines.AI, а в 2020 переименовалась в Abacus.AI.

Сооснователи:
- Bindu Reddy — CEO; ранее возглавляла AI Verticals в AWS (Amazon Personalize/Forecast), до этого — руководитель продуктов Google Docs/Sheets/Slides/Sites/Blogger.
- Arvind Sundararajan — CTO; ранее технический лидер в Uber ATG, до этого - Google (AdSense/ Gmail backend).
- Siddartha (Siddartha/Siddartha) Naidu — VP ML & Research; со-основатель Google BigQuery, ранее Google/Amazon.

HQ: Сан-Франциско.

Не путать с другим стартапом Abacus AI Inc. (CPA-ассистенты для бухгалтерии), который в июле 2025 поднимал seed $6.6M. Это разные компании.

Abacus.AI позиционирует себя как «AI-мозг» для организации и «AI супер-ассистент» с агентными возможностями.

Так вот, чем интересны, - линейка решений:
- чат с разными ИИ на выбор,- тут стандартно
- DeepAgent / DeepAgent Desktop - аналог Курсора с CLI
- ИИ Operator - управление компом
- Abacus.AI Enterprise (GenAI-платформа) — корпоративная платформа: AI-Workflows, RAG/Vector Stores, цепочки подсказок (CoT/prompt chains), коннекторы к данным, real-time фичи и др.
- Structured ML / Vision AI / Optimization — end-to-end платформа для табличных моделей (персонализация, прогнозирование, отток/антифрод и пр.), компьютерного зрения и т.д.
- файн-тюн моделей

В общем настоящий швейцарский нож для организации ИИ сервисов.
Говорят достаточно популярный в Штатах. У нас не слышал.
Полезно так же посмотреть с точки зрения организации собственных внутренних сервисов.

#Abacus #AIplatform
———
@tsingular
3👍21🫡1🆒1
Экспонента всё еще с нами в этой комнате

Интересный пост Джулиана Шриттвизера (AlphaGo/Zero, MuZero, AlphaCode, AlphaTensor, AlphaProof; экс-DeepMind, сейчас Anthropic) о том, почему мы снова «не видим» экспоненту и почему окно 2026–2027 выглядит как время для прихода AGI.

Ключ по сути:
1) METR: длина автономной работы растёт экспоненциально.
Метрика «горизонт 50%» (сколько времени модель тянет задачу с ~50% успеха) удваивается ≈ каждые 7 мес. Уже есть 2+ часа на лучших моделях; по прямой экстраполяции к середине 2026 — полноценный 8-часовой рабочий день.

2) GDPval: экономические задачи, а не просто «олимпиада по промптам».
44 профессии, 1 320 задач, слепая оценка артефактов. GPT-5 уже близок к среднему человеку, Claude Opus 4.1 местами выше. Тренд подразумевает: к концу 2026 хотя бы одна модель дотянется до уровня отраслевых экспертов во многих доменах; к 2027 - будет уверенно превосходить человека на значительной доле задач.

3) Почему многие «не ощущают» прогресс.
Субъективно «GPT-4o ≈ GPT-5», но эффект накапливается в невидимых нам циклах (длинные/многошаговые, инструментальные, автономные). Экспонента интуитивно нечитаема: долго кажется «плоской», затем наступает резкий (с точки зрения восприятия человека) поворот. (Задача-притча о лилиях: в пруду растут лилии. Каждый день их количество увеличивается в два раза. Если для того, чтобы они полностью заполнили озеро требуется 48 дней, то сколько дней нужно, чтобы они покрыли половину озера?)

4) Ограничения и реалистичные поправки.
METR честно отмечает низкую «сложность» задач (бенчи отражают далеко не весь реальный бардак, который люди встречают в реальной работе). Плюс закон Гудхарта: под бенчмарки можно переобучиться. Вывод — смотреть на тренды, но валидировать на своих реалистичных пайпах.

Что делать компаниям уже сейчас:

Измеряйте «длительность задач», а не только баллы.
Возможный KPI: сколько минут/часов тянет ваш агент на прод-данных и инструментах.

Запускайте реалистичные-эвалы. Многошаговые, с неопределённостью, правками, регуляторкой.

Стройте системы «человек + флот агентов», а не замену людей. Ассистенты-исследователи, проверяющие смежных агентов, регуляторные навигаторы, калькуляторы по бизнес-моделям.

Не возводите SOTA-таблицы в абсолют. Смотрите на TTV/ROI и операционные метрики на ваших реальных задачах.

Готовьте процессы и контроль. Аудит, трассируемость, политика данных, безопасность.
Свой личный золотой бенч.

Вывод: экспонента держится.
На горизонте 12–24 месяцев базовый прогноз по-прежнему выглядит как прямая на лог-графике.
Победят те, кто уже сегодня меряет автономный горизонт на «грязных» задачах и выстраивает операционку под «человек + агенты».

#аналитика #Schrittwieser #AGI
———
@tsingular
5🔥432
ахаха, у меня будет своя GPT5
изи катка

результат в комментарии.
Проверяйте :)

#юмор
———
@tsingular
😁22🔥1
Вайб-сингулярность.

Когда каждый может навайбкодить себе AGI

#мысли #AGI
———
@tsingular
😁121🆒1
Новая экспериментальная модель DeepSeek-V3.2-Exp

DeepSeek выпустила V3.2-Exp - экспериментальную версию своей флагманской модели.

Основные улучшения коснулись качества рассуждений и следования инструкциям. Модель доступна через API и на Hugging Face.

Но главное, - цена -50% по API
$0.42 или 35рублей за 1млн токенов генерации. (на вход - $0.28 без кэша и $0.028 за млн, если попали в кэш)
при том что это 670B модель с 85 MMLU-Pro и 19.8 HLE!

HuggingFace

#DeepSeek #Experimental
———
@tsingular
🔥8111
This media is not supported in your browser
VIEW IN TELEGRAM
Спасибо что помыли у нас ваш четырёхколёсный брат.

С вас $60К. пасибапажалуйста.

#Unitree #robots #мойка #Китай
———
@tsingular
😁23👾2
🚀 Claude Sonnet 4.5 — новая планка в AI-разработке

Anthropic выпустила самую сильную модель в мире.

Ключевые показатели:
#1 в SWE-bench Verified
— бенчмарке реальных задач программирования
61.4% на OSWorld (тесты работы с компьютером) vs 42.2% у Sonnet 4 четыре месяца назад

Удерживает фокус в 30+ часов на многошаговых задачах

Прорыв в reasoning и математике по всем основным бенчмаркам

Вместе с моделью обновились:
Claude Code:
checkpoints для отката к предыдущим состояниям, обновлённый терминал, нативное расширение для VS Code

Claude API: context editing и memory tool для долгих агентных сессий

Claude Apps: code execution и создание файлов (таблицы, презентации, документы) прямо в чате

Claude Agent SDK — инфраструктура, на которой построен Claude Code, теперь доступна всем разработчикам

Alignment-прорыв:
Это не просто мощная, но и самая выверенная ведущая-модель от Anthropic.
Существенно снижены: sycophancy, deception, power-seeking, поддержка деструктивного мышления.
Улучшена защита от prompt injection атак.

Бонус: "Imagine with Claude"
Временный исследовательский режим (5 дней для Max-подписчиков) — Claude генерирует софт в реальном времени, без предзаписанного кода. Чистая демонстрация возможностей.

Цена осталась прежней: $3/$15 за миллион токенов.
Model string для API: claude-sonnet-4-5-20250929

Anthropic превращает AI-ассистента в AI-коллегу, который может взять на себя задачи на часы и даже дни работы. Осталось только научиться правильно ставить задачи. 😏

Вот теперь можно и вайб-воркать :)

#Claude #Anthropic #Sonnet
———
@tsingular
🔥6311
Ну что ж. Давно мы не проверяли модели сонетами.

Погнали наш любимый тест.

Промпт (немного разнообразим на этот раз):
напиши венок сонетов об осени. 
сюжет - как уходит лето, так сонет за сонетом люди уступают искусственному интеллекту и роботам. В этот новый год придет AGI и никто не знает, - будет ли он добрым Сантой или Крампусом


Результат хорош, но не идеален. (в комментарии венок целиком -14+1 сонет)

Не AGI пока.

#Сонет #бенч #Sonnet
———
@tsingular
🔥7👍531