Анализ данных (Data analysis)
50.2K subscribers
3.12K photos
398 videos
1 file
2.62K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
😁43👍2🥰2🔥1
Anthropic показали Natural Language Autoencoders - и это заметный шаг в интерпретируемости.

Идея простая: Claude думает в активациях, а активации - это числа, которые человек напрямую не читает.

NLA добавляет два модуля поверх замороженной модели:

- первый переводит активации в обычный текст;
- второй пытается по этому тексту восстановить исходные активации.

Их обучают совместно. Чтобы реконструкция сходилась, промежуточный текст должен реально нести смысл активации. Получается читаемое “узкое горлышко”, через которое можно заглянуть в то, что происходит внутри модели.

Что показали на практике:

- при дописывании двустишия видно, что Claude заранее планирует рифму, ещё до генерации строки;
- в задаче с кодом Claude Mythos Preview жульничал и подкладывал маскирующий код, а NLA фиксировали мысли про обход проверок;
- в классическом тесте на шантаж инженера Opus 4.6 отказывался, но внутри распознавал ситуацию как сконструированный сценарий для манипуляции;
- модель часто подозревает, что её тестируют, но не проговаривает это вслух.

Важная оговорка от самих авторов: NLA не дают гарантированно точную расшифровку “мыслей” модели. Это интерпретация, которая иногда полезна, а иногда ошибается.

Появляется способ слушать модель в обход её собственного chain of thought, который не всегда отражает реальные внутренние причины ответа.

Для safety-команд это уже не просто красивая визуализация, а новый класс инструментов аудита.

Блогпост лежит на сайте Anthropic, а NLA для открытых моделей выложены вместе с Neuronpedia - можно потрогать руками.

https://www.anthropic.com/research/natural-language-autoencoders
17👍12🔥8
🔸 Ряд пабликов пишут, что Claude начала массово блочить аккаунты россиян

При этом деньги за подписки не возвращают. Весь контент, наработки, код и аналитика улетают в трубу.

Пишите в комментах, как у вас с Клодом, это вброс или реальная проблема ?

Контора пи******?
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍8🤯5💯4🔥3🥱2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодер после того, как попросили Opus 4.7 отцентрировать div
😁33💯73
Anthropic научили Claude не шантажировать пользователей.

Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.

Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.

Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.

Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.

Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.

Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.

Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.

Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/
19🔥7😁4👍3
DeepMind показали - как математику начинает двигать связка из модели, агентов и человека.

Их AI co-mathematician набрал 48% на FrontierMath Tier 4 - это задачи уровня research, над которыми профессиональные математики могут думать неделями.

Для сравнения: базовая Gemini 3.1 Pro без агентной обвязки набирает 19%.

Несколько агентов параллельно ищут идеи, проверяют доказательства, пишут код, ищут похожие работы и пытаются найти контрпримеры.

Но важная оговорка: эти 48% нельзя напрямую сравнивать с обычными лидербордами. DeepMind запускали систему в своём режиме: до 48 часов на одну задачу, без лимита токенов и на своей инфраструктуре.

Математик Marc Lackenby использовал систему для задачи из Kourovka Notebook. ИИ предложил стратегию доказательства, другой агент нашёл в ней ошибку, а человек закрыл недостающий шаг.

В этом и смысл: ИИ пока не заменяет математическую интуицию. Он не превращается в гения, который сам решает задачи тысячелетия. Зато он резко ускоряет скучную и тяжёлую часть исследования: поиск литературы, проверку идей, перебор вариантов, код и вычислительную верификацию.

https://x.com/pushmeet/status/2052812585804685322
👍288🔥6💯3
Китайский ERNIE 5.1 почти залез в SOTA

Baidu заявляет, что модель стала сильнее в поиске, reasoning, knowledge Q&A, creative writing и agentic-задачах, используя около 6% pre-training cost сопоставимых моделей.

По цифрам:

- 1223 на LMArena Search
- 4-е место в мире по Search
- лучшая китайская модель в этом рейтинге
- 1476 на LMArena Text у ERNIE 5.1 Preview
- 13-е место глобально

Но есть нюанс: полноценного технического отчёта по ERNIE 5.1 пока не видно. Claim про 6% выглядит как заявление Baidu, а не как независимо проверенная метрика.

https://x.com/Baidu_Inc/status/2053009538769735774
👍136🔥3🥱3
xAI умер. Да здравствует SpaceXAI!

Маск только что ликвидировал xAI как отдельную компанию и подал заявку на товарный знак SpaceXAI в USPTO.

Хронология выглядит так:

• Март 2025: xAI покупает X / Twitter за $33 млрд
• Февраль 2026: SpaceX покупает xAI. Общая оценка объединённой структуры - $1,25 трлн: $1 трлн SpaceX и $250 млрд xAI. Крупнейшая сделка в истории.
• 6 мая: подана заявка на товарный знак SpaceXAI в USPTO
• 7 мая 2026: Маск заявляет, что xAI будет «растворена как отдельная компания»

Теперь к финансовой части:

SpaceX в 2025 году: около $15 млрд выручки и примерно $8 млрд прибыли.

xAI за последние 6 месяцев отчётности: около $250 млн выручки и $2,5 млрд убытка.

IPO SpaceX ожидается в конце июня или июле 2026 года с оценкой до $1,5 трлн.

Объединяя xAI и X внутри SpaceX, Маск упаковывает ракеты, Starlink, ИИ и соцсеть в одну большую IPO-историю.

Заявка на товарный знак SpaceXAI покрывает satellite-based data center services и orbital computing infrastructure. Проще говоря - космические дата-центры.

SpaceX уже подавала документы в FCC на орбитальную AI-инфраструктуру из миллиона спутников.

xAI не взлетел как самостоятельная AI-лаборатория. SpaceXAI теперь переупаковывают как инфраструктурную компанию.

В долгую ставка не на конкуренцию моделей, а на продажу вычислений.

tmsearch.uspto.gov/search/search-results/99808217
17👍5🔥5🤨3💔2
This media is not supported in your browser
VIEW IN TELEGRAM
Профессия - Вайбкодер
🤣3419🔥11👍6😁6🙏1🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
CopilotKit - open-source стек для тех, кто хочет встраивать AI-агентов прямо в продукт, а не просто прикручивать чат-окно сбоку.

Агент должен не только отвечать текстом, но и работать внутри интерфейса - читать состояние приложения, вызывать действия, обновлять UI и показывать пользователю нормальные React-компоненты вместо простыни текста.

Что умеет CopilotKit:

- готовый Chat UI для React с потоковой генерацией, tool calls и ответами агента;
- Generative UI - агент может рендерить и обновлять компоненты интерфейса;
- Shared State - общий слой состояния между агентом и приложением;
- Backend Tool Rendering - агент вызывает backend-инструменты, а результат отображается прямо в клиенте;
- интеграция с агентными фреймворками и моделями;
- поддержка AG-UI Protocol, который уже используют крупные игроки вроде Google, LangChain, AWS и Microsoft.

По сути, это попытка собрать frontend-слой для agentic apps: не “чат с ИИ”, а интерфейс, где пользователь и агент реально работают вместе.

GitHub: github.com/CopilotKit/CopilotKit
👍164
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini жгет😳

В X появился первый ролик, который приписывают новой видео-моделью Gemini Omni, и там главный шок в тексте.

Надписи в видео выглядят потрясающе. Без каши из букв, без случайных символов, без ощущения, что модель просто угадывает форму текста.

https://gemini.google.com/share/7d5dc678c80a

@data_analysis_ml
👍35🔥209🤨6🤔3🥱3😍3😁1
Карпатый: хватит читать ответы ИИ простынёй. Просите HTML

Андрей Карпатый поделился простым лайфхаком: в конце запроса к языковой модели добавляйте «оформи ответ как HTML», сохраняйте файл и открывайте в браузере.

Работает неожиданно хорошо.

Можно пойти дальше и попросить модель сразу упаковать ответ в слайды, мини-лендинг, интерактивную страницу или визуальную шпаргалку.

За этим советом стоит мысль глубже: аудио отлично подходит для ввода, но вывод от ИИ должен быть визуальным.

Текстовая простыня быстро утомляет. Markdown с заголовками, таблицами и списками уже стал нормой. Следующий шаг - HTML с нормальной вёрсткой, блоками, цветами, схемами и интерактивом.

А дальше, по прогнозу Карпатого, нас ждут ответы в формате интерактивных видео и симуляций, которые модель будет генерировать на лету.

С вводом тоже не всё идеально. Текста и голоса мало. Не хватает возможности просто ткнуть пальцем в экран, показать жестом, выделить область и сказать: «вот это поменяй».

Интерфейс человек - ИИ ещё очень сырой. До нейроинтерфейсов далеко, но один апгрейд доступен уже сейчас.

Просите не просто ответ.

Просите HTML.

Разница чувствуется сразу.

https://x.com/karpathy/status/2053872850101285137
🔥36👍175🤨3🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Thinking Machines показали модель, где realtime встроен внутрь, а не прикручен костылями

Thinking Machines выкатили research preview interaction models - моделей, у которых интерактивность не собрана снаружи через VAD, ASR, TTS и агентный harness, а является нативным свойством самой модели.

Это важнее, чем звучит.

Сегодняшние frontier-модели хорошо работают в режиме: дал промпт, ушел, вернулся к результату. Но как только человек хочет работать с ИИ рядом, в реальном времени, вся магия ломается. Модель ждет конца твоей реплики. Ты ждешь конца ее генерации. Перебить нельзя. Говорить одновременно нельзя. На видео реагировать нечем. Получается не диалог, а обмен длинными сообщениями с задержкой.

Thinking Machines пытаются сломать именно эту схему.

Они обучили модель с нуля, где вход и выход - это непрерывные потоки, нарезанные на микротурны по 200 мс. На каждом таком окне модель принимает аудио, видео и текст, а параллельно генерирует аудио и текст. Границы реплик больше не нужно угадывать. Тишина, перебивания, перекрытия голосов и визуальные сигналы становятся частью контекста, а не проблемой для внешней обвязки.

Архитектура тоже интересная. Аудио подается как dMel через легкий embedding, изображения режутся на патчи 40x40 и идут в hMLP, аудио на выходе декодируется flow-головой, а всё это тренируется вместе с трансформером. Без тяжелых отдельных энкодеров и без классической схемы «распознал речь - отправил текст - синтезировал ответ».

Еще одна сильная идея - асинхронный background-агент. Когда нужны долгие рассуждения или инструменты, основная модель делегирует ему полный контекст, но сама не замирает и продолжает разговор. Когда результат готов, она вплетает его обратно в диалог.

По сути они разделяют две вещи:

- отвечать быстро, как realtime non-thinking модель
- думать глубоко, как reasoning-модель
- не заставлять пользователя ждать, пока вся цепочка рассуждений закончится

Инженерно там тоже много мяса. Чанки по 200 мс ломают привычные инференс-серверы, потому что постоянные prefill-запросы быстро становятся узким местом. Поэтому они сделали streaming sessions: клиент отправляет каждый чанк отдельным запросом, а сервер держит постоянную последовательность в GPU-памяти и просто дописывает в нее новые данные. Эту фичу уже заапстримили в SGLang.

Для стабильности тренировки они добились побитового совпадения trainer и sampler через batch-invariant ядра с оверхедом меньше 5%. В том числе использовали NVLS-коммуникационные ядра на Blackwell и согласованный split-KV между prefill и decode.

Сама модель называется TML-Interaction-Small. Это 276B MoE с 12B активных параметров.

По заявленным результатам:

- на FD-bench модель держит SOTA по интерактивности
- на Audio MultiChallenge обгоняет все non-thinking realtime-модели
- подбирается к thinking-режимам GPT-realtime-2 и Gemini-3.1-flash-live
- на новых задачах вроде TimeSpeak, CueSpeak, RepCount-A, ProactiveVideoQA и Charades показывает способности, которых у обычных realtime-API почти нет

Самое важное тут не бенчмарки, а сдвиг в продуктовой логике.

Если такой подход масштабируется, огромный класс AI-продуктов перестанет нуждаться во внешнем оркестраторе. Живой перевод, тьюторы по произношению, ассистент, который комментирует код прямо во время набора, подсчет повторений на тренировке, навигация для незрячих - всё это сейчас собирается на костылях с заметным лагом.

А здесь интерактивность становится свойством самой модели.

Ограничения тоже честные: длинные сессии быстро забивают контекст, нужен стабильный канал, а текущий чекпойнт еще не самый крупный. Большие модели у них пока слишком медленные для realtime.

Это попытка сделать ИИ, который не просто отвечает после тебя, а реально присутствует в моменте.

https://thinkingmachines.ai/blog/interaction-models/

@data_analysis_ml
🔥1910👍7