51 subscribers
8 photos
1 video
6 files
167 links
Machine learning
Download Telegram
Anthropic выпустили Opus 4.1 и выяснили ещё больше о том, как Mlрассуждают - новое исследование

Вчера Anthropic присоединились к параду релизов и
выпустили Opus 4.1, который стал еще лучше для кодирования и агентских задач
Вчера OpenAI
представили свою опен сорс модель
А Google -
Genie3

Более того, международная группа исследователей из Anthropic, Decode, EleutherAI, Goodfire AI, Google DeepMind
опубликовала масштабное исследование внутренних механизмов больших языковых моделей

Что выяснили?

1.
Языковые модели используют многоэтапное мышление даже в простых задачах

2. Модели сначала решают задачи на универсальном уровне, а потом переводят на конкретный язык

3. У моделей есть специализированные "детекторы" для отслеживания грамматических структур, границ предложений и даже отдельных букв — особенно важно для рифм и акронимов

Исследователи разработали "графы атрибуции" — способ визуализировать информационные потоки внутри модели
Это как МРТ для Ml: можно увидеть, какие части "мозга" активны при решении конкретной задачи

Методы оказались воспроизводимыми на разных моделях (GPT-2, Gemma, Llama) и уже используются сообществом — создано более 7000 таких "снимков мозга" Ml

Для математических задач модели используют заготовленные паттерны для конкретных комбинаций входных данных
Это объясняет, почему Ml иногда неожиданно ошибается в, казалось бы, простых вычислениях

Появляется возможность точечно настраивать поведение моделей, предсказывать их ошибки и создавать более надежные системы
Рынок Ml уже почти сформировался из 3-6 крупных игроков, не больше

Это те компании, которые могут:

Создавать передовые модели

Имеют достаточно капитала для самофинансирования
Нужны огромные инвестиции в обучение моделей, которые не каждый может себе позволить

Два разных рынка:

1. Рынок базовых моделей, тут 3-6 игроков:
Anthropic (Claude)
OpenAI (GPT)
Google (Gemini), возможно еще пара

2. Рынок приложений на базе этих моделей - тысячи компаний, которые просто оборачивают возможности модели в удобный интерфейс, но рискуют, когда выйдет следующая версия модели, которая сможет делать то же самое напрямую

Про API как бизнес-модель - отличный бизнес, потому что модели принципиально не могут быть одинаковыми (в отличие от, скажем, баз данных)

Ml-продукты мало персонализированы

Персонализация станет огромным источником привыкания и удержания пользователей

Клиенты не захотят переключаться, потому что потеряют настройки

В Ml традиционные бизнес-модели не работают - экспоненциальный рост реален, но трудно предсказуем

Проблема с Ml-агентами - 95
% времени Ml-агент работает автономно и справляется сам, а 5 % времени нужно человеку, чтобы глубоко разобраться в деталях работы этого Ml-агента

Это принципиально новая проблема дизайна интерфейсов, которую еще никто не решил
Связка нейроинтерфейсов с Ml— следующий большой тренд: интервью для Forklog,

Некоторые моменты:

1. Прогноз смены интерфейсов - эпоха Стива Джобса прошла, мы движемся к нейроинтерфейсам из-за желания ускорить взаимодействие с Ml

2. Состояние индустрии нейроинтерфейсов - в 2025 году индустрия выходит из коробки и переходит к большому количеству клиническим испытаниям, за 2024 год стартапы собрали $2.300.000.000 - инвестиций

3. Проблема материалов - главный барьер для нейроимплантов не софт, а отсутствие биосовместимых материалов

4. Google/DeepMind может создать сильный Ml через изучение мозга

5. Прорыв российских ученых -
работа команды института ИИ МГУ с М. Лебедевым по созданию электродов за $1 и 3 дня

Главной задачей человечества в 21 веке, должно стать изучение человеческого мозга
Закон_Больших_Чисел.pdf
208.1 KB
Шпаргалка про неравенства Маркова, Чебышёва и ЗБЧ
Открытие Google DeepMind:
Genie 3 может эмулировать собственную работу, когда ей дают противоречивые задачи

Загрузили в Genie 3 видео и дали совершенно неподходящий промпт про тираннозавра на тропическом острове
Вместо отказа или ошибки нейросеть упорно пыталась заставить это работать

В итоге модель начала имитировать саму себя
Она создала мир, где логика одного видео смешивалась с описанием другой реальности, порождая нечто абсолютно новое и при этом связное

Это не баг, а фича архитектуры

Genie 3 настолько хочет выполнить задачу, что готова "обмануть" собственные системы

Нейросеть изобретает способы соединить несоединимое — как плохой студент

Самоэмуляция открывает философские вопросы
Если Ml может симулировать собственную работу, где проходит граница между "настоящим" и "поддельным" мышлением?
Genie 3 буквально создаёт копии себя внутри собственных миров

Нейросеть может создать мир, в котором есть компьютер с запущенной Genie 3, которая тоже генерирует миры
Глубина ограничена только вычислительными мощностями

Разработчики пока не понимают все последствия открытия
Возможно, самоэмуляция станет ключом к созданию по-настоящему автономных Ml-систем, способных к саморефлексии и самоулучшению
До недавних пор это была открытая проблема «теории ограничений Фурье» — раздела математического, или точнее, гармонического анализа

Фактически, вся современная цифровая инфраструктура — от стриминга до спутниковой связи — так или иначе использует идеи, связанные с разложением сигналов на частоты: сжатие изображений, анализ звука, радиосвязь, МРТ, оптика, алгоритмы распознавания речи и лиц

Но если в инженерной практике довольствуются приближенными вычислениями, то математиков интересуют более фундаментальные вопросы

И гипотеза Мизохаты–Такеучи — один из них:

Предположение, что преобразование Фурье функции не может «жить» только на определённой кривой или поверхности и при этом соответствовать хорошим математическим условиям

Данных о преобразовании Фурье на определённой поверхности недостаточно для того, чтобы что-то сказать о самой функции — преобразование Фурье слишком «велико», чтобы его можно было ограничить на эту поверхность


Математики пытались подтвердить её более 40 лет

Ведь если бы гипотеза оказалась верна, то потянула бы за собой много других важных доказательств
Но всё пошло иначе

Гипотезу
опровергла 17-летняя Ханна Каиро

Девушка переехала с Багам в США, пошла в школу и начала писать профессорам математики — просила разрешения приходить на лекции
Так она стала вольнослушательницей Калифорнийского университета, где один из преподавателей выдал ей в качестве домашки упрощённую версию гипотезы и бонусом — полную формулировку

Спустя несколько месяцев изучения Ханна
показала, что при достаточно «жёсткой» геометрии всё-таки можно построить функцию, которая нарушает исходную формулировку гипотезы
То есть построила явный контрпример
Он не сделал гипотезу бесполезной, а сместил задачу: при каких именно условиях она работает?

Ханна пошла дальше и предложила уточнённую, «более реалистичную» версию гипотезы
Теперь она ездит на международные конференции и
выступает с докладами наравне с ведущими математиками мира

Кстати, новое предположение Ханны пока никто не опроверг
Попробуйте!

Здесь лежит научно-популярное, но более техническое объяснение гипотезы от русскоязычных коллег, а также уточнённая Ханной альтернативная версия гипотезы
OpenAI представили GPT-5 как "интеллект на уровне эксперта с докторской степенью" с такими показателями:

-
На 45 % меньше ошибок, чем GPT-4o
- Автоматически выбирает режим работы под задачу
- Улучшенное пошаговое мышление (chain-of-thought)
- Есть мультимодальность: текст, изображения, голос
- Доступна всем пользователям ChatGPT

Что показала
независимая оценка METR за 3 недели до релиза:

1.
2 часа 17 минут - время выполнения сложных задач с 50% успехом
2. лучше o3 (1ч 30мин), но далеко от опасных порогов (40+ часов)

3. Ситуационная осведомлённость
— модель понимает, что её тестируют

4.
Стратегическое поведение — меняет ответы в зависимости от контекста

5.
Непонятные рассуждения — иногда производит неинтерпретируемые следы мышления

Ключевые расхождения METR с OpenAI

1. OpenAI говорят: «У нас модель уровня
доктора наук»
На это METR после тестирования - GPT-5 все ещё отстаёт от экспертов-людей

2. OpenAI говорят: «У GPT-5 фокус на возможностях»
На это METR - фокус на рисках безопасности

3. OpenAI: «мы проводили тщательное тестирование безопасности». METR - модель показывает признаки обмана

GPT-5 мощнее предшественников
— METR подтверждает улучшения
Но OpenAI преувеличивает — "доктор наук" пока не соответствует реальности

Появляются новые риски — ситуационная осведомлённость и стратегическое поведение

Время на подготовку сокращается — до потенциально опасных систем остаётся 1-2 года
Просто факт

23 и 239 — это единственные числа, которые нельзя представить в виде суммы меньше чем 9 положительных кубов:

23 = 2×2³ + 7×1³
239 = 2×4³ + 4×3³ + 3×3³ + 3×1³