Data Secrets
Photo
Победители прошлых лет Всероссийского грантового конкурса «Вклад в поколение» рассказали, как потратили свои гранты. Т-Банк снова открыл прием заявок на ежегодный конкурс, где лучшие учителя точных наук получают доступ к образовательной платформе «Т-Образование», приглашение в профессиональное сообщество и грант в 200 тысяч рублей - на любые цели.
Преподаватели поделились, что использовали гранты для закрытия финансовых вопросов, инвестиций, путешествий, но добавили, что, дело не только в деньгах. Учитель физики из Санкт-Петербурга признался, что смог побороть страх участия в крупном мероприятии и почувствовал себя частью огромного профессионального мира.
Учитель информатики из Долгопрудного потратил грант на подарки ученикам — флешки и пособия для подготовки к ЕГЭ, а учитель физики из Самары высоко оценил сообщество, в котором педагоги обмениваются опытом: «Благодаря конкурсу я смог наконец-то поверить в свои силы и познакомиться с бесконечно интересными коллегами».
Флешки в подарок — в самое сердечко❤️
Преподаватели поделились, что использовали гранты для закрытия финансовых вопросов, инвестиций, путешествий, но добавили, что, дело не только в деньгах. Учитель физики из Санкт-Петербурга признался, что смог побороть страх участия в крупном мероприятии и почувствовал себя частью огромного профессионального мира.
Учитель информатики из Долгопрудного потратил грант на подарки ученикам — флешки и пособия для подготовки к ЕГЭ, а учитель физики из Самары высоко оценил сообщество, в котором педагоги обмениваются опытом: «Благодаря конкурсу я смог наконец-то поверить в свои силы и познакомиться с бесконечно интересными коллегами».
Флешки в подарок — в самое сердечко
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤51🔥19😁17🗿15🤨3👍2👌1
AlphaEvolve от Google DeepMind открыла новые нижние оценки для чисел Рамсея, улучшив результаты, которые не обновлялись десятилетиями
Числа Рамсея – это фундаментальные объекты в комбинаторной математике. Формально, число Рамсея R(s,t) – это минимальное число вершин в полном графе, при котором любое окрашивание ребер в два цвета (скажем, красный и синий) создает либо полносвязный подграф на s вершинах, где все ребра красные, либо полносвязный подграф на t вершинах, где все ребра синие.
Эта задача крайне вычислительно сложна. Даже для небольших значений типа R(5,5) точное значение неизвестно спустя почти век исследований, потому что для вычисления требуется перебор экспоненциального числа раскрасок графов. Это делает задачу неразрешимой даже на современных суперкомпьютерах.
Эрдеш, тот самый легендарный комбинаторщик, говорил, что R(5,5) посчитают только инопланетяне или следующая цивилизация.
Короче, числа Рамсея действительно очень сложны. А вчера DeepMind вдруг объявили, что AlphaEvolve самостоятельно воспроизвела все известные точные границы и улучшила значения для пяти классических случаев.
Особенно поражает, что исторически для приближения чисел Рамсея использовались только хитрые ручные алгоритмы, а тут пробить SOTA смогла +-универсальная система на основе LLM.
Статья
Числа Рамсея – это фундаментальные объекты в комбинаторной математике. Формально, число Рамсея R(s,t) – это минимальное число вершин в полном графе, при котором любое окрашивание ребер в два цвета (скажем, красный и синий) создает либо полносвязный подграф на s вершинах, где все ребра красные, либо полносвязный подграф на t вершинах, где все ребра синие.
Эта задача крайне вычислительно сложна. Даже для небольших значений типа R(5,5) точное значение неизвестно спустя почти век исследований, потому что для вычисления требуется перебор экспоненциального числа раскрасок графов. Это делает задачу неразрешимой даже на современных суперкомпьютерах.
Эрдеш, тот самый легендарный комбинаторщик, говорил, что R(5,5) посчитают только инопланетяне или следующая цивилизация.
Короче, числа Рамсея действительно очень сложны. А вчера DeepMind вдруг объявили, что AlphaEvolve самостоятельно воспроизвела все известные точные границы и улучшила значения для пяти классических случаев.
Особенно поражает, что исторически для приближения чисел Рамсея использовались только хитрые ручные алгоритмы, а тут пробить SOTA смогла +-универсальная система на основе LLM.
Статья
🔥154❤29🤯23👍15🤔5👌1
Meta* опять в пролете
Reuters пишут, что компании пришлось в который раз переносить выпуск новой модели, потому что она… опять не дотянула до уровня frontier.
По сообщениям инсайдеров, модель немного превзошла Gemini 2.5 и уступила ноябрьской версии Gemini 3.0. Напоминаем, что ранее в феврале внутренние мемо лидов хвалили Avocado как самую мощную базовую модель компании, превосходящую открытые аналоги по бенчмаркам.
Теперь плановый запуск сдвинут с марта на май или июнь.
> Быть Цукербергом
> Потратить миллионы миллиардов долларов на хантинг
> Все равно получить никчемную модель
Даже жалко его
Reuters пишут, что компании пришлось в который раз переносить выпуск новой модели, потому что она… опять не дотянула до уровня frontier.
По сообщениям инсайдеров, модель немного превзошла Gemini 2.5 и уступила ноябрьской версии Gemini 3.0. Напоминаем, что ранее в феврале внутренние мемо лидов хвалили Avocado как самую мощную базовую модель компании, превосходящую открытые аналоги по бенчмаркам.
Теперь плановый запуск сдвинут с марта на май или июнь.
> Быть Цукербергом
> Потратить миллионы миллиардов долларов на хантинг
> Все равно получить никчемную модель
Даже жалко его
1😁266🫡34🤔15 10❤6🤯6 5👍3🐳2🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
Заглянуть под капот ROSTIC'S: как Яндекс прокачивал ресторанную сеть
Yandex B2B Tech запустила «Техно на прокачку» — шоу, где инженеры и мастер по “успешному успеху” Егор Кукса соревнуются в том, кто предложит более эффективное решение для прокачки инфраструктуры сети ROSTIC'S.
Цифры, которые впечатляют:
• 1,7 млн человек в день проходят через кассы и терминалы
• 100+ Гб данных в неделю летит в базы (заказы, чеки, транзакции)
Задача была — научиться прожевывать эти гигабайты мгновенно, чтобы бизнес видел аналитику без задержек. Инженеры Яндекса собрали платформу данных, накинули сверху managed-сервисы для Greenplum, ClickHouse и Kafka — и отчеты полетели в 3 раза быстрее.
В шоу без скуки рассказывают про архитектуру проекта и показывают, как это работает на практике. Посмотреть можно уже на YouTube, VK Видео или Кинопоиске.
Yandex B2B Tech запустила «Техно на прокачку» — шоу, где инженеры и мастер по “успешному успеху” Егор Кукса соревнуются в том, кто предложит более эффективное решение для прокачки инфраструктуры сети ROSTIC'S.
Цифры, которые впечатляют:
• 1,7 млн человек в день проходят через кассы и терминалы
• 100+ Гб данных в неделю летит в базы (заказы, чеки, транзакции)
Задача была — научиться прожевывать эти гигабайты мгновенно, чтобы бизнес видел аналитику без задержек. Инженеры Яндекса собрали платформу данных, накинули сверху managed-сервисы для Greenplum, ClickHouse и Kafka — и отчеты полетели в 3 раза быстрее.
В шоу без скуки рассказывают про архитектуру проекта и показывают, как это работает на практике. Посмотреть можно уже на YouTube, VK Видео или Кинопоиске.
🗿51 51❤23🔥9😁8👨💻5👍2🤔2
Новый стартап под названием RentAHuman позволяет ИИ-агентам арендовать людей для выполнения задач
Вот их сайт: rentahuman.ai/
Сами себя они называют «meatspace layer for AI», то есть дословно «мясная прослойка для ИИ».
По сути, это маркетплейс людей и их навыков для задач, которые агенты не могут выполнить самостоятельно (в основном речь идет про какие-то действия в физическом мире).
Люди регистрируются, указывают навыки и геолокацию, а агенты ищет исполнителей для нужных задач, выдают им инструкции и платят криптой.
В соцсетях уже полно постов с историями людей о том, как они отправляли для ИИ посылки или трогали за него траву, а кто-то даже выполнял задание подержать табличку с надписью «ИИ заплатил мне за это» за 100 долларов.
Что называется, приплыли
P.S. Своего агента кстати тоже можно добавить на платформу, пусть развлекается.
Вот их сайт: rentahuman.ai/
Сами себя они называют «meatspace layer for AI», то есть дословно «мясная прослойка для ИИ».
По сути, это маркетплейс людей и их навыков для задач, которые агенты не могут выполнить самостоятельно (в основном речь идет про какие-то действия в физическом мире).
Люди регистрируются, указывают навыки и геолокацию, а агенты ищет исполнителей для нужных задач, выдают им инструкции и платят криптой.
В соцсетях уже полно постов с историями людей о том, как они отправляли для ИИ посылки или трогали за него траву, а кто-то даже выполнял задание подержать табличку с надписью «ИИ заплатил мне за это» за 100 долларов.
Что называется, приплыли
P.S. Своего агента кстати тоже можно добавить на платформу, пусть развлекается.
3😁260 59❤28🤯21 10🗿6🔥4⚡2👍2❤🔥1👏1
Предприниматель сделал для своей собаки вакцину от рака с помощью ИИ
По Интернету сегодня разлетелась добрая история тех-предпринимателя Пола Конингема. У его собаки Рози обнаружили агрессивную форму рака. Обычные методы лечения не помогли, и опухоли продолжали расти.
Тогда Пол решил обратиться к ИИ.
Сначала он отправил ДНК Рози в центр геномики и получил данные о генетическом коде ее организма. Эти данные он анализировал с помощью разных ИИ-инструментов с целью поиска раковых мутаций. Найденные особенности он скармливал в AlphaEvolve, которая анализировала белки и искала потенциальные мишени для терапии.
Все результаты Пол затем отправил в UNSW RNA Institute, и ученые смогли на их основе создать персонализированную mRNA-вакцину, то есть иммунотерапию, сделанную под конкретный генетический профиль.
В конце 2025 года Рози сделали инъекции, и сейчас одна из самых крупных ее опухолей уменьшилась примерно на 50%, а общее самочувствие заметно улучшилось.
Это первый случай создания персонализированной mRNA-вакцины от рака для собаки. Сейчас для Рози готовят вторую версию препарата против оставшихся опухолей – тоже не без помощи ИИ.
Вот что бывает, когда правильный инструмент попал в правильные руки
По Интернету сегодня разлетелась добрая история тех-предпринимателя Пола Конингема. У его собаки Рози обнаружили агрессивную форму рака. Обычные методы лечения не помогли, и опухоли продолжали расти.
Тогда Пол решил обратиться к ИИ.
Сначала он отправил ДНК Рози в центр геномики и получил данные о генетическом коде ее организма. Эти данные он анализировал с помощью разных ИИ-инструментов с целью поиска раковых мутаций. Найденные особенности он скармливал в AlphaEvolve, которая анализировала белки и искала потенциальные мишени для терапии.
Все результаты Пол затем отправил в UNSW RNA Institute, и ученые смогли на их основе создать персонализированную mRNA-вакцину, то есть иммунотерапию, сделанную под конкретный генетический профиль.
В конце 2025 года Рози сделали инъекции, и сейчас одна из самых крупных ее опухолей уменьшилась примерно на 50%, а общее самочувствие заметно улучшилось.
Это первый случай создания персонализированной mRNA-вакцины от рака для собаки. Сейчас для Рози готовят вторую версию препарата против оставшихся опухолей – тоже не без помощи ИИ.
Вот что бывает, когда правильный инструмент попал в правильные руки
4❤598👍116🔥96🤔24🕊19❤🔥4🤝3👌2
Media is too big
VIEW IN TELEGRAM
Сэм Альтман сказал, что в будущем ИИ будет продаваться людям по счетчику, как электричество или вода
Точнее, он выразился так: «Люди будут покупать ИИ у нас, как электричество»
Фактически, он имел в виду, что скоро индустрия полностью уйдет от подписочной системы, и модели будут продаваться только по токенам.
Точнее, он выразился так: «Люди будут покупать ИИ у нас, как электричество»
Фактически, он имел в виду, что скоро индустрия полностью уйдет от подписочной системы, и модели будут продаваться только по токенам.
😁210🤯76🗿37 35❤16🤨9 9👍7🔥7🦄4🍓1
Кстати, на днях 3 года исполнилось Claude
За эти три года у Anthropic произошел буквально экспоненциальный рост выручки. В первый год после запуска Claude (2023) они заработали примерно 100 миллионов долларов, в 2024 – уже миллиард. Это рост порядка 900%.
В конце 2025 годовой ARR оценивают примерно в 9-10 миллиардов. В 2026 ожидаем такой же кратный рост.
Пока что все еще любимый стартап из большой тройки
За эти три года у Anthropic произошел буквально экспоненциальный рост выручки. В первый год после запуска Claude (2023) они заработали примерно 100 миллионов долларов, в 2024 – уже миллиард. Это рост порядка 900%.
В конце 2025 годовой ARR оценивают примерно в 9-10 миллиардов. В 2026 ожидаем такой же кратный рост.
Пока что все еще любимый стартап из большой тройки
👍242❤98🔥32 11💯5👾4😁1
В MoonshotAI изобрели новый вид аттеншена
В трансформерах есть важная штука под названием residual connection. Ее суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений. Эта идея – одна из ключевых во всей архитектуре трансформера.
Тезис исследователей из Moonshot (это, напоминаем, создатели Kimi K2): обычные residual слишком тупы. Они полезны, но на самом деле бездумно накапливают все прошлые выходы слоя за слоем, из-за чего с ростом глубины вклад каждого отдельного слоя размывается, а величины hidden states растут бесконтрольно.
В качестве улучшения предлагают Attention Residuals: пусть слой сам решает, на какие прошлые выходы слоев по глубине ему смотреть. По сути это привычный нам механизм внимания, но не на токенах, а но слоях нейросети.
Теперь вместо того, чтобы получать всю предыдущую информацию от коллег-слоев одной кучей, каждый слой получает взвешенную сумму этих знаний, нужную именно на данном этапе обработки. Теоретически это звучит очень осмысленно. Если обычный аттеншен так хорошо выбирает релевантные токены, то почему бы не дать модели так же выбирать релевантные предыдущие выходы слоев?
Правда, есть нюанс: технически эта идея требует память большого порядка. Поэтому инженерия немного подправлена, и сеть на самом деле делят на блоки, внутри блока оставляют обычное residual-накопление, а attention применяют только между блоками.
На тестах идея действительно демонстрирует вычислительно более эффективную модель: Block AttnRes достигает лосса, сравнимого с бэйзлайном, обученным с 1.25× большим компьютом. Проще говоря, Attention Residuals быстрее сходятся. Авторы также утверждают, что механизм улучшает саму динамику обучения и делает его более стабильным.
Работа выглядит очень интересной и потенциально важной. Надо будет последить, станут ли применять.
https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
В трансформерах есть важная штука под названием residual connection. Ее суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений. Эта идея – одна из ключевых во всей архитектуре трансформера.
Тезис исследователей из Moonshot (это, напоминаем, создатели Kimi K2): обычные residual слишком тупы. Они полезны, но на самом деле бездумно накапливают все прошлые выходы слоя за слоем, из-за чего с ростом глубины вклад каждого отдельного слоя размывается, а величины hidden states растут бесконтрольно.
В качестве улучшения предлагают Attention Residuals: пусть слой сам решает, на какие прошлые выходы слоев по глубине ему смотреть. По сути это привычный нам механизм внимания, но не на токенах, а но слоях нейросети.
Теперь вместо того, чтобы получать всю предыдущую информацию от коллег-слоев одной кучей, каждый слой получает взвешенную сумму этих знаний, нужную именно на данном этапе обработки. Теоретически это звучит очень осмысленно. Если обычный аттеншен так хорошо выбирает релевантные токены, то почему бы не дать модели так же выбирать релевантные предыдущие выходы слоев?
Правда, есть нюанс: технически эта идея требует память большого порядка. Поэтому инженерия немного подправлена, и сеть на самом деле делят на блоки, внутри блока оставляют обычное residual-накопление, а attention применяют только между блоками.
На тестах идея действительно демонстрирует вычислительно более эффективную модель: Block AttnRes достигает лосса, сравнимого с бэйзлайном, обученным с 1.25× большим компьютом. Проще говоря, Attention Residuals быстрее сходятся. Авторы также утверждают, что механизм улучшает саму динамику обучения и делает его более стабильным.
Работа выглядит очень интересной и потенциально важной. Надо будет последить, станут ли применять.
https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
❤161🔥61👍36⚡4❤🔥2😁2👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenClaw, датацентры в космосе и фабрики токенов – Дженсен Хуанг выступил с двухчасовой речью на GTC 2026
Дальше небольшой разбор важных моментов из нее:
➖ OpenClaw – это «новый компьютер». Не просто фреймворк, а операционная система нового типа. Возможно, это самый главный software релиз в истории. Единственная проблема – безопасность. И тут Nvidia предлагает NemoClaw – это enterprise-версия OpenClaw. Они предлагают аудит логов, confidential computing (данные шифруются даже на GPU) и изоляцию агентов в песочнице. Интересно, не собираются ли OpenAI после покупки OpenClaw сделать то же самое 😐
➖ Хуанг объявил о Vera Rubin Space-1 – модуле для орбитальных дата-центров. Это означает, что Nvidia официально выходит в космос, и при этом с архитектурой Rubin (R100), которая дает до 25x больше вычислительной мощности для инференса по сравнению с H100. Основная проблема космоса – охлаждение. Nvidia уже работает над этим.
➖ Дата-центры скоро эволюционируют до AI-фабрик. То есть превратятся из инфраструктуры для инференса в производство токенов. 80% софта заменится ИИ-генерацией. Nvidia уже готовится и анонсирует Dynamo OS и DSX. Первое – это платформа для управления такими фабриками, которая динамически распределяет нагрузку в кластерах. DSX – это сервис для цифровых двойников AI-инфраструктуры: моделирует питание, охлаждение и все-все детали и позволяет эффективно и быстро проводить оптимизации.
А кроме этого анонсировали еще новое железо (тот самый Vera Rubin GPU) и новое ПО для роботов, которых Nvidia продолжает разрабатывать с партнерами.
Полностью смотрим тут www.youtube.com/live/PirWDBZlrVg
Дальше небольшой разбор важных моментов из нее:
А кроме этого анонсировали еще новое железо (тот самый Vera Rubin GPU) и новое ПО для роботов, которых Nvidia продолжает разрабатывать с партнерами.
Полностью смотрим тут www.youtube.com/live/PirWDBZlrVg
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95❤35🤔25 15😁9👍6🗿4🤯2🐳2❤🔥1
Вайбкодинг в бигтехе: как происходит внедрение ИИ-агентов
Разговоров про кодинг-агентов становится все больше, но мало кто понимает, что внедрение таких систем на уровне компании — это сложная инженерная работа, а не просто «подключили модель и поехали».
Обычно этот процесс остается за закрытыми дверями. Но иногда появляется возможность послушать практиков. Недавно мы посмотрели в онлайне митап AI Dev Day, и сразу несколько докладов были посвящены внедрению AI-агентов в процессы разработки.
Андрей Попов, лидер трека ИИ в разработке в Яндексе, рассказал, что у них развитием агентов занимаются уже не энтузиасты, а полноценные команды, и это направление стало фокусным. Из чего состоит такая работа:
— Метрики. Главная метрика сейчас — сэкономленное время разработчика. Суммарно ИИ сэкономил уже 42к часов инженеров Яндекса. Есть и другие показатели: например, количество коммитов при использовании ИИ выросло на 10%, что означает – разработка ускоряется. В перспективе компания хочет двигаться к AI-first подходу: ключевым станет показатель того, как часто разработчику приходится вмешиваться в автономный процесс генерации кода (по аналогии с disengagement rate в автономном транспорте).
— Собственные бенчмарки и дообучение моделей. В компании есть внутренний бенчмарк ArcSWE – аналог SWE Verified, но на задачах компании. Именно такие измерения становятся основой для управленческих решений, потому что на публичные бенчмарки не всегда можно опираться.
— Своя инфраструктура. Собственный интерфейс, доступный инференс, RAG, MCP и системы контекста. В большой компании множество внутренних сервисов, поэтому требуется много кастомной интеграции – сейчас у компании уже 35+ MCP для работы с инфраструктурой.
Сейчас около 30% кода в компании генерируется ИИ, причем 23% – в агентском режиме внутри собственного агента Yandex Code Assistant. О том, как его разрабатывают и улучшают, на той же конференции рассказывал Сергей Бульдяев, технический менеджер продукта.
Все это – демонстрация процесса настоящего внедрения. Очень важно не проваливаться в хайп, трезво проводить эвал и заниматься агентами не на уровне пет-проектов на выходных, а именно вот так организованно.
Разговоров про кодинг-агентов становится все больше, но мало кто понимает, что внедрение таких систем на уровне компании — это сложная инженерная работа, а не просто «подключили модель и поехали».
Обычно этот процесс остается за закрытыми дверями. Но иногда появляется возможность послушать практиков. Недавно мы посмотрели в онлайне митап AI Dev Day, и сразу несколько докладов были посвящены внедрению AI-агентов в процессы разработки.
Андрей Попов, лидер трека ИИ в разработке в Яндексе, рассказал, что у них развитием агентов занимаются уже не энтузиасты, а полноценные команды, и это направление стало фокусным. Из чего состоит такая работа:
— Метрики. Главная метрика сейчас — сэкономленное время разработчика. Суммарно ИИ сэкономил уже 42к часов инженеров Яндекса. Есть и другие показатели: например, количество коммитов при использовании ИИ выросло на 10%, что означает – разработка ускоряется. В перспективе компания хочет двигаться к AI-first подходу: ключевым станет показатель того, как часто разработчику приходится вмешиваться в автономный процесс генерации кода (по аналогии с disengagement rate в автономном транспорте).
— Собственные бенчмарки и дообучение моделей. В компании есть внутренний бенчмарк ArcSWE – аналог SWE Verified, но на задачах компании. Именно такие измерения становятся основой для управленческих решений, потому что на публичные бенчмарки не всегда можно опираться.
— Своя инфраструктура. Собственный интерфейс, доступный инференс, RAG, MCP и системы контекста. В большой компании множество внутренних сервисов, поэтому требуется много кастомной интеграции – сейчас у компании уже 35+ MCP для работы с инфраструктурой.
Сейчас около 30% кода в компании генерируется ИИ, причем 23% – в агентском режиме внутри собственного агента Yandex Code Assistant. О том, как его разрабатывают и улучшают, на той же конференции рассказывал Сергей Бульдяев, технический менеджер продукта.
Все это – демонстрация процесса настоящего внедрения. Очень важно не проваливаться в хайп, трезво проводить эвал и заниматься агентами не на уровне пет-проектов на выходных, а именно вот так организованно.
🗿80😁28❤26👍26🔥13🤔7🤯2👏1
Google DeepMind заплатит от 10 до 25 тысяч долларов тому, кто придумает лучший бенчмарк для AGI
В 2026 году мы все еще не понимаем, как оценить, насколько модель близка к AGI.
Google считают, что это большая проблема, и они правы. Без нормального эвала не будет прогресса. Именно из-за однобоких бенчмарков в моделях сейчас развивается то, что Хассабис называет jagged intelligence (рваный интеллект): в одном модель супер умная (например, код), в другом – супер тупая.
Короче, Google предлагают идею когнитивной таксономии, то есть разбиения интеллекта на базовые способности: память, обучаемость, планирование, социальное мышление и тд. Это все позаимствовано из психологии и нейронауки.
Они запустили соревнование на Kaggle, в рамках которого нужно придумать, как измерять каждую из таких способностей (выбрали пять основных: обучаемость, метакогнитивность, внимание, исполнительные функции, социальная когнитивность).
Победителей будут выбирать по тому, насколько валидный, научно обоснованный, практически применимый и устойчивый к читингу бенчмарк вы предложите.
Двум победителям в каждом треке платят по 10к долларов, плюс 25к долларов получат четыре лучших бенчмарка среди всех сабмитов.
Будем следить
www.kaggle.com/competitions/kaggle-measuring-agi
В 2026 году мы все еще не понимаем, как оценить, насколько модель близка к AGI.
Google считают, что это большая проблема, и они правы. Без нормального эвала не будет прогресса. Именно из-за однобоких бенчмарков в моделях сейчас развивается то, что Хассабис называет jagged intelligence (рваный интеллект): в одном модель супер умная (например, код), в другом – супер тупая.
Короче, Google предлагают идею когнитивной таксономии, то есть разбиения интеллекта на базовые способности: память, обучаемость, планирование, социальное мышление и тд. Это все позаимствовано из психологии и нейронауки.
Они запустили соревнование на Kaggle, в рамках которого нужно придумать, как измерять каждую из таких способностей (выбрали пять основных: обучаемость, метакогнитивность, внимание, исполнительные функции, социальная когнитивность).
Победителей будут выбирать по тому, насколько валидный, научно обоснованный, практически применимый и устойчивый к читингу бенчмарк вы предложите.
Двум победителям в каждом треке платят по 10к долларов, плюс 25к долларов получат четыре лучших бенчмарка среди всех сабмитов.
Будем следить
www.kaggle.com/competitions/kaggle-measuring-agi
👍96❤36😁24🔥8🤯4🤔2🐳2