Обучение китайской нейросети обошлось в 200 раз дешевле, чем GPT-4o ⚠️
На днях китайский стартап MiniMax выпустил нейросеть MiniMax-M1 с открытым исходным кодом. Стоимость обучения новой модели оказалась значительно ниже популярных в мире чат-ботов. По словам разработчиков, алгоритм, лежащий в основе M1, не уступает продуктам OpenAI, Anthropic и DeepSeek по производительности и качеству.
Характеристики
💡 Возможно, запуск M1 подтолкнёт пользователей к переходу на более доступные модели. Как считаете, китайские стартапы вытеснят мировых лидеров?
💯 — Да
🤔 — Нет
На днях китайский стартап MiniMax выпустил нейросеть MiniMax-M1 с открытым исходным кодом. Стоимость обучения новой модели оказалась значительно ниже популярных в мире чат-ботов. По словам разработчиков, алгоритм, лежащий в основе M1, не уступает продуктам OpenAI, Anthropic и DeepSeek по производительности и качеству.
Характеристики
🔘 Обучение обошлось всего в $534 700. Это в 200 раз дешевле, чем у GPT-4o🔘 Поддержка 1 млн токенов контекста, как у Google Gemini 2.5 Pro🔘 Для вывода 80 тысяч токенов требуется лишь 30% от мощности, которую на это затрачивает DeepSeek R1🔘 Новый алгоритм обучения CISPO работает в 2 раза быстрее аналогов (DAPO от ByteDance и GRPO от DeepSeek)🔘 API — $1,3 за ввод до 1 млн токенов (такого тарифа нет ни у одного из конкурентов)
💯 — Да
🤔 — Нет
Please open Telegram to view this post
VIEW IN TELEGRAM
💯26🤔15🔥3👍1
Завтра стартует GigaConf 2025 ⭐
25 июня в Москве на Хлебозаводе №9 пройдёт одна из главных AI-конференций этого лета. Более 2 000 участников — разработчиков, ML-инженеров, DevOps-специалистов и продуктологов — соберутся в Москве, чтобы обсудить возможности генеративного AI.
В программе четыре параллельных трека:
📆 Среди приглашённых гостей — эксперты из Сбера, Cloud.ru, X5, WB, Авито и Альфа-Банка.
🎉 Помимо деловой части, участников ждут интерактивные и чилл-зоны, AI-фотобудка, DJ-сеты на крыше, розыгрыши призов.
Регистрируйтесь и присоединяйтесь к нам онлайн или офлайн💻
25 июня в Москве на Хлебозаводе №9 пройдёт одна из главных AI-конференций этого лета. Более 2 000 участников — разработчиков, ML-инженеров, DevOps-специалистов и продуктологов — соберутся в Москве, чтобы обсудить возможности генеративного AI.
В программе четыре параллельных трека:
🔘 GenAI для бизнеса🔘 AI-Enhanced DevTools & DevOps🔘 Разработка моделей GenAI🔘 Cloud AI Architecture
Регистрируйтесь и присоединяйтесь к нам онлайн или офлайн
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5👏4
This media is not supported in your browser
VIEW IN TELEGRAM
GigaAM: внутри GigaChat ⚙️
В прошлом посте мы рассказали, как обучали линейку открытых аудиомоделей GigaAM. Теперь поговорим о том, как эта модель интегрирована в GigaChat.
Звук поступает в энкодер GigaAM Max. В его основе — модель GigaAM-v2 на архитектуре Conformer. Она считывает и звуковые паттерны, и контекст речи. Чтобы аудиомодель могла «общаться» с языковой моделью GigaChat, между ними используется специальный адаптер. Он состоит из двух частей:
💡 Понимание аудиозапросов и генерация ответов реализуются через метод LoRA (Low-Rank Adaptation). Его компоненты встраиваются в ключевые части модели — в слои внимания и блоки обработки текста (FFN) — и позволяют быстро адаптировать поведение модели к новым задачам, не затрагивая всю систему целиком.
🔄 Чтобы эффективнее работать с длинными аудиозаписями, двумерные свёрточные слои заменили на более лёгкие — одномерные. Нагрузка на память снизилась в 10 раз. Благодаря этому модель теперь обрабатывает многочасовые записи быстро и без потери качества.
➡️ Читайте технические подробности в посте канала разработчиков или на Хабре. А задать свой вопрос голосом можно в боте ✉️
В прошлом посте мы рассказали, как обучали линейку открытых аудиомоделей GigaAM. Теперь поговорим о том, как эта модель интегрирована в GigaChat.
Звук поступает в энкодер GigaAM Max. В его основе — модель GigaAM-v2 на архитектуре Conformer. Она считывает и звуковые паттерны, и контекст речи. Чтобы аудиомодель могла «общаться» с языковой моделью GigaChat, между ними используется специальный адаптер. Он состоит из двух частей:
🔘 subsampler — модуль без параметров, который сжимает длину аудио в 4 раза, объединяя соседние фрагменты. Это помогает экономить память и облегчает работу с длинными записями🔘 projector — модуль, который преобразует аудиопризнаки в представление, понятное языковой модели. Для этого используется простая линейная проекция. Она оказалась эффективнее сложных архитектур. При этом основную работу по извлечению признаков выполняет энкодер
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥2
GigaStudio сделает приложение за вас 🤖
На GigaConf 2025 представили GigaStudio — инструмент для создания веб-приложений по текстовым запросам:
1️⃣ вы описываете задачу в чате с AI
2️⃣ нейросеть создаёт решение за пару минут
Благодаря интеграции с GitVerse пользователям доступна работа с репозиториями и профессиональными инструментами. Специалисты без опыта в программировании смогут запускать приложения самостоятельно, а разработчики — экономить часы на создании MVP.
Параллельно GitVerse получила крупное обновление:
🖱 Запишитесь, чтобы получить ранний доступ, и попробуйте одними из первых.
На GigaConf 2025 представили GigaStudio — инструмент для создания веб-приложений по текстовым запросам:
Благодаря интеграции с GitVerse пользователям доступна работа с репозиториями и профессиональными инструментами. Специалисты без опыта в программировании смогут запускать приложения самостоятельно, а разработчики — экономить часы на создании MVP.
Параллельно GitVerse получила крупное обновление:
🔘 доступна сборка проектов в облаке для всех репозиториев, включая приватные🔘 увеличено время на сборку приложений в CI/CD🔘 улучшена поддержка Data Science: можно просматривать Jupyter Notebooks, больше места для хранения датасетов🔘 запущен обновлённый публичный API GitVerse🔘 добавлена приоритизация задач и улучшено управление проектами в таск-трекере
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥5👏2❤1
Ранее мы собрали в одном посте все типы языковых моделей. Сегодня остановимся на рассуждающих моделях и расскажем, как их учат думать.
✍️ Как устроено «мышление»
Стандартные языковые модели пытаются предсказать, какое слово с наибольшей вероятностью должно быть дальше в тексте — почти как система Т9 в мобильном телефоне.
Рассуждающая модель не играет в «угадайку». Она разбивает задачу на этапы и логически переходит от одного шага к другому, генерируя цепочку «мыслей» перед финальным ответом. Модель может ветвить пути рассуждений и выбирать наиболее правдоподобный. А чтобы она пользовалась актуальными и точными данными, разработчики закладывают в неё возможность доступа к внешним источникам информации: базам данных, справочникам, калькуляторам, календарям, веб-поисковикам. К рассуждающим моделям относятся GigaChat 2.0, GPT-4.5, Gemini 2.5, Claude 3.7 Sonnet.
5️⃣ Обучение
Рассуждающие модели обучают на задачах, где размечена логика рассуждения — например, на школьной арифметике.
Плюсы
🔘 Отвечают на сложные запросы
🔘 Дают возможность проследить ход рассуждений модели
Минусы
🔘 Пошаговое рассуждение создаёт больше текста, а значит, требует больше вычислительных ресурсов. Поэтому ответ генерируется медленнее
🔘 С виду логичная цепочка может вести к ошибочному выводу
❤️ — если любите смотреть, как рассуждает модель в ответ на запрос
Стандартные языковые модели пытаются предсказать, какое слово с наибольшей вероятностью должно быть дальше в тексте — почти как система Т9 в мобильном телефоне.
Рассуждающая модель не играет в «угадайку». Она разбивает задачу на этапы и логически переходит от одного шага к другому, генерируя цепочку «мыслей» перед финальным ответом. Модель может ветвить пути рассуждений и выбирать наиболее правдоподобный. А чтобы она пользовалась актуальными и точными данными, разработчики закладывают в неё возможность доступа к внешним источникам информации: базам данных, справочникам, калькуляторам, календарям, веб-поисковикам. К рассуждающим моделям относятся GigaChat 2.0, GPT-4.5, Gemini 2.5, Claude 3.7 Sonnet.
Рассуждающие модели обучают на задачах, где размечена логика рассуждения — например, на школьной арифметике.
В обучающие примеры добавляют шаблоны-подсказки, которые направляют мышление: «Давай подумаем шаг за шагом», «Во-первых…, во-вторых…, наконец…». Кстати, такие подсказки могут использовать пользователи в своих промптах, чтобы ответы были точнее.Модель следует принципу самосогласованности (self-consistency). Ей показывают примеры рассуждений и повторяют один и тот же запрос, чтобы модель сгенерировала несколько ответов. Затем она выбирает самый частый или обоснованный вариант, а человек или модель-ассистент оценивают качество ответа.
Плюсы
Минусы
❤️ — если любите смотреть, как рассуждает модель в ответ на запрос
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍3🔥2
25 июня прошла конференция GigaConf, где ведущие AI-эксперты обсудили настоящее и будущее индустрии. В каком направлении развиваются генеративные модели и как они превращаются из исполнителей в агентов? Собрали для вас главные доклады 👇
💡 Deep Reasoning: как научить LLM думать и действовать
Эксперты Сбера рассказали, как GigaChat 2.0 научился рассуждать и решать сложные задачи. Вместе со слушателями они обсудили, как модель подключает внешние источники информации, чтобы давать точные и полные ответы.
💡 От генеративного AI к интерактивному
В этом докладе речь шла о переходе индустрии от моделей-исполнителей узких задач к агентам, способным рассуждать и применять знания в различных областях. Эксперт рассказал, как можно предсказывать поведение модели, и дал прогноз будущего AI-индустрии. Особое внимание он уделил оптимальному использованию вычислительных ресурсов, благодаря которому можно сделать ответы точнее.
💡 Автономная кибербезопасность
В докладе рассмотрен сценарий, где AI защищает инфраструктуру почти без участия человека. А также поднимается вопрос о том, где роль человека по-прежнему критична, а где уже можно передать управление алгоритмам.
💡 Генерация изображений и видео: Kandinsky 4.1
Доклад посвящён тому, как генеративная модель Kandinsky 4.1 c помощью диффузии создаёт изображения и видео по промптам на естественном языке. Слушатели смогли погрузиться в особенности архитектуры и принципы обучения модели. Особое внимание было уделено проблемам при сборе данных и оценке результатов.
💡 Как собирать данные для обучения LLM
Спикер раскрыл детали масштабного сбора данных: от типов датасетов и партнёрств между IT-компаниями до юридических тонкостей. Он также затронул метрики качества и роль data-инженеров в связке с ML-командами.
💡 Многоагентные системы в облаке Yandex Cloud
Представители Яндекс рассказали, почему 2025 — год агентов, и поделились опытом масштабирования архитектуры и создания AI-агентов с разной степенью гибкости.
Смотрите запись трансляций здесь➡️
Эксперты Сбера рассказали, как GigaChat 2.0 научился рассуждать и решать сложные задачи. Вместе со слушателями они обсудили, как модель подключает внешние источники информации, чтобы давать точные и полные ответы.
В этом докладе речь шла о переходе индустрии от моделей-исполнителей узких задач к агентам, способным рассуждать и применять знания в различных областях. Эксперт рассказал, как можно предсказывать поведение модели, и дал прогноз будущего AI-индустрии. Особое внимание он уделил оптимальному использованию вычислительных ресурсов, благодаря которому можно сделать ответы точнее.
В докладе рассмотрен сценарий, где AI защищает инфраструктуру почти без участия человека. А также поднимается вопрос о том, где роль человека по-прежнему критична, а где уже можно передать управление алгоритмам.
Доклад посвящён тому, как генеративная модель Kandinsky 4.1 c помощью диффузии создаёт изображения и видео по промптам на естественном языке. Слушатели смогли погрузиться в особенности архитектуры и принципы обучения модели. Особое внимание было уделено проблемам при сборе данных и оценке результатов.
Спикер раскрыл детали масштабного сбора данных: от типов датасетов и партнёрств между IT-компаниями до юридических тонкостей. Он также затронул метрики качества и роль data-инженеров в связке с ML-командами.
Представители Яндекс рассказали, почему 2025 — год агентов, и поделились опытом масштабирования архитектуры и создания AI-агентов с разной степенью гибкости.
Смотрите запись трансляций здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤7🔥4
Хотели бы узнать, о чём думает ваш питомец? 🐾
Представьте, что вместо привычного «мяу, мяу» вы слышите: «Хозяин, корми!». Китайская компания Baidu подала патент на приложение, которое позволит «говорить» с домашними питомцами.
Как работает система?
Если в приложение поступают данные, которые не совпадают ни с одной из известных ей эмоций, специалисты вручную маркируют такие случаи, дополняют обучающую выборку и вносят изменения в модель.
💡 В Baidu считают, что их разработка — это шаг к новому уровню общения с животными. Сегодняшние технологии, по их мнению, слишком ограничены. Одни считывают только голос, другие — движения. Но нет таких, которые были бы способны уловить всю палитру эмоций животных.
📆 Проект пока находится на стадии исследования, а одобрение патента может занять годы. Вы бы хотели поговорить с котом через нейросеть?
❤️ — Да, всегда было интересно, почему он орёт по утрам
💔 — Нет, я и так научился его понимать
Представьте, что вместо привычного «мяу, мяу» вы слышите: «Хозяин, корми!». Китайская компания Baidu подала патент на приложение, которое позволит «говорить» с домашними питомцами.
Как работает система?
🔘 Она собирает данные: звуки, движения, частоту сердцебиения и пульс животного🔘 Эти данные проходят предварительную обработку, а после объединяются в один датасет🔘 Затем AI-модуль анализирует их, чтобы определить текущее эмоциональное состояние питомца🔘 На финальном этапе система формулирует описание, которое будет понятно человеку
Если в приложение поступают данные, которые не совпадают ни с одной из известных ей эмоций, специалисты вручную маркируют такие случаи, дополняют обучающую выборку и вносят изменения в модель.
❤️ — Да, всегда было интересно, почему он орёт по утрам
💔 — Нет, я и так научился его понимать
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🤔6💔2
Мы уже писали о новом AI-редакторе Malvina в GigaChat. Он может восстановить старое фото и убрать людей с фона без полной перегенерации изображения. В основе редактора — диффузионный трансформер.
Григорий Алексеенко поделился особенностями подхода:
❤️ — если ждёте продолжение рассказа о работе трансформера в Malvina
Григорий Алексеенко поделился особенностями подхода:
🔘 в чём преимущество диффузии перед авторегрессией, которая используется в аналогичных моделях🔘 как Malvina сохраняет исходные параметры изображения (например, разрешение), и почему это не получается у GPT-4o Inpaint
❤️ — если ждёте продолжение рассказа о работе трансформера в Malvina
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍5🔥3🤔3
Исследования ДНК, новая модель для генерации видео и AI-инструменты для разработчиков — в нашем дайджесте 🤖
Модели
🖥 DeepMind представила модель AlphaGenome, которая распознаёт изменения в геноме человека и предсказывает их последствия. Модель принимает на вход длинную последовательность оснований ДНК — до 1 миллиона «букв», из которых состоит молекула. А затем прогнозирует свойства генов. Новая модель поможет исследовать генетические заболевания.
🖥 Midjourney выпустила свою первую модель для генерации видео — V1. Она создаёт четыре пятисекундных видео из одного изображения. V1 работает в двух режимах: автоматический и ручной. Во втором случае пользователь описывает текстовым промптом происходящее в кадре. Инструмент работает через Discord и доступен в веб-версии по базовой подписке.
🖥 Китайская компания MiniMax представила AI-модель M1 с открытым исходным кодом. По словам создателей, её обучение обошлось в 200 раз дешевле GPT-4о, а по производительности и качеству алгоритм не уступает топовым конкурентам. Подробности читайте в нашем посте.
Инструменты разработки
🖥 Anthropic добавила новую функцию в Claude AI, которая позволяет создавать программы на базе искусственного интеллекта. Результаты можно увидеть сразу в чат-боте. Обновление основано на функции Anthropic Artifacts, представленной в прошлом году.
🖥 Google выпустила Gemini CLI — AI-инструмент для командной строки с открытым исходным кодом. Он подключает модель Gemini AI к локальным кодовым базам и позволяет разработчикам делать запросы на естественном языке. Можно попросить Gemini CLI написать новые функции, запустить команду или отладить код.
🖥 Сбер представил GigaStudio — инструмент для создания веб-приложений по текстовым запросам. Он позволит разработчикам быстрее запускать MVP, а cпециалистам без опыта в программировании — создавать приложения самостоятельно. Подробнее — в нашем посте.
❤️ — если готовы доверить AI разработку приложений
Модели
Инструменты разработки
❤️ — если готовы доверить AI разработку приложений
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥6💯3👍1
Как измерить творческий потенциал AI 🚀
Специалисты Сбера представили POLLUX — первый бенчмарк для оценки творческих способностей LLMs на русском. Это первый тест, направленный не на решение экзаменационных задач с фиксированным ответом, а на оценку открытой генерации текста.
Что проверяет POLLUX?
🔘 Умение адаптироваться к разным творческим задачам
🔘 Работу со стилями и жанрами
🔘 Способность давать нестандартные ответы
Авторы также предложили типологию и критерии для интерпретируемой оценки. Теперь «креативность» AI можно измерить!
Внутри:
💡 Тесты показали, что даже самые продвинутые LLM вроде ChatGPT допускают ошибки, когда нужно общаться от лица персонажа или писать на нестандартную тему. Они не попадают в тон, звучат сухо или неубедительно. POLLUX это отслеживает и показывает, где модель теряет стиль. Сравнение 7 ведущих языковых моделей и демо-версию POLLUX можно посмотреть платформе LLM Arena.
➡️ Подробности читайте на Хабре, а сам бенчмарк доступен на GitHub.
Будете использовать POLLUX в своих проектах?
👍 — Да, однозначно
🤔 — А креативность шуток он оценивает?
Специалисты Сбера представили POLLUX — первый бенчмарк для оценки творческих способностей LLMs на русском. Это первый тест, направленный не на решение экзаменационных задач с фиксированным ответом, а на оценку открытой генерации текста.
Что проверяет POLLUX?
Авторы также предложили типологию и критерии для интерпретируемой оценки. Теперь «креативность» AI можно измерить!
Внутри:
🔘 2 100 уникальных задач 152 типов: от художественного письма до код-ревью🔘 11 500 ответов от 7 моделей (GPT-4o, Claude 3.5, GigaChat MAX и др.), по которым обучали систему🔘 471 000 экспертных оценок по 66 критериям: смысл, стиль, структура, ошибки, терминология🔘 4 модели LLM-as-a-Judge (модели-судьи, анализирующие ответы других моделей), обученные объяснять свои оценки
Будете использовать POLLUX в своих проектах?
👍 — Да, однозначно
🤔 — А креативность шуток он оценивает?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔8👍6❤5
Продолжаем рассказ об AI-редакторе Malvina
Обо всём этом — во второй части интервью с Григорием Алексеенко
❤️ — если понравился такой формат
🔘 Какая архитектура у модели?🔘 Сколько экспертов работают в MoE Transformer Adapter?🔘 И за счёт чего Malvina восстанавливает старые изображения?
Обо всём этом — во второй части интервью с Григорием Алексеенко
❤️ — если понравился такой формат
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👏3👍2
Легче, быстрее, дешевле ⚡️
Учёные из Университета Бар-Илан разработали метод «обрезки» (pruning) нейросетей без потери качества. Новый подход AFCC (Applied Filter’s Cluster Connections) анализирует отдельные параметры модели и выявляет те, что действительно важны для обучения. Остальные элементы, не влияющие на результат, удаляет. Это позволяет сократить число параметров на отдельных слоях до 90% без ухудшения производительности.
Тесты показали, что «облегчённые» модели:
⚠️ Пока метод тестировался только на архитектурах VGG-11 и EfficientNet-B0, обученных на датасете CIFAR-100. Для других решений его эффективность ещё предстоит изучить.
Стоит отметить, что для внедрения таких моделей требуется глубокий анализ в каждом конкретном случае. Поэтому не ясно, удобно ли будет применять подход для массового внедрения. Однако потенциал у подобных методов большой — в будущем они смогут революционизировать индустрию AI и, возможно, позволят запускать топовые модели даже на смартфонах.
Как думаете, станет ли «обрезка» стандартной практикой при запуске моделей в продакшн?
🔥 — Да, это повысит спрос на такие модели
🤔 — Нет, все параметры могут пригодиться
Учёные из Университета Бар-Илан разработали метод «обрезки» (pruning) нейросетей без потери качества. Новый подход AFCC (Applied Filter’s Cluster Connections) анализирует отдельные параметры модели и выявляет те, что действительно важны для обучения. Остальные элементы, не влияющие на результат, удаляет. Это позволяет сократить число параметров на отдельных слоях до 90% без ухудшения производительности.
Тесты показали, что «облегчённые» модели:
🔘 быстрее обучаются и работают🔘 экономят электроэнергию🔘 требуют меньшего объёма памяти и вычислительной мощности, чем исходные
Стоит отметить, что для внедрения таких моделей требуется глубокий анализ в каждом конкретном случае. Поэтому не ясно, удобно ли будет применять подход для массового внедрения. Однако потенциал у подобных методов большой — в будущем они смогут революционизировать индустрию AI и, возможно, позволят запускать топовые модели даже на смартфонах.
Как думаете, станет ли «обрезка» стандартной практикой при запуске моделей в продакшн?
🔥 — Да, это повысит спрос на такие модели
🤔 — Нет, все параметры могут пригодиться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16🤔8❤2
На страже вашего кода 🛡
Наши учёные разработали новую модель для поиска слабых мест в коде. Их статью приняли к публикации в международном журнале IEEE Access.
В основе подхода — нейросеть WizardCoder для анализа Java-кода. Её дообучили на датасете с подтверждёнными уязвимостями для поиска ошибок, которые могут привести к утечке данных или взлому. За счёт использования батча переменного размера время на fine-tuning удалось сократить в 13 раз.
Результаты тестов:
Метод обошёл по эффективности альтернативные AI-решения для поиска уязвимостей вроде ContraBERT на основе CodeBERT. Разработка поможет учёным ускорить обучение больших моделей и улучшить методы анализа кода. В будущем благодаря таким методам компании смогут быстрее, точнее и дешевле находить потенциальные угрозы в ПО.
🔥 — если согласны, что такие AI-анализаторы кода упростят жизнь разработчикам
Наши учёные разработали новую модель для поиска слабых мест в коде. Их статью приняли к публикации в международном журнале IEEE Access.
В основе подхода — нейросеть WizardCoder для анализа Java-кода. Её дообучили на датасете с подтверждёнными уязвимостями для поиска ошибок, которые могут привести к утечке данных или взлому. За счёт использования батча переменного размера время на fine-tuning удалось сократить в 13 раз.
Результаты тестов:
🔘 + 4–5% к точности в простых примерах кода с уязвимостями🔘 + 22% для сложных примеров уязвимостей
Метод обошёл по эффективности альтернативные AI-решения для поиска уязвимостей вроде ContraBERT на основе CodeBERT. Разработка поможет учёным ускорить обучение больших моделей и улучшить методы анализа кода. В будущем благодаря таким методам компании смогут быстрее, точнее и дешевле находить потенциальные угрозы в ПО.
🔥 — если согласны, что такие AI-анализаторы кода упростят жизнь разработчикам
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤4👏3
Второе место в RecSys Challenge у команды Сбера 🏆
Исследователи Sber AI Lab заняли второе место в соревновании RecSys Challenge на международной конференции RecSys 2025! Это одно из крупнейших событий по ML в рекомендательных системах. А в зачете академических команд исследователи взяли первое место.
В команде от Сбера ai_lab_recsys выступили Антон Кленицкий, Артём Фаткулин, Антон Пембек, Дарья Денисова и Алексей Васильев. Всего в соревновании участвовали более 100 команд из разных стран.
По условиям конкурса участникам требовалось:
Это очень похоже на кейсы банка, поэтому наработки, полученные на соревновании, команда проверит на реальных данных и применит для решения задач Сбера.
➡️ По результатам работы уже готовится научная статья для специального воркшопа в рамках конференции RecSys’25 в Праге.
🎉 Поздравляем команду и желаем новых успехов!
Исследователи Sber AI Lab заняли второе место в соревновании RecSys Challenge на международной конференции RecSys 2025! Это одно из крупнейших событий по ML в рекомендательных системах. А в зачете академических команд исследователи взяли первое место.
В команде от Сбера ai_lab_recsys выступили Антон Кленицкий, Артём Фаткулин, Антон Пембек, Дарья Денисова и Алексей Васильев. Всего в соревновании участвовали более 100 команд из разных стран.
По условиям конкурса участникам требовалось:
1️⃣ сгенерировать эмбеддинги на основе действий пользователей рекомендательных систем2️⃣ затем передать их в проверяющую систему, которая самостоятельно обучала нейросеть для решения нескольких задач
Это очень похоже на кейсы банка, поэтому наработки, полученные на соревновании, команда проверит на реальных данных и применит для решения задач Сбера.
Для достижения цели учёные объединили несколько типов представлений: ALS, пользовательские фичи, автоэнкодеры и GRU. Такое сочетание обеспечило высокую обобщаемость и стабильные результаты на всех задачах, включая скрытые
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7👍2🔥1
Задачи «по зубам»: GigaChat сдал экзамен на стоматолога 5️⃣
GigaChat прошёл аккредитацию по специальности «Стоматология» в Воронежском государственном медицинском университете.
Модель дообучили на специальном датасете для направления «Врач-стоматолог». Теперь GigaChat способен давать понятные и достоверные ответы о гигиене и лечении зубов. В перспективе AI-ассистента смогут использовать врачи.
Это не первая аккредитация GigaChat по медицине. У него получилось:
🔘 сдать выпускной экзамен по специальности «Лечебное дело» в НМИЦ им. Алмазова
🔘 на базе аккредитационного центра Сеченовского Университета успешно решить ситуационные задачи, соответствующие теоретическим этапам первичной аккредитации по специальности «Лечебное дело»
🔘 сдать экзамен по кардиологии в ВолгГМУ и по гастроэнтерологии в УГМУ
🔘 сдать экзамены по педиатрии, неврологии в ПИМУ и по ревматологии в СамГМУ
❤️ — если ждёте новостей о новых успехах нейросетей
GigaChat прошёл аккредитацию по специальности «Стоматология» в Воронежском государственном медицинском университете.
Модель дообучили на специальном датасете для направления «Врач-стоматолог». Теперь GigaChat способен давать понятные и достоверные ответы о гигиене и лечении зубов. В перспективе AI-ассистента смогут использовать врачи.
Это не первая аккредитация GigaChat по медицине. У него получилось:
❤️ — если ждёте новостей о новых успехах нейросетей
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥3👍2
AlphaGenome — новый AI-инструмент для исследования ДНК 🔥
В конце июня DeepMind представила AlphaGenome — AI-инструмент, который предсказывает, как изменения в ДНК влияют на процессы в организме человека.
Что умеет AlphaGenome
AlphaGenome принимает на вход длинную последовательность «букв», из которых состоит ДНК — до 1 миллиона. А затем прогнозирует свойства молекулы. Модель также оценивает эффекты мутаций и вариаций генов. Для этого она сравнивает прогнозы для стандартных и изменённых последовательностей.
Как устроена модель
🔘 Свёрточные слои ищут «мотивы» — короткие повторяющиеся паттерны в последовательности «букв». Так выделяются участки, важные для активности гена.
🔘 Трансформеры анализируют связи между участками ДНК. Например, между геном и участками-энхансерами, которые регулируют его работу и находятся в тысячах «букв» от него.
🔘 Финальные слои (prediction heads) по найденным паттернам и связям предсказывают свойства молекулы.
Например:
🔘 начало и конец гена в последовательности
🔘 места присоединения белков, регулирующих работу генов
Обучение
Во время обучения модель сравнивает свои прогнозы с экспериментальными данными из научных исследований, считает, насколько сильно ошиблась, и учитывает эту ошибку в дальнейшем. Для обучения разработчики взяли крупные датасеты с элементами ДНК: ENCODE, GTEx, 4D Nucleome и FANTOM5.
Где полезна AlphaGenome
Модель может значительно ускорить изучение генома. В том числе — помочь определить роль отдельных генов в работе организма и выявить причины генетических болезней.
Подробнее об AlphaGenome читайте в статье по этой ссылке. Модель доступна через API.
❤️ — если удивлены прогрессом нейросетей в науке
В конце июня DeepMind представила AlphaGenome — AI-инструмент, который предсказывает, как изменения в ДНК влияют на процессы в организме человека.
Что умеет AlphaGenome
AlphaGenome принимает на вход длинную последовательность «букв», из которых состоит ДНК — до 1 миллиона. А затем прогнозирует свойства молекулы. Модель также оценивает эффекты мутаций и вариаций генов. Для этого она сравнивает прогнозы для стандартных и изменённых последовательностей.
Как устроена модель
Например:
Обучение
Во время обучения модель сравнивает свои прогнозы с экспериментальными данными из научных исследований, считает, насколько сильно ошиблась, и учитывает эту ошибку в дальнейшем. Для обучения разработчики взяли крупные датасеты с элементами ДНК: ENCODE, GTEx, 4D Nucleome и FANTOM5.
Где полезна AlphaGenome
Модель может значительно ускорить изучение генома. В том числе — помочь определить роль отдельных генов в работе организма и выявить причины генетических болезней.
Подробнее об AlphaGenome читайте в статье по этой ссылке. Модель доступна через API.
❤️ — если удивлены прогрессом нейросетей в науке
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7🤔3
Shazam в мире инструментальной музыки 🎶
Стартап Songscription представил нейросеть, которая расшифровывает аудиозаписи в партитуры. Для тех, кто не умеет читать ноты, предусмотрен перевод в piano roll — формат, который показывает нужные клавиши на виртуальном пианино.
Как это работает
В основе системы — подход PM2S (Performance MIDI-to-Score Conversion), разработанный для восстановления нотной структуры на основе MIDI-записи живого исполнения.
Архитектура модели подробно описана в научной статье одного из соавторов проекта🔥
Пока нейросеть лучше всего работает с фортепиано, но поддерживает и другие инструменты. В будущем команда планирует добавить гитарные табулатуры, оркестровые аранжировки и другие форматы для расшифровок.
Как считаете, способны ли модели уловить нюансы живого исполнения?
👍 — Да, при качественном обучении это возможно
🤔 — Нет, без корректировки от человека не обойтись
Стартап Songscription представил нейросеть, которая расшифровывает аудиозаписи в партитуры. Для тех, кто не умеет читать ноты, предусмотрен перевод в piano roll — формат, который показывает нужные клавиши на виртуальном пианино.
Как это работает
🔘 Модель получает P-MIDI-файл с аудиозаписью🔘 Затем преобразовывает его в токены для подачи в трансформер🔘 Трансформер, обученный на сотнях пар «исполнение → партитура», переводит их в ноты в формате MusicXML
В основе системы — подход PM2S (Performance MIDI-to-Score Conversion), разработанный для восстановления нотной структуры на основе MIDI-записи живого исполнения.
Архитектура модели подробно описана в научной статье одного из соавторов проекта
Пока нейросеть лучше всего работает с фортепиано, но поддерживает и другие инструменты. В будущем команда планирует добавить гитарные табулатуры, оркестровые аранжировки и другие форматы для расшифровок.
Как считаете, способны ли модели уловить нюансы живого исполнения?
👍 — Да, при качественном обучении это возможно
🤔 — Нет, без корректировки от человека не обойтись
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤11🔥3🤔3
Мы бы хотели больше узнать о вас. Расскажите, чем вы занимаетесь?
Anonymous Poll
16%
занимаюсь AI как ученый/исследователь
9%
учусь на направлении, связанном с AI (ML/DL)
21%
работаю в сфере, связанной с AI (ML/DL)
9%
учусь по IT-специальности
30%
работаю в IT
9%
учусь/работаю в креативной сфере
12%
работаю в бизнесе или GR
25%
другое
👍7❤4👏4🤔1
Продолжаем подборку датасетов от отечественных разработчиков. Сегодня делимся шестью наборами, посвящёнными литературе, компьютерному зрению и аудиоданным.
Russian poems
✉️ 19 000 русскоязычных стихотворений от 48 авторов. Подходит для обучения языковых моделей, а также задач по стилометрии, авторской атрибуции и литературных экспериментов.
Russian Classic Painting Dataset
🌷 Коллекция из свыше 1 600 картин, собранных в фондах Третьяковской галереи, Русского музея и других архивов. Каждое произведение дополнено описанием на русском и английском языках. Можно применять для обучения text-to-image моделей.
Handwritten Russian Letters
📸 Набор данных, созданный автором вручную на основе собственных фотографий. Содержит строчные и прописные буквы. Фон варьируется: линейка, клетка, чистый лист. Пригодится для обучения моделей распознавания рукописного текста и задач OCR.
SOVA
📆 Около 28 000 часов живой русскоязычной речи с ручной разметкой. Это ценный материал для задач автоматического распознавания речи (ASR) и акустического анализа. Датасет распространяется по лицензии CC BY 4.0. Данные можно использовать для коммерческих целей.
Russian Jokes
🎉 Более 120 000 отборных анекдотов на русском языке. Настоящий кладезь для задач по классификации, тематического анализа и исследования культурных особенностей. Может использоваться при обучении моделей для генерации креативного контента.
🔥 — если хотите больше тематических подборок AI-датасетов
Russian poems
Russian Classic Painting Dataset
Handwritten Russian Letters
SOVA
Russian Jokes
🔥 — если хотите больше тематических подборок AI-датасетов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍9❤5