Ранее мы собрали в одном посте все типы языковых моделей. Сегодня остановимся на рассуждающих моделях и расскажем, как их учат думать.
✍️ Как устроено «мышление»
Стандартные языковые модели пытаются предсказать, какое слово с наибольшей вероятностью должно быть дальше в тексте — почти как система Т9 в мобильном телефоне.
Рассуждающая модель не играет в «угадайку». Она разбивает задачу на этапы и логически переходит от одного шага к другому, генерируя цепочку «мыслей» перед финальным ответом. Модель может ветвить пути рассуждений и выбирать наиболее правдоподобный. А чтобы она пользовалась актуальными и точными данными, разработчики закладывают в неё возможность доступа к внешним источникам информации: базам данных, справочникам, калькуляторам, календарям, веб-поисковикам. К рассуждающим моделям относятся GigaChat 2.0, GPT-4.5, Gemini 2.5, Claude 3.7 Sonnet.
5️⃣ Обучение
Рассуждающие модели обучают на задачах, где размечена логика рассуждения — например, на школьной арифметике.
Плюсы
🔘 Отвечают на сложные запросы
🔘 Дают возможность проследить ход рассуждений модели
Минусы
🔘 Пошаговое рассуждение создаёт больше текста, а значит, требует больше вычислительных ресурсов. Поэтому ответ генерируется медленнее
🔘 С виду логичная цепочка может вести к ошибочному выводу
❤️ — если любите смотреть, как рассуждает модель в ответ на запрос
Стандартные языковые модели пытаются предсказать, какое слово с наибольшей вероятностью должно быть дальше в тексте — почти как система Т9 в мобильном телефоне.
Рассуждающая модель не играет в «угадайку». Она разбивает задачу на этапы и логически переходит от одного шага к другому, генерируя цепочку «мыслей» перед финальным ответом. Модель может ветвить пути рассуждений и выбирать наиболее правдоподобный. А чтобы она пользовалась актуальными и точными данными, разработчики закладывают в неё возможность доступа к внешним источникам информации: базам данных, справочникам, калькуляторам, календарям, веб-поисковикам. К рассуждающим моделям относятся GigaChat 2.0, GPT-4.5, Gemini 2.5, Claude 3.7 Sonnet.
Рассуждающие модели обучают на задачах, где размечена логика рассуждения — например, на школьной арифметике.
В обучающие примеры добавляют шаблоны-подсказки, которые направляют мышление: «Давай подумаем шаг за шагом», «Во-первых…, во-вторых…, наконец…». Кстати, такие подсказки могут использовать пользователи в своих промптах, чтобы ответы были точнее.Модель следует принципу самосогласованности (self-consistency). Ей показывают примеры рассуждений и повторяют один и тот же запрос, чтобы модель сгенерировала несколько ответов. Затем она выбирает самый частый или обоснованный вариант, а человек или модель-ассистент оценивают качество ответа.
Плюсы
Минусы
❤️ — если любите смотреть, как рассуждает модель в ответ на запрос
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍3🔥2
25 июня прошла конференция GigaConf, где ведущие AI-эксперты обсудили настоящее и будущее индустрии. В каком направлении развиваются генеративные модели и как они превращаются из исполнителей в агентов? Собрали для вас главные доклады 👇
💡 Deep Reasoning: как научить LLM думать и действовать
Эксперты Сбера рассказали, как GigaChat 2.0 научился рассуждать и решать сложные задачи. Вместе со слушателями они обсудили, как модель подключает внешние источники информации, чтобы давать точные и полные ответы.
💡 От генеративного AI к интерактивному
В этом докладе речь шла о переходе индустрии от моделей-исполнителей узких задач к агентам, способным рассуждать и применять знания в различных областях. Эксперт рассказал, как можно предсказывать поведение модели, и дал прогноз будущего AI-индустрии. Особое внимание он уделил оптимальному использованию вычислительных ресурсов, благодаря которому можно сделать ответы точнее.
💡 Автономная кибербезопасность
В докладе рассмотрен сценарий, где AI защищает инфраструктуру почти без участия человека. А также поднимается вопрос о том, где роль человека по-прежнему критична, а где уже можно передать управление алгоритмам.
💡 Генерация изображений и видео: Kandinsky 4.1
Доклад посвящён тому, как генеративная модель Kandinsky 4.1 c помощью диффузии создаёт изображения и видео по промптам на естественном языке. Слушатели смогли погрузиться в особенности архитектуры и принципы обучения модели. Особое внимание было уделено проблемам при сборе данных и оценке результатов.
💡 Как собирать данные для обучения LLM
Спикер раскрыл детали масштабного сбора данных: от типов датасетов и партнёрств между IT-компаниями до юридических тонкостей. Он также затронул метрики качества и роль data-инженеров в связке с ML-командами.
💡 Многоагентные системы в облаке Yandex Cloud
Представители Яндекс рассказали, почему 2025 — год агентов, и поделились опытом масштабирования архитектуры и создания AI-агентов с разной степенью гибкости.
Смотрите запись трансляций здесь➡️
Эксперты Сбера рассказали, как GigaChat 2.0 научился рассуждать и решать сложные задачи. Вместе со слушателями они обсудили, как модель подключает внешние источники информации, чтобы давать точные и полные ответы.
В этом докладе речь шла о переходе индустрии от моделей-исполнителей узких задач к агентам, способным рассуждать и применять знания в различных областях. Эксперт рассказал, как можно предсказывать поведение модели, и дал прогноз будущего AI-индустрии. Особое внимание он уделил оптимальному использованию вычислительных ресурсов, благодаря которому можно сделать ответы точнее.
В докладе рассмотрен сценарий, где AI защищает инфраструктуру почти без участия человека. А также поднимается вопрос о том, где роль человека по-прежнему критична, а где уже можно передать управление алгоритмам.
Доклад посвящён тому, как генеративная модель Kandinsky 4.1 c помощью диффузии создаёт изображения и видео по промптам на естественном языке. Слушатели смогли погрузиться в особенности архитектуры и принципы обучения модели. Особое внимание было уделено проблемам при сборе данных и оценке результатов.
Спикер раскрыл детали масштабного сбора данных: от типов датасетов и партнёрств между IT-компаниями до юридических тонкостей. Он также затронул метрики качества и роль data-инженеров в связке с ML-командами.
Представители Яндекс рассказали, почему 2025 — год агентов, и поделились опытом масштабирования архитектуры и создания AI-агентов с разной степенью гибкости.
Смотрите запись трансляций здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤7🔥4
Хотели бы узнать, о чём думает ваш питомец? 🐾
Представьте, что вместо привычного «мяу, мяу» вы слышите: «Хозяин, корми!». Китайская компания Baidu подала патент на приложение, которое позволит «говорить» с домашними питомцами.
Как работает система?
Если в приложение поступают данные, которые не совпадают ни с одной из известных ей эмоций, специалисты вручную маркируют такие случаи, дополняют обучающую выборку и вносят изменения в модель.
💡 В Baidu считают, что их разработка — это шаг к новому уровню общения с животными. Сегодняшние технологии, по их мнению, слишком ограничены. Одни считывают только голос, другие — движения. Но нет таких, которые были бы способны уловить всю палитру эмоций животных.
📆 Проект пока находится на стадии исследования, а одобрение патента может занять годы. Вы бы хотели поговорить с котом через нейросеть?
❤️ — Да, всегда было интересно, почему он орёт по утрам
💔 — Нет, я и так научился его понимать
Представьте, что вместо привычного «мяу, мяу» вы слышите: «Хозяин, корми!». Китайская компания Baidu подала патент на приложение, которое позволит «говорить» с домашними питомцами.
Как работает система?
🔘 Она собирает данные: звуки, движения, частоту сердцебиения и пульс животного🔘 Эти данные проходят предварительную обработку, а после объединяются в один датасет🔘 Затем AI-модуль анализирует их, чтобы определить текущее эмоциональное состояние питомца🔘 На финальном этапе система формулирует описание, которое будет понятно человеку
Если в приложение поступают данные, которые не совпадают ни с одной из известных ей эмоций, специалисты вручную маркируют такие случаи, дополняют обучающую выборку и вносят изменения в модель.
❤️ — Да, всегда было интересно, почему он орёт по утрам
💔 — Нет, я и так научился его понимать
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🤔6💔2
Мы уже писали о новом AI-редакторе Malvina в GigaChat. Он может восстановить старое фото и убрать людей с фона без полной перегенерации изображения. В основе редактора — диффузионный трансформер.
Григорий Алексеенко поделился особенностями подхода:
❤️ — если ждёте продолжение рассказа о работе трансформера в Malvina
Григорий Алексеенко поделился особенностями подхода:
🔘 в чём преимущество диффузии перед авторегрессией, которая используется в аналогичных моделях🔘 как Malvina сохраняет исходные параметры изображения (например, разрешение), и почему это не получается у GPT-4o Inpaint
❤️ — если ждёте продолжение рассказа о работе трансформера в Malvina
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍5🔥3🤔3
Исследования ДНК, новая модель для генерации видео и AI-инструменты для разработчиков — в нашем дайджесте 🤖
Модели
🖥 DeepMind представила модель AlphaGenome, которая распознаёт изменения в геноме человека и предсказывает их последствия. Модель принимает на вход длинную последовательность оснований ДНК — до 1 миллиона «букв», из которых состоит молекула. А затем прогнозирует свойства генов. Новая модель поможет исследовать генетические заболевания.
🖥 Midjourney выпустила свою первую модель для генерации видео — V1. Она создаёт четыре пятисекундных видео из одного изображения. V1 работает в двух режимах: автоматический и ручной. Во втором случае пользователь описывает текстовым промптом происходящее в кадре. Инструмент работает через Discord и доступен в веб-версии по базовой подписке.
🖥 Китайская компания MiniMax представила AI-модель M1 с открытым исходным кодом. По словам создателей, её обучение обошлось в 200 раз дешевле GPT-4о, а по производительности и качеству алгоритм не уступает топовым конкурентам. Подробности читайте в нашем посте.
Инструменты разработки
🖥 Anthropic добавила новую функцию в Claude AI, которая позволяет создавать программы на базе искусственного интеллекта. Результаты можно увидеть сразу в чат-боте. Обновление основано на функции Anthropic Artifacts, представленной в прошлом году.
🖥 Google выпустила Gemini CLI — AI-инструмент для командной строки с открытым исходным кодом. Он подключает модель Gemini AI к локальным кодовым базам и позволяет разработчикам делать запросы на естественном языке. Можно попросить Gemini CLI написать новые функции, запустить команду или отладить код.
🖥 Сбер представил GigaStudio — инструмент для создания веб-приложений по текстовым запросам. Он позволит разработчикам быстрее запускать MVP, а cпециалистам без опыта в программировании — создавать приложения самостоятельно. Подробнее — в нашем посте.
❤️ — если готовы доверить AI разработку приложений
Модели
Инструменты разработки
❤️ — если готовы доверить AI разработку приложений
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥6💯3👍1
Как измерить творческий потенциал AI 🚀
Специалисты Сбера представили POLLUX — первый бенчмарк для оценки творческих способностей LLMs на русском. Это первый тест, направленный не на решение экзаменационных задач с фиксированным ответом, а на оценку открытой генерации текста.
Что проверяет POLLUX?
🔘 Умение адаптироваться к разным творческим задачам
🔘 Работу со стилями и жанрами
🔘 Способность давать нестандартные ответы
Авторы также предложили типологию и критерии для интерпретируемой оценки. Теперь «креативность» AI можно измерить!
Внутри:
💡 Тесты показали, что даже самые продвинутые LLM вроде ChatGPT допускают ошибки, когда нужно общаться от лица персонажа или писать на нестандартную тему. Они не попадают в тон, звучат сухо или неубедительно. POLLUX это отслеживает и показывает, где модель теряет стиль. Сравнение 7 ведущих языковых моделей и демо-версию POLLUX можно посмотреть платформе LLM Arena.
➡️ Подробности читайте на Хабре, а сам бенчмарк доступен на GitHub.
Будете использовать POLLUX в своих проектах?
👍 — Да, однозначно
🤔 — А креативность шуток он оценивает?
Специалисты Сбера представили POLLUX — первый бенчмарк для оценки творческих способностей LLMs на русском. Это первый тест, направленный не на решение экзаменационных задач с фиксированным ответом, а на оценку открытой генерации текста.
Что проверяет POLLUX?
Авторы также предложили типологию и критерии для интерпретируемой оценки. Теперь «креативность» AI можно измерить!
Внутри:
🔘 2 100 уникальных задач 152 типов: от художественного письма до код-ревью🔘 11 500 ответов от 7 моделей (GPT-4o, Claude 3.5, GigaChat MAX и др.), по которым обучали систему🔘 471 000 экспертных оценок по 66 критериям: смысл, стиль, структура, ошибки, терминология🔘 4 модели LLM-as-a-Judge (модели-судьи, анализирующие ответы других моделей), обученные объяснять свои оценки
Будете использовать POLLUX в своих проектах?
👍 — Да, однозначно
🤔 — А креативность шуток он оценивает?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔8👍6❤5
Продолжаем рассказ об AI-редакторе Malvina
Обо всём этом — во второй части интервью с Григорием Алексеенко
❤️ — если понравился такой формат
🔘 Какая архитектура у модели?🔘 Сколько экспертов работают в MoE Transformer Adapter?🔘 И за счёт чего Malvina восстанавливает старые изображения?
Обо всём этом — во второй части интервью с Григорием Алексеенко
❤️ — если понравился такой формат
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👏3👍2
Легче, быстрее, дешевле ⚡️
Учёные из Университета Бар-Илан разработали метод «обрезки» (pruning) нейросетей без потери качества. Новый подход AFCC (Applied Filter’s Cluster Connections) анализирует отдельные параметры модели и выявляет те, что действительно важны для обучения. Остальные элементы, не влияющие на результат, удаляет. Это позволяет сократить число параметров на отдельных слоях до 90% без ухудшения производительности.
Тесты показали, что «облегчённые» модели:
⚠️ Пока метод тестировался только на архитектурах VGG-11 и EfficientNet-B0, обученных на датасете CIFAR-100. Для других решений его эффективность ещё предстоит изучить.
Стоит отметить, что для внедрения таких моделей требуется глубокий анализ в каждом конкретном случае. Поэтому не ясно, удобно ли будет применять подход для массового внедрения. Однако потенциал у подобных методов большой — в будущем они смогут революционизировать индустрию AI и, возможно, позволят запускать топовые модели даже на смартфонах.
Как думаете, станет ли «обрезка» стандартной практикой при запуске моделей в продакшн?
🔥 — Да, это повысит спрос на такие модели
🤔 — Нет, все параметры могут пригодиться
Учёные из Университета Бар-Илан разработали метод «обрезки» (pruning) нейросетей без потери качества. Новый подход AFCC (Applied Filter’s Cluster Connections) анализирует отдельные параметры модели и выявляет те, что действительно важны для обучения. Остальные элементы, не влияющие на результат, удаляет. Это позволяет сократить число параметров на отдельных слоях до 90% без ухудшения производительности.
Тесты показали, что «облегчённые» модели:
🔘 быстрее обучаются и работают🔘 экономят электроэнергию🔘 требуют меньшего объёма памяти и вычислительной мощности, чем исходные
Стоит отметить, что для внедрения таких моделей требуется глубокий анализ в каждом конкретном случае. Поэтому не ясно, удобно ли будет применять подход для массового внедрения. Однако потенциал у подобных методов большой — в будущем они смогут революционизировать индустрию AI и, возможно, позволят запускать топовые модели даже на смартфонах.
Как думаете, станет ли «обрезка» стандартной практикой при запуске моделей в продакшн?
🔥 — Да, это повысит спрос на такие модели
🤔 — Нет, все параметры могут пригодиться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16🤔8❤2
На страже вашего кода 🛡
Наши учёные разработали новую модель для поиска слабых мест в коде. Их статью приняли к публикации в международном журнале IEEE Access.
В основе подхода — нейросеть WizardCoder для анализа Java-кода. Её дообучили на датасете с подтверждёнными уязвимостями для поиска ошибок, которые могут привести к утечке данных или взлому. За счёт использования батча переменного размера время на fine-tuning удалось сократить в 13 раз.
Результаты тестов:
Метод обошёл по эффективности альтернативные AI-решения для поиска уязвимостей вроде ContraBERT на основе CodeBERT. Разработка поможет учёным ускорить обучение больших моделей и улучшить методы анализа кода. В будущем благодаря таким методам компании смогут быстрее, точнее и дешевле находить потенциальные угрозы в ПО.
🔥 — если согласны, что такие AI-анализаторы кода упростят жизнь разработчикам
Наши учёные разработали новую модель для поиска слабых мест в коде. Их статью приняли к публикации в международном журнале IEEE Access.
В основе подхода — нейросеть WizardCoder для анализа Java-кода. Её дообучили на датасете с подтверждёнными уязвимостями для поиска ошибок, которые могут привести к утечке данных или взлому. За счёт использования батча переменного размера время на fine-tuning удалось сократить в 13 раз.
Результаты тестов:
🔘 + 4–5% к точности в простых примерах кода с уязвимостями🔘 + 22% для сложных примеров уязвимостей
Метод обошёл по эффективности альтернативные AI-решения для поиска уязвимостей вроде ContraBERT на основе CodeBERT. Разработка поможет учёным ускорить обучение больших моделей и улучшить методы анализа кода. В будущем благодаря таким методам компании смогут быстрее, точнее и дешевле находить потенциальные угрозы в ПО.
🔥 — если согласны, что такие AI-анализаторы кода упростят жизнь разработчикам
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤4👏3
Второе место в RecSys Challenge у команды Сбера 🏆
Исследователи Sber AI Lab заняли второе место в соревновании RecSys Challenge на международной конференции RecSys 2025! Это одно из крупнейших событий по ML в рекомендательных системах. А в зачете академических команд исследователи взяли первое место.
В команде от Сбера ai_lab_recsys выступили Антон Кленицкий, Артём Фаткулин, Антон Пембек, Дарья Денисова и Алексей Васильев. Всего в соревновании участвовали более 100 команд из разных стран.
По условиям конкурса участникам требовалось:
Это очень похоже на кейсы банка, поэтому наработки, полученные на соревновании, команда проверит на реальных данных и применит для решения задач Сбера.
➡️ По результатам работы уже готовится научная статья для специального воркшопа в рамках конференции RecSys’25 в Праге.
🎉 Поздравляем команду и желаем новых успехов!
Исследователи Sber AI Lab заняли второе место в соревновании RecSys Challenge на международной конференции RecSys 2025! Это одно из крупнейших событий по ML в рекомендательных системах. А в зачете академических команд исследователи взяли первое место.
В команде от Сбера ai_lab_recsys выступили Антон Кленицкий, Артём Фаткулин, Антон Пембек, Дарья Денисова и Алексей Васильев. Всего в соревновании участвовали более 100 команд из разных стран.
По условиям конкурса участникам требовалось:
1️⃣ сгенерировать эмбеддинги на основе действий пользователей рекомендательных систем2️⃣ затем передать их в проверяющую систему, которая самостоятельно обучала нейросеть для решения нескольких задач
Это очень похоже на кейсы банка, поэтому наработки, полученные на соревновании, команда проверит на реальных данных и применит для решения задач Сбера.
Для достижения цели учёные объединили несколько типов представлений: ALS, пользовательские фичи, автоэнкодеры и GRU. Такое сочетание обеспечило высокую обобщаемость и стабильные результаты на всех задачах, включая скрытые
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7👍2🔥1
Задачи «по зубам»: GigaChat сдал экзамен на стоматолога 5️⃣
GigaChat прошёл аккредитацию по специальности «Стоматология» в Воронежском государственном медицинском университете.
Модель дообучили на специальном датасете для направления «Врач-стоматолог». Теперь GigaChat способен давать понятные и достоверные ответы о гигиене и лечении зубов. В перспективе AI-ассистента смогут использовать врачи.
Это не первая аккредитация GigaChat по медицине. У него получилось:
🔘 сдать выпускной экзамен по специальности «Лечебное дело» в НМИЦ им. Алмазова
🔘 на базе аккредитационного центра Сеченовского Университета успешно решить ситуационные задачи, соответствующие теоретическим этапам первичной аккредитации по специальности «Лечебное дело»
🔘 сдать экзамен по кардиологии в ВолгГМУ и по гастроэнтерологии в УГМУ
🔘 сдать экзамены по педиатрии, неврологии в ПИМУ и по ревматологии в СамГМУ
❤️ — если ждёте новостей о новых успехах нейросетей
GigaChat прошёл аккредитацию по специальности «Стоматология» в Воронежском государственном медицинском университете.
Модель дообучили на специальном датасете для направления «Врач-стоматолог». Теперь GigaChat способен давать понятные и достоверные ответы о гигиене и лечении зубов. В перспективе AI-ассистента смогут использовать врачи.
Это не первая аккредитация GigaChat по медицине. У него получилось:
❤️ — если ждёте новостей о новых успехах нейросетей
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥3👍2
AlphaGenome — новый AI-инструмент для исследования ДНК 🔥
В конце июня DeepMind представила AlphaGenome — AI-инструмент, который предсказывает, как изменения в ДНК влияют на процессы в организме человека.
Что умеет AlphaGenome
AlphaGenome принимает на вход длинную последовательность «букв», из которых состоит ДНК — до 1 миллиона. А затем прогнозирует свойства молекулы. Модель также оценивает эффекты мутаций и вариаций генов. Для этого она сравнивает прогнозы для стандартных и изменённых последовательностей.
Как устроена модель
🔘 Свёрточные слои ищут «мотивы» — короткие повторяющиеся паттерны в последовательности «букв». Так выделяются участки, важные для активности гена.
🔘 Трансформеры анализируют связи между участками ДНК. Например, между геном и участками-энхансерами, которые регулируют его работу и находятся в тысячах «букв» от него.
🔘 Финальные слои (prediction heads) по найденным паттернам и связям предсказывают свойства молекулы.
Например:
🔘 начало и конец гена в последовательности
🔘 места присоединения белков, регулирующих работу генов
Обучение
Во время обучения модель сравнивает свои прогнозы с экспериментальными данными из научных исследований, считает, насколько сильно ошиблась, и учитывает эту ошибку в дальнейшем. Для обучения разработчики взяли крупные датасеты с элементами ДНК: ENCODE, GTEx, 4D Nucleome и FANTOM5.
Где полезна AlphaGenome
Модель может значительно ускорить изучение генома. В том числе — помочь определить роль отдельных генов в работе организма и выявить причины генетических болезней.
Подробнее об AlphaGenome читайте в статье по этой ссылке. Модель доступна через API.
❤️ — если удивлены прогрессом нейросетей в науке
В конце июня DeepMind представила AlphaGenome — AI-инструмент, который предсказывает, как изменения в ДНК влияют на процессы в организме человека.
Что умеет AlphaGenome
AlphaGenome принимает на вход длинную последовательность «букв», из которых состоит ДНК — до 1 миллиона. А затем прогнозирует свойства молекулы. Модель также оценивает эффекты мутаций и вариаций генов. Для этого она сравнивает прогнозы для стандартных и изменённых последовательностей.
Как устроена модель
Например:
Обучение
Во время обучения модель сравнивает свои прогнозы с экспериментальными данными из научных исследований, считает, насколько сильно ошиблась, и учитывает эту ошибку в дальнейшем. Для обучения разработчики взяли крупные датасеты с элементами ДНК: ENCODE, GTEx, 4D Nucleome и FANTOM5.
Где полезна AlphaGenome
Модель может значительно ускорить изучение генома. В том числе — помочь определить роль отдельных генов в работе организма и выявить причины генетических болезней.
Подробнее об AlphaGenome читайте в статье по этой ссылке. Модель доступна через API.
❤️ — если удивлены прогрессом нейросетей в науке
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7🤔3
Shazam в мире инструментальной музыки 🎶
Стартап Songscription представил нейросеть, которая расшифровывает аудиозаписи в партитуры. Для тех, кто не умеет читать ноты, предусмотрен перевод в piano roll — формат, который показывает нужные клавиши на виртуальном пианино.
Как это работает
В основе системы — подход PM2S (Performance MIDI-to-Score Conversion), разработанный для восстановления нотной структуры на основе MIDI-записи живого исполнения.
Архитектура модели подробно описана в научной статье одного из соавторов проекта🔥
Пока нейросеть лучше всего работает с фортепиано, но поддерживает и другие инструменты. В будущем команда планирует добавить гитарные табулатуры, оркестровые аранжировки и другие форматы для расшифровок.
Как считаете, способны ли модели уловить нюансы живого исполнения?
👍 — Да, при качественном обучении это возможно
🤔 — Нет, без корректировки от человека не обойтись
Стартап Songscription представил нейросеть, которая расшифровывает аудиозаписи в партитуры. Для тех, кто не умеет читать ноты, предусмотрен перевод в piano roll — формат, который показывает нужные клавиши на виртуальном пианино.
Как это работает
🔘 Модель получает P-MIDI-файл с аудиозаписью🔘 Затем преобразовывает его в токены для подачи в трансформер🔘 Трансформер, обученный на сотнях пар «исполнение → партитура», переводит их в ноты в формате MusicXML
В основе системы — подход PM2S (Performance MIDI-to-Score Conversion), разработанный для восстановления нотной структуры на основе MIDI-записи живого исполнения.
Архитектура модели подробно описана в научной статье одного из соавторов проекта
Пока нейросеть лучше всего работает с фортепиано, но поддерживает и другие инструменты. В будущем команда планирует добавить гитарные табулатуры, оркестровые аранжировки и другие форматы для расшифровок.
Как считаете, способны ли модели уловить нюансы живого исполнения?
👍 — Да, при качественном обучении это возможно
🤔 — Нет, без корректировки от человека не обойтись
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤11🔥3🤔3
Мы бы хотели больше узнать о вас. Расскажите, чем вы занимаетесь?
Anonymous Poll
16%
занимаюсь AI как ученый/исследователь
9%
учусь на направлении, связанном с AI (ML/DL)
21%
работаю в сфере, связанной с AI (ML/DL)
9%
учусь по IT-специальности
30%
работаю в IT
9%
учусь/работаю в креативной сфере
12%
работаю в бизнесе или GR
25%
другое
👍7❤4👏4🤔1
Продолжаем подборку датасетов от отечественных разработчиков. Сегодня делимся шестью наборами, посвящёнными литературе, компьютерному зрению и аудиоданным.
Russian poems
✉️ 19 000 русскоязычных стихотворений от 48 авторов. Подходит для обучения языковых моделей, а также задач по стилометрии, авторской атрибуции и литературных экспериментов.
Russian Classic Painting Dataset
🌷 Коллекция из свыше 1 600 картин, собранных в фондах Третьяковской галереи, Русского музея и других архивов. Каждое произведение дополнено описанием на русском и английском языках. Можно применять для обучения text-to-image моделей.
Handwritten Russian Letters
📸 Набор данных, созданный автором вручную на основе собственных фотографий. Содержит строчные и прописные буквы. Фон варьируется: линейка, клетка, чистый лист. Пригодится для обучения моделей распознавания рукописного текста и задач OCR.
SOVA
📆 Около 28 000 часов живой русскоязычной речи с ручной разметкой. Это ценный материал для задач автоматического распознавания речи (ASR) и акустического анализа. Датасет распространяется по лицензии CC BY 4.0. Данные можно использовать для коммерческих целей.
Russian Jokes
🎉 Более 120 000 отборных анекдотов на русском языке. Настоящий кладезь для задач по классификации, тематического анализа и исследования культурных особенностей. Может использоваться при обучении моделей для генерации креативного контента.
🔥 — если хотите больше тематических подборок AI-датасетов
Russian poems
Russian Classic Painting Dataset
Handwritten Russian Letters
SOVA
Russian Jokes
🔥 — если хотите больше тематических подборок AI-датасетов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍9❤5
Новость для всех, кому нет 25: организаторы международного конкурса AI Challenge 2025 опубликовали задания ⚡️
Если вы школьник или студент, у вас есть возможность отточить свои скиллы на реальных кейсах от топовых техногигантов и научных центров😸 Вы сможете создать помощников для проверки сочинений, системы компьютерного зрения, алгоритмы для поиска предрасположенности к заболеваниям или для борьбы с дипфейками.
В конкурсе — три трека:
Если вам не хватает мотивации, держите материальную — призовой фонд составляет 15,6 млн рублей💵
Победителей наградят в Москве на конференции AI Journey осенью. Они попадут на образовательную программу для подготовки к Международной олимпиаде по искусственному интеллекту (IOAI) в 2026 году.
Если вам ещё нет 25 — регистрируйтесь на сайте конкурса до 22 сентября. Приступать к задачам можно уже сегодня.
Ставьте ❤️, если хотели бы обучать нейросети в 8 классе, но вы выпускник-2010
Если вы школьник или студент, у вас есть возможность отточить свои скиллы на реальных кейсах от топовых техногигантов и научных центров
В конкурсе — три трека:
🔘 «Начинающие» — учащиеся до 8 класса с базовыми знаниями Python и ML🔘 «Школьники» — учащиеся до 11 класса, уверенно владеющие Python, со знанием классических алгоритмов ML и основ нейросетей🔘 «Студенты» — до 25 лет, программирующие на продвинутом уровне, с глубоким пониманием ML и опытом работы с архитектурами Deep Learning. Им предстоит решать задачи на стыке биоинформатики, компьютерного зрения, мультимодальности и диалоговых систем
Если вам не хватает мотивации, держите материальную — призовой фонд составляет 15,6 млн рублей
Победителей наградят в Москве на конференции AI Journey осенью. Они попадут на образовательную программу для подготовки к Международной олимпиаде по искусственному интеллекту (IOAI) в 2026 году.
Если вам ещё нет 25 — регистрируйтесь на сайте конкурса до 22 сентября. Приступать к задачам можно уже сегодня.
Ставьте ❤️, если хотели бы обучать нейросети в 8 классе, но вы выпускник-2010
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👏4🔥3❤1
Что такое AI-агенты и как они работают 🤖
AI-агенты — это автономные системы на базе LLM. Обычно они работают по следующей схеме:
Они умеют подключаться к внешним сервисам через API и использовать различные инструменты (CRM-системы, поисковики, календари, редакторы кода). Примеры таких решений — Operator от OpenAI и Manus от китайской компании ManusAI.
Из чего состоит AI-агент?
⚡️ Агенты могут работать локально — с офлайн-API, корпоративными базами данных и в защищённых средах. Некоторым системам для полноценного функционирования необходимо подключение к интернету. Доступ к сети позволяет проверять факты, получать актуальные данные и вызывать внешние API.
Существуют два основных вида моделей-агентов:
➡️ одноагентные системы — один автономный исполнитель задачи
➡️ мультиагентные — несколько агентов, взаимодействующих между собой и обменивающихся задачами
Многие компании уже используют агентные системы для автоматизации отчётности, банки выявляют с их помощью мошеннические звонки и проверяют транзакции, а интернет-магазины создают ленты с персонализированными рекомендациями.
Планируете пользоваться AI-агентами?
👍 — Да, они сильно экономят время
🤔 — Нет, пока их ещё сложно настроить
AI-агенты — это автономные системы на базе LLM. Обычно они работают по следующей схеме:
1️⃣ Goal setting — постановка цели2️⃣ Planning / task decomposition — планирование и декомпозиция3️⃣ Tool selection — выбор инструментов4️⃣ Execution — выполнение5️⃣ Feedback check — проверка результата6️⃣ Adaptation / replanning — корректировка плана7️⃣ Memory commit — сохранение опыта в памяти
Они умеют подключаться к внешним сервисам через API и использовать различные инструменты (CRM-системы, поисковики, календари, редакторы кода). Примеры таких решений — Operator от OpenAI и Manus от китайской компании ManusAI.
Из чего состоит AI-агент?
🔘 Интерфейсы и инструменты — протоколы и API для подключения к внешним системам (CRM, поисковики, аналитика и т. д.)🔘 Планировщик — LLM (например, GigaChat, ChatGPT, Claude) или специальный алгоритм для общего планирования действий🔘 Стек фреймворков — с их помощью агент формирует цепочки из небольших шагов для выполнения задач🔘 Модуль памяти — хранит промежуточные данные, контекст, задачи, выводы, опыт, взаимодействия и знания (knowledge graph)🔘 Менеджер задач — отвечает за постановку целей и декомпозицию задач🔘 Оркестратор — система, координирующая работу всех модулей
Существуют два основных вида моделей-агентов:
Многие компании уже используют агентные системы для автоматизации отчётности, банки выявляют с их помощью мошеннические звонки и проверяют транзакции, а интернет-магазины создают ленты с персонализированными рекомендациями.
Планируете пользоваться AI-агентами?
👍 — Да, они сильно экономят время
🤔 — Нет, пока их ещё сложно настроить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🤔12❤1🔥1
Нейроугадайка 🧭
Сверху упрощённая схема одной из самых популярных нейросетевых архитектур. Сможете её угадать? Чтобы усложнить задачу, мы скрыли названия двух блоков.
Голосуйте за правильный ответ в опросе👇
Сверху упрощённая схема одной из самых популярных нейросетевых архитектур. Сможете её угадать? Чтобы усложнить задачу, мы скрыли названия двух блоков.
Голосуйте за правильный ответ в опросе
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2❤1