AlphaEvolve ускоряет обучение AI и решает математические проблемы 5️⃣
В мае DeepMind представила AlphaEvolve — AI-агента на базе больших языковых моделей Gemini Flash и Gemini Pro. Он пишет и совершенствует алгоритмы для создания программ, решения сложных математических задач и оптимизации работы оборудования Google. Его решения экономят вычислительные ресурсы и ускоряют обучение AI-моделей.
Как работает AlphaEvolve
AlphaEvolve может написать сотни строк кода на любом языке и «запараллелить» процесс оценивания, что сокращает время на поиск решений. Для этого он распределяет вычисления по кластерам. Возможности FunSearch, предыдущей «эволюционной» разработки DeepMind, на порядок ниже.
Что уже сделал AlphaEvolve
🔘 Сократил время обучения Gemini на 1%: разделил сложную операцию умножения матриц на подзадачи
🔘 Нашёл новую нижнюю границу числа «поцелуев» в 11 измерениях. Это геометрическая задача о том, сколько одинаковых сфер можно разместить вокруг такой же сферы так, чтобы они касались её, но не пересекались друг с другом
🔘 Усовершенствовал алгоритм умножения матриц Фолькера Штрассена, который считался лучшим
🔘 Оптимизировал работу Borg — системы, которая управляет вычислениями в центрах обработки данных Google. Это помогло компании сэкономить 0,7% вычислительных ресурсов
🔘 Предложил переписать Verilog — язык для моделирования электронных систем. В Google учли эту идею в разработке тензорных процессоров — вычислительных чипов для AI-моделей
💡 AlphaEvolve испытали на более чем 50 открытых проблемах математики. Для 20% задач агент уточнил существующие решения. А в 75% случаев — пришёл к самым точным решениям из известных человечеству
➡️ По этой ссылке можно прочитать статью, а на GitHub — ознакомиться с математическими результатами.
Как вам возможности AlphaEvolve?
❤️ — это прорыв
👍 — звучит интересно
🤔 — посмотрим, как AI справится с задачами тысячелетия
В мае DeepMind представила AlphaEvolve — AI-агента на базе больших языковых моделей Gemini Flash и Gemini Pro. Он пишет и совершенствует алгоритмы для создания программ, решения сложных математических задач и оптимизации работы оборудования Google. Его решения экономят вычислительные ресурсы и ускоряют обучение AI-моделей.
Как работает AlphaEvolve
🔘 Генерирует код с помощью LLM🔘 LLM управляет эволюционным процессом: предлагает «мутации» — модификации блоков кода🔘 Варианты кода проходят «естественный отбор» — их эффективность автоматически оценивается при выполнении задач разной сложности
AlphaEvolve может написать сотни строк кода на любом языке и «запараллелить» процесс оценивания, что сокращает время на поиск решений. Для этого он распределяет вычисления по кластерам. Возможности FunSearch, предыдущей «эволюционной» разработки DeepMind, на порядок ниже.
Что уже сделал AlphaEvolve
Как вам возможности AlphaEvolve?
❤️ — это прорыв
👍 — звучит интересно
🤔 — посмотрим, как AI справится с задачами тысячелетия
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4🔥3💔1
Нейросети стали умнее 🔄
Теперь в GigaChat вы можете генерировать высококачественные изображения с обновлённой моделью Kandinsky 4.1 Image, а затем редактировать их в пару кликов с помощью AI-редактора Malvina.
Новая версия Kandinsky работает на архитектуре DiT — больше деталей и выше скорость генерации. Модель обучена на датасете изображений, отобранных вручную.
Что в обновлении:
AI-редактор Malvina поможет доработать результат прямо внутри GigaChat: изменить фон, цвет или добавить новые объекты. Подробнее — в посте.
➡️ Попробуйте дуэт Kandinsky + Malvina
Теперь в GigaChat вы можете генерировать высококачественные изображения с обновлённой моделью Kandinsky 4.1 Image, а затем редактировать их в пару кликов с помощью AI-редактора Malvina.
Новая версия Kandinsky работает на архитектуре DiT — больше деталей и выше скорость генерации. Модель обучена на датасете изображений, отобранных вручную.
Что в обновлении:
🔘 реалистичнее передаёт лица и анатомию людей🔘 качественнее рисует животных, текстуры, сложные объекты🔘 работает в разных стилях — от Айвазовского до Миядзаки🔘 лучше понимает российский культурный код — гжель, матрёшки, богатыри🔘 точнее следует сложным запросам с описанием множества деталей
AI-редактор Malvina поможет доработать результат прямо внутри GigaChat: изменить фон, цвет или добавить новые объекты. Подробнее — в посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍8🔥4👏4
Отличите ли вы творения классиков Золотого и Серебряного веков от опусов нейросети? В День русского языка мы решили проверить, сможет ли AI написать стихи на великом и могучем наравне с реальными поэтами. Внимание на карточки!
Сколько раз вы попали в точку?
❤️ — 5-7
👍 — 3-5
🤔 — 1-2
Сколько раз вы попали в точку?
❤️ — 5-7
👍 — 3-5
🤔 — 1-2
❤19👍5🔥3🤔2
AI-агент GigaCode избавит разработчиков от рутины 🔝
На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.
Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.
🔘 Что умеет агент:
Инструмент бесплатный для всех пользователей GitVerse.
➡️ Попробуйте новые возможности GigaCode
На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.
Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.
🔘 автоматически анализирует изменения в коде🔘 ищет ошибки и уязвимости🔘 даёт советы по оптимизации🔘 объясняет правки в режиме диалога
Инструмент бесплатный для всех пользователей GitVerse.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи научили нейросети точно редактировать геометрию 3D-моделей 🤖
Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.
Как работает метод A3D?
💚 Допустим, пользователь хочет сгенерировать бегущих человека и робота с одинаковым положением конечностей. Скорее всего, нейросеть не сможет в точности повторить позу, поэтому сгенерированный робот будет бежать на четвереньках, а человек — на двух ногах. Чтобы добиться одинаковых поз, нужно обучить нейросеть правильно создавать переходные формы — так, чтобы один объект плавно превращался в другой.
Как обучают такие модели?
💚 В основе обучения лежит метод, который называется Score Distillation Sampling. Модель-ученик генерирует объект. А «учитель» оценивает, насколько результат соответствует текстовому промпту, и предлагает правки.
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:
Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.
Чем полезен A3D?
💚 Метод позволяет:
🔘 Редактировать загруженный пользователем готовый меш — виртуальный каркас объекта
🔘 Менять части объектов в парной генерации. Например, создать одинаково сидящих обезьян, одна из которых — в шапке
🔘 Комбинировать объекты — сделать гибрид бобра и кенгуру
Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылке — прочитать статью полностью.
Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.
Как работает метод A3D?
Каждой такой форме ставится вектор этого класса. Например, если робот — это 0, а человек — 1, то их гибриды — это промежуточные значения между 0 и 1. Они вычисляются с помощью интерполяции. Затем модель обучается генерировать не только крайние точки, но и саму траекторию перехода из одного объекта в другой. Это позволяет получить объекты с одинаковым расположением частей.
Как обучают такие модели?
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:
1. Создаём рендер объекта c помощью 3D-генератора
2. «Зашумляем» полученное изображение
3. 2D-диффузионная модель пытается угадать по промпту, какой шум мы добавили, и «расшумляет» картинку
4. Считаем диффузионный лосс: сравниваем шум, который мы изначально добавили, и шум, предсказанный 2D-моделью
Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.
Чем полезен A3D?
Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылке — прочитать статью полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏3❤2
Учёные создали «Периодическую AI-таблицу» 🤖
Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.
В чём суть
💡 Система облегчает подбор алгоритмов под конкретные задачи. Она также указывает на возможные архитектуры, подобно тому, как таблица Менделеева помогала предсказывать существование ещё не открытых элементов.
🔥 — и вам приснятся ещё не открытые алгоритмы.
Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.
В чём суть
🔘 В её основе — фреймворк I-Con, описывающий через единое уравнение, как разные алгоритмы выявляют взаимосвязи между данными🔘 Он объединяет более 20 методов: от PCA и t-SNE до современных подходов Contrastive Learning🔘 Таблица позволяет классифицировать и сопоставлять подходы к обучению
🔥 — и вам приснятся ещё не открытые алгоритмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AI, у которого русский — родной
Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.
🤖 GigaAM — это базовая модель. У неё есть версии, точно настроенные под конкретные задачи: GigaAM-CTC и GigaAM-RNNT распознают речь, а GigaAM-Emo определяет эмоции.
Как обучали GigaAM
В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.
💳 В предобучении GigaAM разработчики использовали новый подход HuBERT-CTC, про который подробно рассказали в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.
💳 Для дообучения GigaAM-CTC использовались корпуса аудиозаписей Golos, Sova, CommonVoice и LibriSpeech. Они состоят из аудиокниг и записей живой речи.
💳 GigaAM-Emo дообучали на наборе Dusha — фрагментах подкастов и записях речи актёров озвучки продолжительностью до 20 секунд. Каждой записи приписали одно из четырёх состояний: злость, грусть, нейтральную эмоцию или счастье.
Что умеют эти модели
GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.
➡️ Узнать подробности можно на GitHub.
➡️ Улучшенную версию GigaAM можно попробовать в Telegram-боте SaluteSpeech. А если вы развиваете свой бизнес-проект, рекомендуем ознакомиться с SaluteSpeech API.
Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.
Как обучали GigaAM
В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.
Что умеют эти модели
🔘 GigaAM-CTC на 50% точнее Whisper-Large-v3🔘 GigaAM-Emo правильно определяет эмоции в 90% случаев, если запись хорошего качества. С шумными записями точность ниже, но показатели всё равно лучше, чем у аналогичных моделей
GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥3👏3