Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.
Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.
Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.
Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.
@ai_machinelearning_big_data
#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍51🔥19❤12
Крупнейшая модель TxGemma (версия 27B predict) демонстрирует впечатляющие результаты.
Она не только превосходит или примерно равна предыдущей SOTA(Tx-LLM) почти по всем задачам, но и соперничает или обходит многие модели, специально разработанные для узких медицинских областей.
#google #Gemma #drugdiscovery
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥14❤5🌭4🥰3
А вот и Gemini 2.5 Pro Experimental — самая интеллектуальная модель Google
Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.
Модель опередила на бенчмарках Sonnet 3.5.
🌌 Мультимодальный контекст до 1 миллиона токенов — анализ текста, изображений, видео, аудио и PDF.
🛠️ Поддерживае: вызовы функций, структурированный вывод, поиск Google, запуск кода.
Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.
2.5 Pro уже появился у пользователей Advanced в GeminiApp.
Просто выберите его в выпадающем списке моделей на десктопных и мобильных приложениях. Скоро она также будет доступна на GoogleCloud.
💡 Содержит актуальные знания до января 2025 года.
🚀 Лимиты: 2 RPM, 50 запросов в день (бесплатно).
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
Модель доступна в GoogleAI Studio → https://ai.dev
@ai_machinelearning_big_data
#google #Gemini
Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.
Модель опередила на бенчмарках Sonnet 3.5.
🌌 Мультимодальный контекст до 1 миллиона токенов — анализ текста, изображений, видео, аудио и PDF.
🛠️ Поддерживае: вызовы функций, структурированный вывод, поиск Google, запуск кода.
Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.
2.5 Pro уже появился у пользователей Advanced в GeminiApp.
Просто выберите его в выпадающем списке моделей на десктопных и мобильных приложениях. Скоро она также будет доступна на GoogleCloud.
💡 Содержит актуальные знания до января 2025 года.
🚀 Лимиты: 2 RPM, 50 запросов в день (бесплатно).
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
Модель доступна в GoogleAI Studio → https://ai.dev
@ai_machinelearning_big_data
#google #Gemini
1🔥42👍18❤15❤🔥3
Gemini 2.5 Pro теперь №1 в таблице лидеров Арены - это самый большой скачок в истории (+40 пт против Grok-3/GPT-4.5)! 🏆
Gemini 2.5 Pro #1 почти во ВСЕХ категориях, модель показывает результаты на уровне с Grok-3/GPT-4.5 в категориях «Hard Prompts» и «Coding», опредив всех остальных, заняв лидирующие позиции 🏇🏆
@ai_machinelearning_big_data
#google #Gemini #areana
Gemini 2.5 Pro #1 почти во ВСЕХ категориях, модель показывает результаты на уровне с Grok-3/GPT-4.5 в категориях «Hard Prompts» и «Coding», опредив всех остальных, заняв лидирующие позиции 🏇🏆
@ai_machinelearning_big_data
#google #Gemini #areana
🔥65👍22❤19😎3
На стриме показали редактор изображений для ChatGPT.
Основные особенности:
📌 https://openai.com/index/introducing-4o-image-generation/
@ai_machinelearning_big_data
#openai #imagegenerator #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42👍26🔥14❤🔥5🥰1
ByteDance представила InfiniteYou — ИИ-систему, которая генерирует фотореалистичные портреты, сохраняя сходство с оригиналом и точно следуя текстовым запросам. В отличие от PuLID-FLUX, в InfiniteYou черты лица обрабатываются отдельным слоем, что повышает качество без риска переобучения.
Технология использует двухэтапное обучение: сначала на реальных фото, затем — на синтетических изображениях. По данным тестов, 72,8% участников выбрали результаты InfiniteYou из-за детализации и отсутствия артефактов вроде «копирования» лиц. Система совместима с ControlNet и LoRA, а для генерации нужно всего 4 шага.
Исходный код и веса модели уже доступны на GitHub и Hugging Face, демо-версия доступна тут.
analyticsindiamag.com
Компания NVIDIA анонсировала экспериментальный релиз Project G-Assist — ИИ-агента, использующего компактную языковую модель, которая обрабатывает голосовые или текстовые запросы, оптимизируя настройки игр, мониторинг производительности и даже управление подсветкой периферии от Logitech или Corsair. Всё работает оффлайн, без подписок и облачных серверов.
Для разработчиков открыт доступ к GitHub-репозиторию: там есть шаблоны для создания плагинов, интеграции со Spotify, Twitch или Google Gemini. Технические требования — RTX 30/40/50 серии, 12 ГБ видеопамяти и свежие драйверы.
nvidia.com
Figure разработала революционный метод обучения человекоподобных роботов — кастомная end-to-end нейросеть на основе RL за несколько часов «прокачала» движения Figure 02 до уровня естественной человеческой походки.
Все благодаря симулятору, где тысячи виртуальных роботов учились ходить по разным поверхностям, падать и реагировать на толчки. Ключевая фишка — перенос навыков из симуляции в реальность без доработок: помогли рандомизация параметров и мгновенная коррекция крутящего момента. Обещают, что уже скоро робот Helix на этой же базе сможет готовить и убираться.
figure.ai
Apple обновила раздел сайта, подтвердив использование снимков из Look Around (аналог Street View) для тренировки ИИ-моделей с марта 2025 года. Данные, собранные камерами на автомобилях и с переносных инсталляций (для пешеходных зон), включая 3D-карты, помогут улучшить распознавание изображений, генерацию контента и поиск в приложении «Фото».
Для защиты приватности Apple блюрит лица и номера машин на фото, а также готова скрыть частные строения по запросу. Обучение моделей будет проводиться только с обработанными изображениями. Подробности о конкретных алгоритмах компания пока не раскрывает, возможно о них станет известно на WWDC 2025, который пройдет с 9 по 13 июня.
9to5mac.com
Tesla присоединится к симпозиуму по робототехнике в Капитолии, чтобы продемонстрировать своего человекоподобного робота Optimus конгрессменам и сотрудникам Белого дома. Мероприятие, организованное A3 Automate и Университетом Карнеги-Меллон. пройдёт в 26 марта в здании Cannon House Office.
В приглашении Tesla подчеркивает, что робот позволит «заглянуть в будущее», и приглашает всех желающих оценить разработку.
axios.com
Бот
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥13❤12🤬3🙈2🤷2
This media is not supported in your browser
VIEW IN TELEGRAM
Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!
Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU!
✨ Как это работает?
Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова
cuml.patch.apply()
вы "патчите" установленный у вас scikit-learn прямо в памяти.Теперь, когда вы вызываете, например,
KNeighborsClassifier
или PCA
из sklearn:Ключевые преимущества:
2 строчки:import cuml.patch и cuml.patch.apply().
Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.
👇 Как использовать:
Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):
python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend
Добавьте в начало скрипта:
import cuml.patch
cuml.patch.apply()
Используйте scikit-learn как обычно!
Попробуйте и почувствуйте разницу! 😉
▪Блог-пост
▪Colab
▪Github
▪Ускоряем Pandas
@ai_machinelearning_big_data
#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍79🔥45❤10💘3😁1
Forwarded from КПД
Scale-wise Distillation of Diffusion Models
[Статья] [Демка] [Код soon]
Введение
Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.
Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.
Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?
Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.
[Статья] [Демка] [Код soon]
Введение
Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.
Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.
Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?
Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.
👍33❤32🔥8
OpenAI запустила "Академию OpenAI", которая претендует на роль главного учебника по работе с ИИ.
Платформа поможет освоить нейросети на практике, понять их возможности и научиться эффективно использовать ChatGPT и Sora в повседневной жизни и работе.
▪ Обширная база обучающих материалов доступна на отдельном сайте.
▪Live-трансляции и офлайн-мероприятия помогут глубже разобраться в технологиях.
▪ Бесплатный доступ — OpenAI стремится расширить аудиторию, а не ограничивать её ценником.
Программа рассчитана на широкий круг слушателей — от технических специалистов до политиков, представителей бизнеса и академического сообщества.
@ai_machinelearning_big_data
📌Начать обучение
📌 Блог
#ai #freecourses #openai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64❤16🔥13😁7🗿6🤣4
Команда StepFun AI выпустила Step-Video-TI2V модель для генерации видео (до 102 кадров), производительностью SOTA.
Принимает на вход текстовые описания и изображенияъ 🖼️ + ✍️ = 🎬
На бенчмарке VBench-I2V, моделька показывает лучшие результаты по сравнению с другими современными открытыми моделями для генерации видео из изображения и текста, а также лидирует в публичном рейтинге.
Ключевые особенности:
▪ Контроль движения: Модель предлагает достойный баланс между стабильностью движения и гибкостью, позволяя управлять динамикой в кадре.
▪ Разнообразные движения камеры: Поддерживается имитация различных движений виртуальной камеры для создания более кинематографичных эффектов.
▪ Мастер аниме-стиля: Step-Video-TI2V особенно преуспевает в генерации видео в стиле аниме, открывая новые возможности для фанатов и создателей контента! ✨
▪ Поддержка разных разрешений: Модель может генерировать видео в нескольких вариантах размеров.
@ai_machinelearning_big_data
#AI #VideoGeneration #TextToVideo #ImageToVideo #GenerativeAI #MachineLearning #StepFunAI #ИИ #ГенерацияВидео #Нейросети #Аниме #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤11🔥5🤔2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Робот обойдется вам примерно в 300 долларов
Проект вдохновлён подобными опенсорсными роботами, такими как lerobot, , so-100 и lekiwi.
Основная цель — демократизация технологий, обеспечивая доступ к робототехнике для более широкой аудитории.
А здесь вы найдете список комплектующий, со ссылками на Ali. Здесь описано ПО для робота.
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥24😁8🤨7❤5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 В chat.qwenlm.ai chat теперь доступны голосовой режим + режим видеочата
Более того китайцы выложили код своей Qwen2.5-Omni-7B - единой omni-модели, которая может понимать текст, аудио, изображение и видео.
Они разработали архитектуру "thinker-talker", которая обеспечивает одновременное размышление модели и ее разговор .
Вскоре обещают выпустить в опенсорс модели на еще большее количество параметров.
Просто топ, бегом тестить.
🟢 Попробовать: https://chat.qwenlm.ai
🟢 Paper: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
🟢 Blog: https://qwenlm.github.io/blog/qwen2.5-omni
🟢 GitHub: https://github.com/QwenLM/Qwen2.5-Omni
🟢 Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
🟢 ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
@ai_machinelearning_big_data
#qwen #release #Omni
Более того китайцы выложили код своей Qwen2.5-Omni-7B - единой omni-модели, которая может понимать текст, аудио, изображение и видео.
Они разработали архитектуру "thinker-talker", которая обеспечивает одновременное размышление модели и ее разговор .
Вскоре обещают выпустить в опенсорс модели на еще большее количество параметров.
Просто топ, бегом тестить.
@ai_machinelearning_big_data
#qwen #release #Omni
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍27🔥25
This media is not supported in your browser
VIEW IN TELEGRAM
Основатель студии Ghibli Хаяо Миядзаки назвал «ужасным оскорблением жизни», демку 2016 года, когда группа из трех разработчиков искусственного интеллекта показала ему раннюю версию ИИ -инструмента (RL Gym от OpenAI) для создания: «машины, рисующего аниме так же, «как это делают люди».
Где бы сейчас ни были эти разработки , ваше время пришло 😂
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63😭44😁19❤15🔥6🤓3👀3🤣2
Microsoft решила поставить на паузу новые проекты по строительству ЦОД в США и Европе суммарной мощностью около 2 гигаватт электроэнергии. Это решение объясняется опасениями по поводу переизбытка инфраструктуры ИИ и стратегическим изменением отношений Microsoft с OpenAI.
bloomberglinea.com
Siemens завершил сделку по поглощению Altair Engineering за $10 млрд, усилив свои позиции в ИИ и промышленной симуляции. Технологии Altair в области электромагнитного моделирования, анализа данных и высокопроизводительных вычислений интегрируют в платформу Xcelerator — это сделает цифровые двойники ещё точнее, а симуляции доступнее даже для небольших компаний.
«С Altair мы создаём самый продвинутый AI-инструментарий для инженеров», — отметил CEO Siemens Роланд Буш. Теперь клиенты смогут оптимизировать HPC-процессы, разрабатывать ИИ-решения и ускорять вывод продуктов на рынок. Сделка также увеличит долю цифровых доходов Siemens в рамках программы ONE Tech Company.
newsroom.sw.siemens.com
Основные причины — страх автоматизации, недоверие к этичности алгоритмов и низкое качество корпоративных инструментов. Исследование выявило разрыв между руководством и рядовыми работниками: 49% сотрудников осваивают ИИ самостоятельно, а 35% самостоятельно покупают сторонние сервисы, рискуя безопасностью корпоративных данных.
Кевин Чанг, стратег Writer, предполагает, что успех внедрения ИИ зависит от прозрачности, обучения и вовлечения «чемпионов ИИ» — энтузиастов, которые мотивируют коллег. «Без людей даже лучшие технологии провалятся», — резюмирует Кевин.
forbes.com
Kling AI, проект китайской компании Kwai обновила свой онлайн-сервис Elements, который генерирует видео по нескольким исходным изображениям. Обновление принесло более быструю генерацию, улучшенное семантическое понимание промпта и качество выходного видео.
Добавлена новая функция "Endframes" + Extend" которая позволяет создавать расширение видео через ключевые кадры.
KlingAI в X (ex-Twitter)
Groq и PlayAI объединили усилия, чтобы представить Dialog — текстово-речевую модель, которая генерирует речь почти неотличимую от человеческой. Система работает на платформе GroqCloud, обеспечивая скорость до 140 символов в секунду благодаря LPU-чипам, что в разы быстрее GPU. Ключевая фишка проекта — механизм адаптивного контекста: ИИ анализирует историю диалога, подстраивая интонацию и эмоции под разговор.
Dialog поддерживает английский и арабский, став первым решением для Ближнего Востока. В тестах Podonos модель обошла ElevenLabs по скорости и естественности.
venturebeat.com
Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36❤17🔥14