Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.
Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.
В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤7🔥1
Media is too big
VIEW IN TELEGRAM
При такой скорости развития.год роботы будут в наших домах в ближайшее время.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥1😁1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍6🔥4
На Habr вышла статья от разработчиков Sber AI и AIRI про свежее open-source решение по переносу головы на изображениях.
Авторы рассказали, как GHOST 2.0 решает задачу headswap без видимых артефактов, сохраняя реалистичность и соответствие геометрии исходного лица. Важный этап обработки – использование Kandinsky 2.2, который упрощает адаптацию данных перед финальной генерацией.
Среди других особенностей:
• Улучшенный контроль за точностью замены головы;
• Минимизация искажений при переносе текстур;
• Полный open-source: код доступен для экспериментов и интеграции.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍8❤6😁2
This media is not supported in your browser
VIEW IN TELEGRAM
На разработку ушло менее 24 часов, и выглядит он вполне приятно!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥9🤔4❤3😁3🤯3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Напишите в комментариях - какой генератор используете вы.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6🔥5
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤8🔥2
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4👍2🥰1
⚡ Verl – Volcano Engine Reinforc
ement Learning for LLMs
Проект, объединяющий методы обучения с подкреплением для улучшения работы языковых моделей.
Отличается экспериментальным подходом и перспективой интеграции с популярными LLM.
▪Github
@data_analysis_ml
ement Learning for LLMs
Проект, объединяющий методы обучения с подкреплением для улучшения работы языковых моделей.
Отличается экспериментальным подходом и перспективой интеграции с популярными LLM.
▪Github
@data_analysis_ml
❤8👍4🔥2🥴2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Google неожиданно представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.
Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.
Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.
Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.
В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
📌 Попробовать можно здесь
@data_analysis_ml
Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.
Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.
Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.
В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
📌 Попробовать можно здесь
@data_analysis_ml
❤25🔥11👍6👌4🥰3😁1🤨1
Австралийская компания Cortical Labs представила первый в мире биологический компьютер, объединяющий клетки человеческого мозга с кремниевыми чипами.
Эта система, известная как синтетический биологический интеллект ( SBI) , позволяет формировать динамические нейронные сети, которые обучаются быстрее и более гибко, чем традиционные системы искусственного интеллекта.
Официальная презентация CL1 состоялась в Барселоне 2 марта 2025 года. Ожидается, что он поступит в продажу во второй половине 2025 года.
Технология основана на предыдущем исследовании, в ходе которого 800 000 человеческих и нейроно мышей на чипе были обучены игре в видеоигру Pong.
Теперь CL1 предоставляет платформу, которая позволяет исследователям использовать эту технологию без специализированного оборудования или программного обеспечения. Клиенты могут либо приобрести CL1, либо получить к нему доступ через Cortical Cloud для работы с культивируемыми клетками.
Потенциальные области применения CL1 варьируются от исследований лекарственных препаратов и клинических испытаний до разработки интеллектуальной робототехники.
Система энергоэффективна и не требует внешнего компьютера для управления. Разработчики подчеркивают, что SBI более естественна, чем обычный ИИ, поскольку основана на биологических нейронах, которые также являются основой человеческого интеллекта.
Появление CL1 знаменует собой значительный прогресс в слиянии биологии и технологий и может иметь далеко идущие последствия для различных областей науки и медицины.
Это происходит: человек и машина сливаются. Курцвейл был прав!
Австралийская компания Cortical Labs представила первый в мире биологический компьютер, объединяющий клетки человеческого мозга с кремниевым оборудованием.
Эта система, известная как синтетический биологический интеллект ( SBI) , позволяет формировать динамические нейронные сети, которые обучаются быстрее и более гибко, чем традиционные системы искусственного интеллекта.
Официальная презентация CL1 состоялась в Барселоне 2 марта 2025 года. Ожидается, что он поступит в продажу во второй половине 2025 года.
Технология основана на предыдущем исследовании, в ходе которого 800 000 человеческих и мышиных нейронов на чипе были обучены игре в видеоигру Pong.
Теперь CL1 предоставляет платформу, которая позволяет исследователям использовать эту технологию без специализированного оборудования или программного обеспечения. Клиенты могут либо приобрести CL1, либо получить к нему доступ через Cortical Cloud для работы с культивируемыми клетками.
Потенциальные области применения CL1 варьируются от исследований лекарственных препаратов и клинических испытаний до разработки интеллектуальной робототехники.
Система энергоэффективна и не требует внешнего компьютера для управления. Разработчики подчеркивают, что SBI более естественна, чем обычный ИИ, поскольку основана на биологических нейронах, которые также являются основой человеческого интеллекта.
Появление CL1 знаменует собой значительный прогресс в слиянии биологии и технологий и может иметь далеко идущие последствия для различных областей науки и медицины.
https://newatlas.com/brain/cortical-bioengineered-intelligence/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16😱8❤4🤔2🔥1
Forwarded from Machinelearning
PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.
Традиционный подход в
eager mode
сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования
policy_fn
, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.Для
torch.compile
стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile
по умолчанию. @ai_machinelearning_big_data
#AI #ML #Pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥6👍3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!
> Сделана на Qwen2.5
> Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.
Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
> Сделана на Qwen2.5
> Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.
Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
👍8❤5🔥2💔1
🗼Многоязычный LLM с поддержкой 25 языков, выпущенный командой Alibaba DAMO
✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.
▪Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865
@data_analysis_ml
✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.
▪Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865
@data_analysis_ml
👍14❤7🔥2
🎵 DiffRhythm - полноценныйгенератор песен всего за несколько секунд!
DiffRhythm‑base — базовая модель из коллекции DiffRhythm от ASLP‑lab на Hugging Face.
Проект интересен тем, что применяет современные диффузионные алгоритмы для генерации и анализа ритмических структур, что открывает новые возможности в области музыкального творчества и аудиоанализа.
▪Модель: https://huggingface.co/ASLP-lab/DiffRhythm-base
▪Демо: https://huggingface.co/spaces/ASLP-lab/DiffRhythm
▪Статья: https://huggingface.co/papers/2503.01183
DiffRhythm‑base — базовая модель из коллекции DiffRhythm от ASLP‑lab на Hugging Face.
Проект интересен тем, что применяет современные диффузионные алгоритмы для генерации и анализа ритмических структур, что открывает новые возможности в области музыкального творчества и аудиоанализа.
▪Модель: https://huggingface.co/ASLP-lab/DiffRhythm-base
▪Демо: https://huggingface.co/spaces/ASLP-lab/DiffRhythm
▪Статья: https://huggingface.co/papers/2503.01183
❤11👍4🔥2🍌1