🗣 HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis
Синтез речи на основе больших языковых моделей получил широкое распространение.
Однако такие модели требуют большого объема данных и обладают теми же недостатками, что и предыдущие авторегрессионные модели речи, включая низкую скорость вывода и плохое качетсво речи.
В данной работе прелставлен
Данная модель синтеза речи позволяют значительно повысить надежность и выразительность синтетической речи.
Кроме того, значительно улучшено естественность и сходство с диктором синтетической речи даже в сценариях синтеза речи с нулевым результатом.
🖥 Code: https://github.com/sh-lee-prml/hierspeechpp
🦾 Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing
⚡️ Demo: https://sh-lee-prml.github.io/HierSpeechpp-demo/
📚 Paper: https://arxiv.org/abs/2311.12454v1
🔗 Dataset: https://paperswithcode.com/dataset/libri-light
@ai_machinelearning_big_data
Синтез речи на основе больших языковых моделей получил широкое распространение.
Однако такие модели требуют большого объема данных и обладают теми же недостатками, что и предыдущие авторегрессионные модели речи, включая низкую скорость вывода и плохое качетсво речи.
В данной работе прелставлен
HierSpeech++
, быстрый и надежный синтезатор речи для преобразования текста в речь (TTS
) и голоса (VC
). Данная модель синтеза речи позволяют значительно повысить надежность и выразительность синтетической речи.
Кроме того, значительно улучшено естественность и сходство с диктором синтетической речи даже в сценариях синтеза речи с нулевым результатом.
🦾 Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤3🔥1🍌1
Профессия AI-тренера, гонка нейросетей: о чем еще говорили на YaC 2023?
YaC 2023 — это сериал из 4 серий — про город, дом, интернет и людей. Главные герои — не только сервисы, но и команды, которые их разрабатывают.
✨ Нейросерия — одна из самых интересных. Яндекс рассказал:
- как генеративные нейросети меняют подход к поиску информации и работе с ней
- как pretrain модель влияет на качество ответов нейросети
- как компания разрабатывала языковые модели и нейросети, встраивала технологии в свои продукты и ввела новую профессию AI-тренера — специалиста, который работает над тем, чтобы нейронка выдавала качественные, этичные и безопасные ответы.
Посмотреть сериал полностью можно на Кинопоиске и Ютубе
@ai_machinelearning_big_data
YaC 2023 — это сериал из 4 серий — про город, дом, интернет и людей. Главные герои — не только сервисы, но и команды, которые их разрабатывают.
✨ Нейросерия — одна из самых интересных. Яндекс рассказал:
- как генеративные нейросети меняют подход к поиску информации и работе с ней
- как pretrain модель влияет на качество ответов нейросети
- как компания разрабатывала языковые модели и нейросети, встраивала технологии в свои продукты и ввела новую профессию AI-тренера — специалиста, который работает над тем, чтобы нейронка выдавала качественные, этичные и безопасные ответы.
Посмотреть сериал полностью можно на Кинопоиске и Ютубе
@ai_machinelearning_big_data
Кинопоиск
Yet another Conference 2023, 2023
Смотрите онлайн сериал «Yet another Conference 2023» (2023) на Кинопоиске все серии, 1 сезон. Большой рассказ Яндекса о технологиях дома, в городе, интернете и о людях, которые их создают
❤11👍9🔥3🍌1🙈1
Модель для формирования панорамных изображений
360
на основе стабильной диффузии.@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤3🤩2🔥1🍌1
В данной работе показано, что языковые модели (ЯМ), могут приобретать новые возможности за счет ассимиляции параметров однотипных моделей без переобучения или использования графических процессоров.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍8❤4🍌2
♟ ChessVision - A dataset for logically coherent multi-label classification.
Набор данных с изображениями шахматных досок в различных позициях.
🖥 Github: https://github.com/espressovi/chessvisionchallenge
📕 Paper: https://arxiv.org/abs/2311.12610
🔥Datasets: https://zenodo.org/records/8278015
@ai_machinelearning_big_data
Набор данных с изображениями шахматных досок в различных позициях.
🔥Datasets: https://zenodo.org/records/8278015
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍5🥴2🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Сверхразрешение изображений (SISR) - важнейшая задача низкоуровневого компьютерного зрения, направленная на восстановление изображений высокого разрешения по их аналогам низкого разрешения.
Традиционные механизмы внимания значительно улучшили производительность SISR, но такие механизмы часто приводят к сложной структуре сети и большому количеству параметров, что приводит к низкой скорости вывода и большому размеру модели.
Parameter-free Attention Network (SPAN) - новая высокоэффективная модель SISR, которая позволяет сбалансировать количество параметров, скорость вывода и качество изображения.
В SPAN используется новый механизм внимания без параметров, который использует симметричные функции активации для усиления качества генерации и подавления избыточной информации.
SPAN был протестирован на нескольких бенчмарках,которые показали что она превосходит существующие модели суперразрешения как по качеству изображения, так и по скорости вывода, достигая компромисса между качеством и скоростью.
Это делает SPAN весьма пригодной для использования в реальных приложениях, особенно в случаях с ограниченными ресурсами.
🦾 Checkpoint: https://drive.google.com/file/d/1iYUA2TzKuxI0vzmA-UXr_nB43XgPOXUg/view?usp=sharing
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥3❤2😢1🍌1🆒1
🦜🦴Skeleton-of-Thought (новый шаблон LangChain!)
⭐️Большие Языковые модели могут работать параллельно и быстро⭐️.
В недавней работе Университета Цингуа и Microsoft Research показано, как можно значительно уменьшить время генерации LLM.
Данная техника сначала направляет LLM на генерацию скелета
▪Шаблон LangChain здесь: https://github.com/langchain-ai/langchain/tree/master/templates/skeleton-of-thought.
▪Посмотрите видео на YouTube о его создании: https://youtube.com/watch?v=wLRHwKuKvOE
▪Прочитать статью здесь: https://arxiv.org/abs/2307.15337
@ai_machinelearning_big_data
⭐️Большие Языковые модели могут работать параллельно и быстро⭐️.
В недавней работе Университета Цингуа и Microsoft Research показано, как можно значительно уменьшить время генерации LLM.
Данная техника сначала направляет LLM на генерацию скелета
answer
☠️, а затем выполняет параллельные вызовы API для параллельного заполнения содержимого каждой точки скелета🚤.▪Шаблон LangChain здесь: https://github.com/langchain-ai/langchain/tree/master/templates/skeleton-of-thought.
▪Посмотрите видео на YouTube о его создании: https://youtube.com/watch?v=wLRHwKuKvOE
▪Прочитать статью здесь: https://arxiv.org/abs/2307.15337
@ai_machinelearning_big_data
👍16❤4🔥4🍌1
Новые алгоритмы для ускоренного и дифференцируемого вычисления обобщенных преобразований Фурье на сфере и группы вращения т.е. сферических гармонических преобразований и преобразований Вигнера.
Новый гибридный подход к автоматическому и ручному дифференцированию, позволяющий эффективно вычислять градиенты.
Алгоритмы реализованы в рамках дифференцируемого программирования
JAX
.🦾 Project: https://astro-informatics.github.io/s2fft/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤3🔥2🎉1🍌1
👨💻 Нейросети, помогающие в написании и редактировании кода
Здесь собраны ИИ, которые пишут качественный код и по-настоящему помогут исправить баги в вашем проекте.В кажом проекте есть инструкция по установке и использованию.
1️⃣ Codeium - Поддерживаемые языки: более 70, но наиболее развиты C#, C, Python, CSS, Go, Groovy, Kotlin. В отличие от Copilot, Codeium позиционируется как помощник, который допишет код сам или найдет необходимые программисту инструменты в собственном хранилище. Пользователь пишет запрос на английском языке, а ИИ ищет и предлагает варианты.
2️⃣ Autogen - новейшее разработка от Microsoft вызвала фурор на GitHub: компания представила Autogen. Этот фреймворк позволяет ИИ-агентам общаться между собой для выполнения ваших задач.
Настройка Autogen проста — например, для устранения ошибок, написания кода, создания веб-дизайнов и выполнения различных проектов. Нейронные сети выдают себя за команду IT-специалистов, ведут диалог в чате и выполняют различные задачи по вашему запросу.
3️⃣ Code GPT — расширение для Visual Studio Code от OpenAI, которое помогает писать код по текстовым промптами. Он поддерживает множество популярных языков программирования и упрощает разработку, автоматически предлагая код на основе введенного вами текста.
4️⃣ CodePal — инструмент для написания и оптимизации кода, который также помогает находить ошибки и проводить код-ревью, делая разработку проще для программистов всех уровней.
5️⃣ Codesnippets — это сервис, который создает код по текстовым запросам. Он предлагает функции отладки, рефакторинга и возможность сохранения кода для командной работы. Существует как платная, так и бесплатная версия этого сервиса, что делает его доступным для широкого круга разработчиков.
6️⃣ BlackBox.AI - ИИ способный использовать поиск в интернете, но с добавлением агентов, который ориентирован на работу с кодом и чтение документации.
7️⃣ Tabnine - нейросеть, которая поддерживает различные популярные языки программирования. Этот сервис может дополнять строки кода и даже целые ветки кода.
8️⃣ Adrenaline - помогает анализировать и исправлять код, обнаруживая и предлагая варианты исправлений ошибок. Особенностью этого сервиса является возможность видеть свой код и предложенные изменения от Adrenaline на одном экране.
@ai_machinelearning_big_data
Здесь собраны ИИ, которые пишут качественный код и по-настоящему помогут исправить баги в вашем проекте.В кажом проекте есть инструкция по установке и использованию.
1️⃣ Codeium - Поддерживаемые языки: более 70, но наиболее развиты C#, C, Python, CSS, Go, Groovy, Kotlin. В отличие от Copilot, Codeium позиционируется как помощник, который допишет код сам или найдет необходимые программисту инструменты в собственном хранилище. Пользователь пишет запрос на английском языке, а ИИ ищет и предлагает варианты.
2️⃣ Autogen - новейшее разработка от Microsoft вызвала фурор на GitHub: компания представила Autogen. Этот фреймворк позволяет ИИ-агентам общаться между собой для выполнения ваших задач.
Настройка Autogen проста — например, для устранения ошибок, написания кода, создания веб-дизайнов и выполнения различных проектов. Нейронные сети выдают себя за команду IT-специалистов, ведут диалог в чате и выполняют различные задачи по вашему запросу.
3️⃣ Code GPT — расширение для Visual Studio Code от OpenAI, которое помогает писать код по текстовым промптами. Он поддерживает множество популярных языков программирования и упрощает разработку, автоматически предлагая код на основе введенного вами текста.
4️⃣ CodePal — инструмент для написания и оптимизации кода, который также помогает находить ошибки и проводить код-ревью, делая разработку проще для программистов всех уровней.
5️⃣ Codesnippets — это сервис, который создает код по текстовым запросам. Он предлагает функции отладки, рефакторинга и возможность сохранения кода для командной работы. Существует как платная, так и бесплатная версия этого сервиса, что делает его доступным для широкого круга разработчиков.
6️⃣ BlackBox.AI - ИИ способный использовать поиск в интернете, но с добавлением агентов, который ориентирован на работу с кодом и чтение документации.
7️⃣ Tabnine - нейросеть, которая поддерживает различные популярные языки программирования. Этот сервис может дополнять строки кода и даже целые ветки кода.
8️⃣ Adrenaline - помогает анализировать и исправлять код, обнаруживая и предлагая варианты исправлений ошибок. Особенностью этого сервиса является возможность видеть свой код и предложенные изменения от Adrenaline на одном экране.
@ai_machinelearning_big_data
🔥47👍5😱3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
📐 Sketch Video Synthesis
Новая модель для создания скетчей из видео, представленных покадровыми кривыми Безье.
🖥 Code: https://github.com/yudianzheng/sketchvideo
🦾 Project: https://sketchvideo.github.io/
📚 Paper: https://arxiv.org/abs/2311.15306v1
@ai_machinelearning_big_data
Новая модель для создания скетчей из видео, представленных покадровыми кривыми Безье.
🦾 Project: https://sketchvideo.github.io/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰14🔥4❤2🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL Turbo достигает высочайшей производительности благодаря новой технологии дистилляции, позволяющей создавать изображения за 1 шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.
Доступны: код, статья, веса.
Вы можете протестировать SDXL Turbo на платформе для редактирования изображений Stability AI. с бета-версией демонстрации возможностей генерации текста в изображение в режиме реального времени.
🦾 Demo: https://clipdrop.co/stable-diffusion-turbo
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍9❤1🍌1👀1
Это репозиторий призван предоставить список научных работ, в которых исследуются промпты для работы с графами.
🦾 Project: https://graphprompt.github.io/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6🔥2😁1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Building and Evaluating Advanced RAG Applications
Вышел новый бесплатный курс от deeplearning.ai по сложным техникам
В этом курсе преподаются продвинутые техники работы с LLM, которые помогут вам генерировать хорошие и релевантные ответы и.
deeplearning.ai/short-courses/building-evaluating-advanced-rag/
@ai_machinelearning_big_data
Вышел новый бесплатный курс от deeplearning.ai по сложным техникам
RAG (Retrieval Augmented Generation
).🦾В этом курсе преподаются продвинутые техники работы с LLM, которые помогут вам генерировать хорошие и релевантные ответы и.
deeplearning.ai/short-courses/building-evaluating-advanced-rag/
@ai_machinelearning_big_data
❤21👍3🔥3🍌1
LEDITS++ модель, которая выводит редактирование изображений текcтом на новый уровень.
LEDITS++:
- быстрый 🚀
- универсальный 🎨
- привязывает изменения к соответствующим областям 🎑
- не зависит от архитектуры ⚙️
🦾 Demo: https://huggingface.co/spaces/editing-images/leditsplusplus
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥2❤1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models
Это самая крутая работа диффузии, за последнее время! Она генерирует визуальные анаграммы - тип оптической иллюзии, когда изображение выглядит как одно, но при трансформации меняет вид на другое.
Метод работает с любыми ортогональными матрицами преобразования, которые, включают вращение и перестановку.
Интуитивно понятно, что метод сначала инвертирует шум от нескольких преобразований изображения (с разными текстовыми промптами), а затем усредняет их.
После работы диффузии усредненного шума, результирующее изображение превращается в анаграмму, соответствующую тексту в разных ракурсах.
При этом требуется совсем немного вычислений, используется предварительно обученная стабильная диффузия.
Простая, элегантная техника для непрофессионалов, позволяющая создавать интересные произведения искусства!
🖥 Code: https://github.com/dangeng/visual_anagrams
🌟 Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥 Project: https://dangeng.github.io/visual_anagrams/
📚 Paper: https://arxiv.org/abs/2311.17919
@ai_machinelearning_big_data
Это самая крутая работа диффузии, за последнее время! Она генерирует визуальные анаграммы - тип оптической иллюзии, когда изображение выглядит как одно, но при трансформации меняет вид на другое.
Метод работает с любыми ортогональными матрицами преобразования, которые, включают вращение и перестановку.
Интуитивно понятно, что метод сначала инвертирует шум от нескольких преобразований изображения (с разными текстовыми промптами), а затем усредняет их.
После работы диффузии усредненного шума, результирующее изображение превращается в анаграмму, соответствующую тексту в разных ракурсах.
При этом требуется совсем немного вычислений, используется предварительно обученная стабильная диффузия.
Простая, элегантная техника для непрофессионалов, позволяющая создавать интересные произведения искусства!
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥7❤4🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Модели Seamless получили обновления и доступны для использования.
Новая веха в исследованиях в области бесшовной коммуникации и пеервода - семейство моделей перевода на основе искусственного интеллекта, которые сохраняют выразительность и обеспечивают потоковый перевод практически в режиме реального времени.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤5👌1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
Новая модель
StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
🖥 Github: https://github.com/yl4579/StyleTTS2
🔥 Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️ Demo: https://huggingface.co/spaces/styletts2/styletts2
📚 Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩 Page: styletts2.github.io
@ai_machinelearning_big_data
Новая модель
StyleTTS 2
для преобразования текста в речь (TTS
), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM
) для достижения синтеза речь на человеческом уровне.StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥6❤3🎉3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Высокоточная временно-согласованная анимация изображений человека с использованием диффузионной модели.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤5👍3👏3🎉2🥰1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥🔥🔥 LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models
Vchitect новые модели с открытым исходным кодом для генерации видео.
📽️LaVie (Text2Video Model)
- Code: https://github.com/Vchitect/LaVie
- https://huggingface.co/spaces/Vchitect/LaVie
📽️SEINE (Image2Video Model)
- Code: https://github.com/Vchitect/SEINE
- https://huggingface.co/spaces/Vchitect/SEINE
@ai_machinelearning_big_data
Vchitect новые модели с открытым исходным кодом для генерации видео.
📽️LaVie (Text2Video Model)
- Code: https://github.com/Vchitect/LaVie
- https://huggingface.co/spaces/Vchitect/LaVie
📽️SEINE (Image2Video Model)
- Code: https://github.com/Vchitect/SEINE
- https://huggingface.co/spaces/Vchitect/SEINE
@ai_machinelearning_big_data
🔥20👍5❤2🍌2