This media is not supported in your browser
VIEW IN TELEGRAM
🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models
Это самая крутая работа диффузии, за последнее время! Она генерирует визуальные анаграммы - тип оптической иллюзии, когда изображение выглядит как одно, но при трансформации меняет вид на другое.
Метод работает с любыми ортогональными матрицами преобразования, которые, включают вращение и перестановку.
Интуитивно понятно, что метод сначала инвертирует шум от нескольких преобразований изображения (с разными текстовыми промптами), а затем усредняет их.
После работы диффузии усредненного шума, результирующее изображение превращается в анаграмму, соответствующую тексту в разных ракурсах.
При этом требуется совсем немного вычислений, используется предварительно обученная стабильная диффузия.
Простая, элегантная техника для непрофессионалов, позволяющая создавать интересные произведения искусства!
🖥 Code: https://github.com/dangeng/visual_anagrams
🌟 Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥 Project: https://dangeng.github.io/visual_anagrams/
📚 Paper: https://arxiv.org/abs/2311.17919
@ai_machinelearning_big_data
Это самая крутая работа диффузии, за последнее время! Она генерирует визуальные анаграммы - тип оптической иллюзии, когда изображение выглядит как одно, но при трансформации меняет вид на другое.
Метод работает с любыми ортогональными матрицами преобразования, которые, включают вращение и перестановку.
Интуитивно понятно, что метод сначала инвертирует шум от нескольких преобразований изображения (с разными текстовыми промптами), а затем усредняет их.
После работы диффузии усредненного шума, результирующее изображение превращается в анаграмму, соответствующую тексту в разных ракурсах.
При этом требуется совсем немного вычислений, используется предварительно обученная стабильная диффузия.
Простая, элегантная техника для непрофессионалов, позволяющая создавать интересные произведения искусства!
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥7❤4🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Модели Seamless получили обновления и доступны для использования.
Новая веха в исследованиях в области бесшовной коммуникации и пеервода - семейство моделей перевода на основе искусственного интеллекта, которые сохраняют выразительность и обеспечивают потоковый перевод практически в режиме реального времени.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤5👌1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
Новая модель
StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
🖥 Github: https://github.com/yl4579/StyleTTS2
🔥 Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️ Demo: https://huggingface.co/spaces/styletts2/styletts2
📚 Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩 Page: styletts2.github.io
@ai_machinelearning_big_data
Новая модель
StyleTTS 2
для преобразования текста в речь (TTS
), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM
) для достижения синтеза речь на человеческом уровне.StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥6❤3🎉3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Высокоточная временно-согласованная анимация изображений человека с использованием диффузионной модели.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤5👍3👏3🎉2🥰1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥🔥🔥 LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models
Vchitect новые модели с открытым исходным кодом для генерации видео.
📽️LaVie (Text2Video Model)
- Code: https://github.com/Vchitect/LaVie
- https://huggingface.co/spaces/Vchitect/LaVie
📽️SEINE (Image2Video Model)
- Code: https://github.com/Vchitect/SEINE
- https://huggingface.co/spaces/Vchitect/SEINE
@ai_machinelearning_big_data
Vchitect новые модели с открытым исходным кодом для генерации видео.
📽️LaVie (Text2Video Model)
- Code: https://github.com/Vchitect/LaVie
- https://huggingface.co/spaces/Vchitect/LaVie
📽️SEINE (Image2Video Model)
- Code: https://github.com/Vchitect/SEINE
- https://huggingface.co/spaces/Vchitect/SEINE
@ai_machinelearning_big_data
🔥20👍5❤2🍌2
🦾 Помогать углубляться в ML будет новая площадка яндексовского ШАДа
Школа анализа данных, откуда выходят сильные дата-сайентисты и ML-щики, открыла пространство в Петербурге. Будет интересно всем, кто занимается ИИ: на площадке впервые в истории ШАДа начнут проводить открытые мероприятия. В планах — лектории и интенсивы по ИИ от топовых преподавателей Школы и экспертов Яндекса, соревнования по ML и алгоритмам, хакатоны по разработке. А ещё — коллаборации со студентами Школы: будет возможность работать над учебными проектами, направленными на внедрение технологий ИИ в бизнес и прикладную науку.
@ai_machinelearning_big_data
Школа анализа данных, откуда выходят сильные дата-сайентисты и ML-щики, открыла пространство в Петербурге. Будет интересно всем, кто занимается ИИ: на площадке впервые в истории ШАДа начнут проводить открытые мероприятия. В планах — лектории и интенсивы по ИИ от топовых преподавателей Школы и экспертов Яндекса, соревнования по ML и алгоритмам, хакатоны по разработке. А ещё — коллаборации со студентами Школы: будет возможность работать над учебными проектами, направленными на внедрение технологий ИИ в бизнес и прикладную науку.
@ai_machinelearning_big_data
🔥29👍7❤6😁2🤬1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️⚡️⚡️ Introducing Gemini: largest and most capable AI model by Google.
Google представил Gemini — новое семейство мультимодальных моделей.
Это самая большая и самая способная модель искусственного интеллекта.
Созданная на основе мультимодальных технологий, она способна понимать и работать с текстом, кодом, аудио, изображениями и видео и достигает самой высокой производительности во многих задачах.
Это единственный ИИ, который справился с экзаменами из 57 категорий разных уровней лучше, чем человек.
🧵 https://blog.google/technology/ai/google-gemini-ai/
@ai_machinelearning_big_data
Google представил Gemini — новое семейство мультимодальных моделей.
Это самая большая и самая способная модель искусственного интеллекта.
Созданная на основе мультимодальных технологий, она способна понимать и работать с текстом, кодом, аудио, изображениями и видео и достигает самой высокой производительности во многих задачах.
Это единственный ИИ, который справился с экзаменами из 57 категорий разных уровней лучше, чем человек.
🧵 https://blog.google/technology/ai/google-gemini-ai/
@ai_machinelearning_big_data
👍26🔥11❤2🍌2🥰1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
DemoFusion: Паплайн для генерации с высоким разрешением с использованием только
SDXL!
Код доступен в 🧨diffusers в качестве пайплайна!
#DemoFusion
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
TokenCompose
, модель латентной диффузии текста в изображение, которая достигает высокого фотореализма.@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🎉4❤3
В этом руководстве подробно показано, как произвести файнтюнинг модели Stable Diffusion на собсвенном датасете из пар {
изображение, подпись
}. https://keras.io/examples/generative/finetune_stable_diffusion/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19⚡2🥰2👏2❤1
Optimum-NVIDIA теперь доступен на Hugging Face!
28-кратное ускорение вычислений и 1 200 токенов в секунду на платформе NVIDIA с помощью всего 1 строки кода.
Optimum-NVIDIA обеспечивает лучшую производительность вычислений на платформе NVIDIA.
#LLM E https://huggingface.co/blog/optimum-nvidia
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28❤2👍2🥰1🤗1
8 бесплатных топ курсов по большим языковым моделям:
1. Университет LLM
Курс дает представление о том, как работают
LLM
, их практическом применении, и направляет учащихся на использование LLM для создания и развертывания приложений.https://docs.cohere.com/docs/llmu
2. huggingface NLP course
Этот курс дает исчерпывающие знания о тарнсформерах Hugging Face, датасетах, токенизаторах и инструменте Accelerate в области обработки естественного языка (NLP).
https://huggingface.co/learn/nlp-course/chapter1/1
3. DeepLearningAI
Коллекция бесплатных курсов, созданных в сотрудничестве со многими компаниями, такими как LangChain, OpenAI, Google, Weights & Biases, Microsoft и другими.
https://www.deeplearning.ai/short-courses/
4. Weights_biases course
Этот курс показывает, как создавать приложения на базе LLM, используя
API, Langchain и W&B Prompts
. Он рассказывает про разработку, экспериментирование и оценку приложений, ориентированных на LLM.https://www.wandb.courses/courses/building-llm-powered-apps
5. Introduction to LLMs course by google cloud
Курс вводного уровня, в котором рассказывается о том, что такое LLM, о случаях их использования и о том, как повысить производительность LLM с помощью промпт-тюнинга.
https://www.cloudskillsboost.google/course_templates/539
6. Databricks курсы
Программа включает в себя два курса: "
LLMs: Application through Production
" и "LLMs: Foundation Models from the Ground Up
".https://www.databricks.com/blog/enroll-our-new-expert-led-large-language-models-llms-courses-edx
7. Курс "LangChain & Vector Databases in Production" от activeloopai, towards_AI и Intel
Серия из трех курсов познакомит слушателей со знаниями и навыками для обучения, тонкой настройки и интеграции LLM в продакшен.
https://learn.activeloop.ai/courses/langchain
8 ) LLM Bootcamp
Охватывает такие темы, как
Prompt Engineering, LLMOps, UX
для языковых пользовательских интерфейсов, дополненные языковые модели, быстрая разработка LLM-приложений, будущие тенденции в LLM, фундаментальные концепции и прохождение askFSDL.https://fullstackdeeplearning.com/llm-bootcamp/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍17🔥8🤗2😁1🎃1🆒1
A new benchmark in class-unconditional image generation.
RCG - новый простой, но эффективный фреймворк для генерации изображений, который устанавливает новую планку для unconditional генераций (без учета класса генерации объекта).
RCG не зависит от аннотаций человека. Вместо этого он опирается на самоконтролируемое распределение, которое сопоставляется с распределением изображений с помощью предварительно обученного кодировщика.
Во время генерации RCG делает выборку из такого распределения представлений с помощью модели диффузии представлений (RDM) и использует генератор пикселей для создания пикселей изображения на основе выбранного представления.
Такая конструкцияприводит к созданию высококачественных изображений. Протестированная на
ImageNet 256
256, RCG достигает
Frechet Inception Distance (FID) 3,31 и Inception Score (IS) 253,4.
Эти результаты не только значительно превосхоядт современное состояние генерации изображений без учета классов, но и конкурируют с ведущими методами генерации изображений с учетом классов, преодолевая давний разрыв в производительности между этими двумя задачами.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍6🔥3⚡1
In this example, we illustrate how we use LlaVa for belowing tasks:
▪Retrieval Augmented Image Captioning
▪Pydantic Structured Output
▪Multi-Modal Retrieval-Augmented Generation (RAG) using Llava-13b
Совершенно новая книга рецептов 🧑🍳, в которой рассказывается о трех способах создания приложений
LLM
путем интеграции мультимодальных моделей (LLaVa
) в остальной рабочий процесс: 1️⃣ Retrieval Augmented Image Captioning: Генерация подписей к изображению с помощью LLaVa, а затем дополнение ответа из вашей базы знаний.
2️⃣ Извлечение структурированных данных из изображений: Получив входную инструкцию и изображение, извлекаем из него структурированный объект Pydantic.
3️⃣ Multi-modal RAG: задаем вопросы по изображениям и тексту из собственной базы знаний.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍10🔥3⚡1
Очень мощная модель, построенная на основе новой модели Mistral MoE и обученная на наборе данных SlimOrca.
- Свободно используется по лицензии Apache 2.0
- превосходит Llama 2 70B и работает в 6 раз быстрее.
- Превосходит GPT3.5
- seq_len = 32K
Скачать можно здесь: https://huggingface.co/mattshumer/mistral-8x7b-chat
Почитать: https://mistral.ai/news/mixtral-of-experts/
Что такое "Mixture of Experts"?
❓ Чем МЭ отличаются от обычных трансформеров
🏋️♀️ Как их обучают
🏎️ Тонкости работы с выводами
Объяснение на тему: https://huggingface.co/blog/moe
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍8❤3👏1😁1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Фундаментальная модель, которая обобщает древо жизни (более 2 миллионов видов фауны и флоры), превосходя OpenAI CLIP на 18% в классификации zero-shot и поддерживает открытую классификацию почти по всему живому на земле.
Что внутри?
> Данные: TreeOfLife-10M - самый большой и разнообразный набор данных изображений организмов на сегодняшний день. Он содержит 10,4 млн изображений для более чем 450 таксонов. тем, взятых из iNaturalist, BIOSCAN и Encyclopedia of Life.
> Моделирование: Авторы применили мультимодальную модель контрастного обучения CLIP для иерархической классификации изображений.
Основные результаты
> Классификация животных/растений/грибов, включая редкие виды, с нулевым/малым числом снимков, превосходящая CLIP на 16-18 % в абсолютном выражении.
> Визуализация T-sne показывает, что кодировщик зрения BioCLIP уловил тонкую иерархическую структуру древа жизни.
> BioCLIP - это своего рода универсальный классификатор для древа жизни. Просто дайте ему изображение любого организма, и он, скорее всего, найдет правильный вид.
- paper: https://arxiv.org/abs/2311.18803
- project: https://imageomics.github.io/bioclip/
- demo: https://huggingface.co/spaces/imageomics/bioclip-demo
- model: https://huggingface.co/imageomics/bioclip
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥14❤3👀2