🔍 #GPTIntro
Что такое GPT-модели и их основное применение
GPT (Generative Pre-trained Transformer) - это серия генеративных моделей языка, разработанных компанией OpenAI. Они предназначены для обработки и генерации текста на естественном языке.
В 2020 году OpenAI опубликовали поразительную статью под названием «Language Models are Few-Shot Learners». В этой статье представлен GPT-3 – самая масштабная и впечатляющая модель, насчитывающая невероятные 175 миллиардов параметров!
🧪 GPT-модели эффективно выполняют широкий спектр задач, такие как:
1. Машинный перевод текстов между различными языками;
2. Суммаризация текста, превращая длинные статьи в краткие и лаконичные обзоры;
3. Генерация контента на основе обширной базы данных, состоящей из миллиардов собранных фрагментов информации.
4. Ответы на вопросы, предоставляя информацию, основанную на запросах пользователей;
5. Создание диалоговых агентов для общения с пользователями и множество других приложений.
👨💻 GPT-модели основаны на архитектуре трансформеров*, которая была предложена в 2017 году в статье «Attention is All You Need». В основе трансформеров лежит механизм внимания, который позволяет моделям анализировать контекст и отношения между словами в предложении. Такой подход обеспечивает глубокое понимание текста и создание более связного и согласованного контента.
* В следующем посте разберём что такое трансформеры 🤖
Картинка описывает маленькость GPT-3 по сравнению с новой GPT-4, которая вышла 14 марта 2023 года и насчитывает более 100 триллионов параметров!!
Что такое GPT-модели и их основное применение
GPT (Generative Pre-trained Transformer) - это серия генеративных моделей языка, разработанных компанией OpenAI. Они предназначены для обработки и генерации текста на естественном языке.
В 2020 году OpenAI опубликовали поразительную статью под названием «Language Models are Few-Shot Learners». В этой статье представлен GPT-3 – самая масштабная и впечатляющая модель, насчитывающая невероятные 175 миллиардов параметров!
1. Машинный перевод текстов между различными языками;
2. Суммаризация текста, превращая длинные статьи в краткие и лаконичные обзоры;
3. Генерация контента на основе обширной базы данных, состоящей из миллиардов собранных фрагментов информации.
4. Ответы на вопросы, предоставляя информацию, основанную на запросах пользователей;
5. Создание диалоговых агентов для общения с пользователями и множество других приложений.
Картинка описывает маленькость GPT-3 по сравнению с новой GPT-4, которая вышла 14 марта 2023 года и насчитывает более 100 триллионов параметров!!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤1🔥1
🔍 #GPTIntro
В данном посте мы разберем основные компоненты архитектуры трансформеров, используя примеры иллюстраций из статьи «Attention is All You Need».
Трансформер состоит из двух основных частей: енкодера и декодера.
Енкодер анализирует входной текст и извлекает информацию из него, а декодер использует эту информацию для генерации ответа.
Для начала разберем как устроена архитектура енкодера:
🥺 Input Embedding
Модель на вход получает запрос, который нужно обработать. Входной текст разбивается на токены (отдельные слова или части слов). Токены преобразовываются в числовые векторы - эмбеддинги.
😎 Positional Encoding
К эмбеддингам добавляется позиционное кодирование. Позиционное кодирование используется для добавления информации о позиции слов в тексте к эмбеддингам. Без такого кодирования модель не сможет учесть порядок слов и зависимость между ними.
😱 Attention Layers + Normalization + Feed-Forward Network
1. Attention Layers
Слой внимания позволяет модели определить, на какие слова стоит обратить особое внимание при обработке текста
В свою очередь, в трансформере используется Multi-Head Attention, где процесс внимания выполняется несколько раз с разными наборами весов, что позволяет модели улавливать разные аспекты взаимосвязей между словами.
2. Normalization
Нормализация выполняется для каждого вектора слов отдельно, что помогает устранить потенциальные ошибки работы модели.
Суть нормализации состоит в том, чтобы привести векторы к единой шкале, упрощая обучение и предотвращая взрывной рост градиентов.
3. Feed-Forward Network (FFN)
После слоя нормализации применяется нейронная сеть прямого распространения (FFN). Это позволяет модели выявлять сложные закономерности и взаимосвязи в тексте.
👨💻 В итоге мы получаем матрицу енкодера, которая содержит информацию о взаимосвязях слов во входном тексте, а также их семантическом значении, которая передается в декодер.
В данном посте мы разберем основные компоненты архитектуры трансформеров, используя примеры иллюстраций из статьи «Attention is All You Need».
Трансформер состоит из двух основных частей: енкодера и декодера.
Енкодер анализирует входной текст и извлекает информацию из него, а декодер использует эту информацию для генерации ответа.
Для начала разберем как устроена архитектура енкодера:
Модель на вход получает запрос, который нужно обработать. Входной текст разбивается на токены (отдельные слова или части слов). Токены преобразовываются в числовые векторы - эмбеддинги.
К эмбеддингам добавляется позиционное кодирование. Позиционное кодирование используется для добавления информации о позиции слов в тексте к эмбеддингам. Без такого кодирования модель не сможет учесть порядок слов и зависимость между ними.
1. Attention Layers
Слой внимания позволяет модели определить, на какие слова стоит обратить особое внимание при обработке текста
В свою очередь, в трансформере используется Multi-Head Attention, где процесс внимания выполняется несколько раз с разными наборами весов, что позволяет модели улавливать разные аспекты взаимосвязей между словами.
2. Normalization
Нормализация выполняется для каждого вектора слов отдельно, что помогает устранить потенциальные ошибки работы модели.
Суть нормализации состоит в том, чтобы привести векторы к единой шкале, упрощая обучение и предотвращая взрывной рост градиентов.
3. Feed-Forward Network (FFN)
После слоя нормализации применяется нейронная сеть прямого распространения (FFN). Это позволяет модели выявлять сложные закономерности и взаимосвязи в тексте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
🔍 #GPTIntro
🤓 Теперь разберемся что происходит после того как матрица передана из енкодера в декодер:
1. Декодеру также нужен входной текст, который разбивается на токены и преобразуется в эмбеддинги.
2. По аналогии с енкодером, добавляется позиционное кодирование, Multi-Head Attention, Normalization и FFN.
😎 Выходной слой
На выходе последнего слоя получаем матрицу, которая затем преобразуется в вероятности для каждого возможного слова в словаре.
👨💻 Генерация текста
На основе этих вероятностей выбираются наиболее вероятные слова, которые последовательно объединяются, формируя сгенерированный текст.
😐 ПРИМЕЧАНИЕ
В архитектуре GPT (к примеру, ChatGPT) используется только декодер. Вместо обработки пары запрос-ответ, как в полной архитектуре трансформера, ChatGPT обучается генерировать текст на основе предшествующего контекста. Таким образом, входной текст включает контекст и запрос, а GPT генерирует текст, предсказывая следующие слова последовательно.
1. Декодеру также нужен входной текст, который разбивается на токены и преобразуется в эмбеддинги.
2. По аналогии с енкодером, добавляется позиционное кодирование, Multi-Head Attention, Normalization и FFN.
На выходе последнего слоя получаем матрицу, которая затем преобразуется в вероятности для каждого возможного слова в словаре.
На основе этих вероятностей выбираются наиболее вероятные слова, которые последовательно объединяются, формируя сгенерированный текст.
В архитектуре GPT (к примеру, ChatGPT) используется только декодер. Вместо обработки пары запрос-ответ, как в полной архитектуре трансформера, ChatGPT обучается генерировать текст на основе предшествующего контекста. Таким образом, входной текст включает контекст и запрос, а GPT генерирует текст, предсказывая следующие слова последовательно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2😍1
Выбираем Великобританию, в поиске вводим OpenAI (один из самых дешевых номеров, на момент написания статьи стоит 40 рублей).
Если смс пришла - поздравляю, Вы зарегистрировались в ChatGPT
Если смс не пришла, то не переживайте! Деньги с аккаунта не спишутся. Покупаете новый номер Великобритании и пробуете еще раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3😁3🤩1
Что умеет @gptsciencebot:
На этой неделе мы уже будем генерировать приложения на основе текстового запроса в GPT-4, который в разы превосходит бесплатную версию ChatGPT (GPT-3.5)
Генерировать можно не более 1 изображения, поэтому внимательно вводите желаемый запрос /image текст_для_генерации
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
ChatGPT
Ты всего лишь машина, только имитация жизни. Робот сочинит симфонию? Робот превратит кусок холста в шедевр искусства?
😍6🥰3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
#GPTApplication Text2Video Generation🤯
Сегодня Вы сможете пощупать новые технологии для создания контента, а именно генерация видео на основе текстового описания - Text2Video Zero-Shot
🤔 Модель Text2Video Zero-Shot состоит из несколько предварительно обученных моделей, которые используются вместе для создания видеоконтента и текстового описания.
🤓 Как это работает из коробки:
1️⃣ На основе корпуса из текстовых описаний обучается GPT-2 модель для создания последовательности маркеров, представляющих сцену и действие в видео.
2️⃣ Далее сгенерированный текст подается в препроцессор для извлечения ключевых слов, который используется для запроса в модель DALL-E от OpenAI (кстати, вы можете сгенерировать себе 1 картинку 512х512 в моем tg-боте! @gptsciencebot 👋 ).
3️⃣ Модель DALL-E генерирует набор изображений по ключевым словам. Набор изображений объединяется и формируется некая последовательность кадров.
4️⃣ Затем эта последовательность изображений обрабатывается алгоритмом style-transfer для создания единого стиля. По желанию добавляется музыкальное сопровождение.
👨💻 В итоге можно создать такое видео по запросу: Elon Musk eating donuts.
Для тех, кто не хочет заморачиваться с кодом, вот вам готовый вариант text2video❤
Сегодня Вы сможете пощупать новые технологии для создания контента, а именно генерация видео на основе текстового описания - Text2Video Zero-Shot
Для тех, кто не хочет заморачиваться с кодом, вот вам готовый вариант text2video
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥3🥰1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😱3⚡1
#GPTApplication Попробуй Kandinsky от СБЕРа 🥺
🌍 Буквально вчера вышла новая генеративная модель от Сбера - Kandinsky 2.1, которая наследует лучшие практики от DALL-E 2 и Latent Diffusion🤖
🤔 Как это работает?
Представим, что архитектура Kandinsky 2.1 - это художественная студия с тремя творцами: Image prior, CLIP и Диффузионная модель🤖
Когда рассказываешь им, что хочешь изобразить,
Image prior и CLIP работают вместе, чтобы создать единый эскиз (визуальный эмбеддинг) на основе твоих слов. Как будто они слушают описание и создают эскиз для будущей картины.
🤯 Затем эскиз передается Диффузионной модели, которая является главным художником. Модель берет эскиз и создает завершенную картину, добавляя детали и краски. В результате, получается изысканная картина, нарисованная по твоим словам.
👨💻 Попробовать сгенерировать изображения Вы можете в Telegram-боте и rudalle, или вот github репозиторий😎
Представим, что архитектура Kandinsky 2.1 - это художественная студия с тремя творцами: Image prior, CLIP и Диффузионная модель
Когда рассказываешь им, что хочешь изобразить,
Image prior и CLIP работают вместе, чтобы создать единый эскиз (визуальный эмбеддинг) на основе твоих слов. Как будто они слушают описание и создают эскиз для будущей картины.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4⚡2
#GPTEli5
Explain Like I'm 5🤓
🌍 Что такое эмбеддинг?
Представь, что у тебя есть коробка с разными игрушками, и ты хочешь упорядочить их так, чтобы было легко найти каждую игрушку. Эмбеддинг - это способ расположить все эти игрушки на полке, чтобы похожие игрушки были рядом друг с другом.
В случае с компьютерами,
Эмбеддинг кодирует слова, изображения или звуки в числа или координаты (в их векторное представление), чтобы компьютер мог понять и обработать их.
🌍 Что такое диффузионная модель?
Давайте представим, что диффузионная модель - это волшебный повар🪄 , который готовит удивительные блюда из базовых ингредиентов. Ты даешь ему набор ингредиентов (в нашем случае - эмбеддинги), и он мастерски превращает их в завершенное блюдо (картину, музыку или что-то еще).
Волшебный повар🪄 делает это постепенно, добавляя и смешивая ингредиенты на разных этапах, пока не получится готовое блюдо, которое соответствует твоим ожиданиям.
Explain Like I'm 5
Представь, что у тебя есть коробка с разными игрушками, и ты хочешь упорядочить их так, чтобы было легко найти каждую игрушку. Эмбеддинг - это способ расположить все эти игрушки на полке, чтобы похожие игрушки были рядом друг с другом.
В случае с компьютерами,
Эмбеддинг кодирует слова, изображения или звуки в числа или координаты (в их векторное представление), чтобы компьютер мог понять и обработать их.
Давайте представим, что диффузионная модель - это волшебный повар
Волшебный повар
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4🤔2🤯2⚡1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
#GPTGANS StyleGAN-t - основной конкурент Диффузионным моделям
⌛️ Буквально час назад вышла новость про новый StyleGAN-t, который стал еще производительнее!
🤯 Разработчики из Autonomous Vision заявляют, что теперь можно генерировать видео в разрешении 512х512 за 0.1 секунду!
😍 StyleGAN-T значительно превосходит предыдущие GAN и модели дистиллированной диффузии с точки зрения качества и скорости выборки.
🥄 У генеративно-состязательных сетей (GAN) есть потенциал для создания высококачественных изображений из текстовых описаний за один прямой проход, но в настоящее время они отстают от современных моделей в крупномасштабном синтезе текста в изображение.
Представляю вашему вниманию ссылку на github репозиторий, а также пример генерации видео в разрешении 512х512🥺
Представляю вашему вниманию ссылку на github репозиторий, а также пример генерации видео в разрешении 512х512
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🥰4🐳4❤🔥3👍1🔥1👏1🎉1👾1
#GPTApplication Fine-Tuning ChatGPT для вашего бизнеса 🤑
Я дообучил ChatGPT на своих данных и добавил к ней личность ресторанного критика в космосе.
🥄 Cosmo-Restocritic GPT путешествует по галактикам и пробует самые интересные и вкусные космические блюда!
🟥 В рамках эксперимента я буду использовать сгенерированные с помощью ChatGPT синтезированные данные.
1️⃣ x QA данных в .json для обучения на y тему.
В моем случае я попросил ChatGPT сгенерировать 200 QA на тему эксплорации космоса, космической медицины и туризма в формате json:
2️⃣ OPEN-API-KEY https://platform.openai.com/account/api-keys
🤓 Итоги эксперимента:
👍 Обучение модели обошлось мне в 1$.
😜 Личность GPT работает как нужно, создавайте своих JarvisGPT.
🥄 Если вы и вправду хотите зафайнтюнить ChatGPT, нужно кардинально изменять и улучшать .json файл и доменную область, потому что ChatGPT дообучить практически невозможно)
Если хотите сами попробовать создать свой личный Cosmo-Restocritic GPT, весь код я выложил тут:
https://github.com/sokoloveav/fine-tune-chatgpt
Еще буду очень признателен, если вы посоветуете @gptscience вашим друзьям! Канал еще очень крохотный, поэтому требует вашей поддержки❤
Я дообучил ChatGPT на своих данных и добавил к ней личность ресторанного критика в космосе.
В моем случае я попросил ChatGPT сгенерировать 200 QA на тему эксплорации космоса, космической медицины и туризма в формате json:
{«prompt": "<prompt text>", "completion": "<ideal generated text>"},
https://github.com/sokoloveav/fine-tune-chatgpt
Еще буду очень признателен, если вы посоветуете @gptscience вашим друзьям! Канал еще очень крохотный, поэтому требует вашей поддержки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥7❤🔥3👾3👎1🎉1🤩1🕊1💋1