🎓GPT или «Я вгрызаюсь в тело текста»
Скормил GPT тексты Сергея Курехина, известного своими авангардными экспериментами в группах Аквариум и Поп-Механика, и подал текст, выделенный жирным, как затравку. Все что дальше — генерация.
***
Эффект Сантьяго или Философия общего тела через эффект микроафазии, как основной феномен современного дискурса.
Условия возникновения речи, в принципе, исходят из афатических состояний и тесной связи восприятия речи с эффектом микроафазии, или говоря иначе, “эффектом встречи Я с контекстом и его деформацией через речь”.
Именно это и называют «эффектом Сантьяго». Хотя существуют и другие похожие эффекты, такие как ложное узнавание Я через фигуру речи и т.д.
Именно «эффект Сантьяго» является развитием теории монтажа, где важнейшую роль играет концепт — зеркало, т.е. определенная попытка посмотреть на себя через Другого. Парадоксальная по своей сути попытка взглянуть на себя через призму своей же собственной культурно-семиотической среды.
Теперь скажем пару слов о свойствах и характере этого эффекта. Основной функцией, которая связана с эффектом микроафазии, является функция поверхностной структуры.
Парадигма нужна для комплексного удовлетворяющего объяснения того, что лежит в некотором чистом опыте, а здесь мы говорим о тех явлениях, которые связанны с восприятием, а не явлениями как таковыми, с апофатическими условиями возникновения парадигм и неизбежности их возникновения.
Все существует в некоем контексте, в каком-то смысле, в специфической среде. Это означает, что любая коммуникация всегда имеет две стороны – одна сторона – это содержание, вторая — форма, необходимая для осуществления коммуникации.
Поэтому, вопрос о познании другого может быть поставлен только тогда, когда мы постулируем, что Другой, каким бы он ни был, не может быть познан иначе, кроме как через наши субьективации.
Эффект Сантьяго проявляется в том, что отношение индивида к окружающему миру, к Другому, а также к самому себе всегда существует вне некой коммуникативной среды.
А эффект Сантьяго — ощущение своего узнавания в глазах Другого. Рекурсивная интерпретация любого апофатического состояния. Именно некоммуникативность этого конструкта и определяет эффект Сантьяго как фундаментальную диалектическую причину. Это и есть постоянная попытка и ощущение своего узнавания.
***
p.s.: имхо, ничем не хуже реальных философов, и для курсовых gpt уже точно гордится!
Скормил GPT тексты Сергея Курехина, известного своими авангардными экспериментами в группах Аквариум и Поп-Механика, и подал текст, выделенный жирным, как затравку. Все что дальше — генерация.
***
Эффект Сантьяго или Философия общего тела через эффект микроафазии, как основной феномен современного дискурса.
Условия возникновения речи, в принципе, исходят из афатических состояний и тесной связи восприятия речи с эффектом микроафазии, или говоря иначе, “эффектом встречи Я с контекстом и его деформацией через речь”.
Именно это и называют «эффектом Сантьяго». Хотя существуют и другие похожие эффекты, такие как ложное узнавание Я через фигуру речи и т.д.
Именно «эффект Сантьяго» является развитием теории монтажа, где важнейшую роль играет концепт — зеркало, т.е. определенная попытка посмотреть на себя через Другого. Парадоксальная по своей сути попытка взглянуть на себя через призму своей же собственной культурно-семиотической среды.
Теперь скажем пару слов о свойствах и характере этого эффекта. Основной функцией, которая связана с эффектом микроафазии, является функция поверхностной структуры.
Парадигма нужна для комплексного удовлетворяющего объяснения того, что лежит в некотором чистом опыте, а здесь мы говорим о тех явлениях, которые связанны с восприятием, а не явлениями как таковыми, с апофатическими условиями возникновения парадигм и неизбежности их возникновения.
Все существует в некоем контексте, в каком-то смысле, в специфической среде. Это означает, что любая коммуникация всегда имеет две стороны – одна сторона – это содержание, вторая — форма, необходимая для осуществления коммуникации.
Поэтому, вопрос о познании другого может быть поставлен только тогда, когда мы постулируем, что Другой, каким бы он ни был, не может быть познан иначе, кроме как через наши субьективации.
Эффект Сантьяго проявляется в том, что отношение индивида к окружающему миру, к Другому, а также к самому себе всегда существует вне некой коммуникативной среды.
А эффект Сантьяго — ощущение своего узнавания в глазах Другого. Рекурсивная интерпретация любого апофатического состояния. Именно некоммуникативность этого конструкта и определяет эффект Сантьяго как фундаментальную диалектическую причину. Это и есть постоянная попытка и ощущение своего узнавания.
***
p.s.: имхо, ничем не хуже реальных философов, и для курсовых gpt уже точно гордится!
👍39❤5👎3😢2
💩 А я сейчас вам покажу, откуда на Белорусь готовилась генерация.
👍36👎8😢7❤3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳Китайцы подвезли дипфейки на стеройдах
Все мы видели дипфейки, где подменяются лица. Эта статья пошла дальше, тут меняют все голову целиком. Чудеса китайской инженерии и 300 лоссов делают свою дело 🤓.
По сравнению с обычным "face swap"-ом, новый метод лучше переносит личность с целевой фотографии на видео, сохраняя прическу, брови, и другие атрибуты. Осталось только немного улучшить покадровую стабильность - контуры головы немного дёргабтся. Кода пока нет, но обещают скоро залить.
❱❱ Few-Shot Head Swapping in the Wild
Все мы видели дипфейки, где подменяются лица. Эта статья пошла дальше, тут меняют все голову целиком. Чудеса китайской инженерии и 300 лоссов делают свою дело 🤓.
По сравнению с обычным "face swap"-ом, новый метод лучше переносит личность с целевой фотографии на видео, сохраняя прическу, брови, и другие атрибуты. Осталось только немного улучшить покадровую стабильность - контуры головы немного дёргабтся. Кода пока нет, но обещают скоро залить.
❱❱ Few-Shot Head Swapping in the Wild
👍42🔥1
🚀 Meta AI опенсорсит OPT 175B, аналог GPT3
Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет):
«Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого. Он написал: «For sale, baby shoes, never worn» (с англ. — «Продаются детские ботиночки. Неношеные»), и выиграл спор.»
Можно ли написать самую короткую AI новость, пост, способный растрогать любого?
«Meta AI обучили GPT 175B. Open Source»
🎓 p.s.: Возникают разумные вопросы, на которые постараюсь дать ответы:
Q: Зачем?
A: Чтобы было. OpenAI не релизнули, а мы вот да.
Q: А сильный буст в сравнении с 20B от EleutherAI?
A: Имхо, для большинства задач 20B с головой, но мы знаем, что на некоторые таски решаются лишь с 175B или с 540B.
Q: И как, OPT от Meta AI сопоставим с GPT-3 от OpenAI?
A: Результаты Meta AI в среднем чуть хуже, чем у OpenAI, 14 NLP Tasks. Но зависит от задачи. Hate speech detection вот лучше.
📄 paper
🖥 code и веса будут тут 👈
Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет):
«Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого. Он написал: «For sale, baby shoes, never worn» (с англ. — «Продаются детские ботиночки. Неношеные»), и выиграл спор.»
Можно ли написать самую короткую AI новость, пост, способный растрогать любого?
«Meta AI обучили GPT 175B. Open Source»
🎓 p.s.: Возникают разумные вопросы, на которые постараюсь дать ответы:
Q: Зачем?
A: Чтобы было. OpenAI не релизнули, а мы вот да.
Q: А сильный буст в сравнении с 20B от EleutherAI?
A: Имхо, для большинства задач 20B с головой, но мы знаем, что на некоторые таски решаются лишь с 175B или с 540B.
Q: И как, OPT от Meta AI сопоставим с GPT-3 от OpenAI?
A: Результаты Meta AI в среднем чуть хуже, чем у OpenAI, 14 NLP Tasks. Но зависит от задачи. Hate speech detection вот лучше.
📄 paper
🖥 code и веса будут тут 👈
❤24👍11
Forwarded from DL in NLP (Vlad Lialin)
Подробнее о тренировке OPT — огромной языковой модели с 175B параметров от Meta AI
Чем глубже погружаешься в методы тренировки больших моделей, тем больше понимаешь насколько там боли. С одной стороны у тебя может быть 1000 GPU, но как заставить их работать вместе и что делать когда модель начинает расходиться?
Для обучения OPT использовали коктейль из
1. MegatronDeepSpeed — эффективный tensor parallel
1. NVIDIA Apex — mixed precision
1. Fairscale — fully-sharded data parallel и элистичность тренировки, т.е. чтобы когда умирала какая-то GPU вся тренировка не останавливалась
Модель максимально близка к GPT3. Та же максимальная длина в 2048 токенов, тот же токенизатор от GPT2, ReLU. Pre-norm или post-norm в статье на написано, но предполагаю что pre-norm. Использовали обычный fp16 для весов модели, а ADAM был в fp32.
Данные это смесь данных RoBERTa (BookCorpus, Stories, CCNews), часть The Pile, и PushShift.io Reddit. Дедуплицировали документы с помощью Min-hashLSH, сказали что в The Pile очень много дубликатов. В конце-концов получилось 180B токенов.
Самое весёлое: процесс тренировки. Тренировали самую большую модель 2 месяца, её приходилось вручную перезапускать 35 раз. Автоматически она перезапустилась ещё 70. То есть в среднем чаще чем раз в день с тренировкой что-то происходило. При ручном перезапуске делали диагностику hardware и выключали сломанные ноды. Когда лосс начинал резко расти, модель откатывали до последнего чекпоинта и уменьшали LR. Кроме этого в начале тренировки использовали очень маленький gradient clipping в 0.3.
Вот когда я разчувствовался при чтении статьи это на секции где авторы описывают что во время тренировки они пытались менять оптимизатор в ADAMW на SGD (не помогло, вернули обратно), ресетить скейлинг лосса (это когда мы лосс умножаем на некоторое число, чтобы подсчёт градиентов был более численно стабильным, важно для fp16) и даже менять версию Megatron. У кого-то были напряжённые недели.
Кажется 2022 запомнится демократизацией доступа к большим моделям, что может привести к куче ноывых интересных статей как эти модели применять на практике и какие у них есть косяки. Stay tuned.
Чем глубже погружаешься в методы тренировки больших моделей, тем больше понимаешь насколько там боли. С одной стороны у тебя может быть 1000 GPU, но как заставить их работать вместе и что делать когда модель начинает расходиться?
Для обучения OPT использовали коктейль из
1. MegatronDeepSpeed — эффективный tensor parallel
1. NVIDIA Apex — mixed precision
1. Fairscale — fully-sharded data parallel и элистичность тренировки, т.е. чтобы когда умирала какая-то GPU вся тренировка не останавливалась
Модель максимально близка к GPT3. Та же максимальная длина в 2048 токенов, тот же токенизатор от GPT2, ReLU. Pre-norm или post-norm в статье на написано, но предполагаю что pre-norm. Использовали обычный fp16 для весов модели, а ADAM был в fp32.
Данные это смесь данных RoBERTa (BookCorpus, Stories, CCNews), часть The Pile, и PushShift.io Reddit. Дедуплицировали документы с помощью Min-hashLSH, сказали что в The Pile очень много дубликатов. В конце-концов получилось 180B токенов.
Самое весёлое: процесс тренировки. Тренировали самую большую модель 2 месяца, её приходилось вручную перезапускать 35 раз. Автоматически она перезапустилась ещё 70. То есть в среднем чаще чем раз в день с тренировкой что-то происходило. При ручном перезапуске делали диагностику hardware и выключали сломанные ноды. Когда лосс начинал резко расти, модель откатывали до последнего чекпоинта и уменьшали LR. Кроме этого в начале тренировки использовали очень маленький gradient clipping в 0.3.
Вот когда я разчувствовался при чтении статьи это на секции где авторы описывают что во время тренировки они пытались менять оптимизатор в ADAMW на SGD (не помогло, вернули обратно), ресетить скейлинг лосса (это когда мы лосс умножаем на некоторое число, чтобы подсчёт градиентов был более численно стабильным, важно для fp16) и даже менять версию Megatron. У кого-то были напряжённые недели.
Кажется 2022 запомнится демократизацией доступа к большим моделям, что может привести к куче ноывых интересных статей как эти модели применять на практике и какие у них есть косяки. Stay tuned.
👍36❤2😢1
Мишин Лернинг 🇺🇦🇮🇱
🚀 Meta AI опенсорсит OPT 175B, аналог GPT3 Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет): «Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого.…
🔓🧠 Код OPT (175B GPT-3 от Meta AI) доступен
Доступен код тренировки, инференса и сами веса моделей.
• Веса моделей OPT-125M, OPT-350M, OPT-1.3B, OPT-2.7B, OPT-6.7B, OPT-13B, OPT-30B уже доступны для скачивания (семь моделей для скачивания, ссылку привОз)
• Веса 66B модели будут доступны в ближайшее время
• Запросить доступ к 175B можно по этой ссылке
Доступен код тренировки, инференса и сами веса моделей.
• Веса моделей OPT-125M, OPT-350M, OPT-1.3B, OPT-2.7B, OPT-6.7B, OPT-13B, OPT-30B уже доступны для скачивания (семь моделей для скачивания, ссылку привОз)
• Веса 66B модели будут доступны в ближайшее время
• Запросить доступ к 175B можно по этой ссылке
GitHub
metaseq/projects/OPT at main · facebookresearch/metaseq
Repo for external large-scale work. Contribute to facebookresearch/metaseq development by creating an account on GitHub.
❤17👍10