🔥Consistency Models [OpenAI]
Что там по ускорению диффузионных моделей?
Чтобы сгенерить нормальный арт нужны десятки шагов диффузионной модели. Можнно, конечно, дистиллировать жирную модель в более легкую, но все равно более-менее хороший результат будет требовать нескольких итераций вычисления нейронки.
Челики из OpenAI дальше пытаются ускорять синтез. И в этой статье предложили новый тип генеративных моделей — Consistency Models, которые в целом связаны диффузионными моделями через фомулировку с помощью ОДУ (Обыкновенные Дифференциальные Уравнения), вот только Consistency Models могут работать за один шаг.
Новая модель достигает FID = 3.55 on CIFAR-10 и FID=6.20 на ImageNet 64x64 за один шаг. Что лучше чем все предыдущие методы дистиляции. Но все еще слабее чем самые толстые Ганы типа StyleGAN-XL и BigGAN-deep.
Прогресс идет и, думаю, скоро последуют дальнейшие улучшения. Статью читать стоит.
❱❱ ArXiv
@ai_newz
Что там по ускорению диффузионных моделей?
Чтобы сгенерить нормальный арт нужны десятки шагов диффузионной модели. Можнно, конечно, дистиллировать жирную модель в более легкую, но все равно более-менее хороший результат будет требовать нескольких итераций вычисления нейронки.
Челики из OpenAI дальше пытаются ускорять синтез. И в этой статье предложили новый тип генеративных моделей — Consistency Models, которые в целом связаны диффузионными моделями через фомулировку с помощью ОДУ (Обыкновенные Дифференциальные Уравнения), вот только Consistency Models могут работать за один шаг.
Новая модель достигает FID = 3.55 on CIFAR-10 и FID=6.20 на ImageNet 64x64 за один шаг. Что лучше чем все предыдущие методы дистиляции. Но все еще слабее чем самые толстые Ганы типа StyleGAN-XL и BigGAN-deep.
Прогресс идет и, думаю, скоро последуют дальнейшие улучшения. Статью читать стоит.
❱❱ ArXiv
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Я заметил, что появился новый продукт Adobe Podcast (пока в beta). Топовая херня с AI под капотом для записи подкастов и нарративов.
Основные фичи, использующие нейронки:
- Enhance Speech, которая позволяет улучшить качество звука вашей записи, удаляя фоновый шум и усиливаяя частоты вашего голоса, чтобы ваша речь звучала так, как будто бы она была записана в профессиональной студии. Из побочных эффектов -- он не совсем хорошо сохраняет идентичность рассказчика и слегка меняет тембр голоса.
- Редактирование слов, а не волновых форм [моя любимая фича]. Прогоняется speech2text нейронка, а затем вы можете легко удалять или перемещать слова в транскрипте аудио и видеть изменения в звуке. Это позволяет вам быстро исправлять ошибки или убирать лишнее.
- Mic Check с помошью AI. Помогает подобрать оптимальные параметры и расстояние до микрофона перед записью.
В планах у Адоби еще добавить автоматичечкий фильтр слов паразитов и всяких "эээ", "ммм". Киллер фича будет для начинающих подкастеров.
@ai_newz
Основные фичи, использующие нейронки:
- Enhance Speech, которая позволяет улучшить качество звука вашей записи, удаляя фоновый шум и усиливаяя частоты вашего голоса, чтобы ваша речь звучала так, как будто бы она была записана в профессиональной студии. Из побочных эффектов -- он не совсем хорошо сохраняет идентичность рассказчика и слегка меняет тембр голоса.
- Редактирование слов, а не волновых форм [моя любимая фича]. Прогоняется speech2text нейронка, а затем вы можете легко удалять или перемещать слова в транскрипте аудио и видеть изменения в звуке. Это позволяет вам быстро исправлять ошибки или убирать лишнее.
- Mic Check с помошью AI. Помогает подобрать оптимальные параметры и расстояние до микрофона перед записью.
В планах у Адоби еще добавить автоматичечкий фильтр слов паразитов и всяких "эээ", "ммм". Киллер фича будет для начинающих подкастеров.
@ai_newz
Я протестил Enhance Speech от Адоби на своем голосе. Клево работает, качество и правда взлетает! Вот только он меняет тембр голоса, и после "улучшения" слегка теряется идентичность человека.
@ai_newz
@ai_newz
Adobe
Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio
This AI audio filter improves spoken audio to make it sound like it was recorded in a soundproofed studio.
This media is not supported in your browser
VIEW IN TELEGRAM
❤️🔥Вышел апдейт плагина Stable Diffusion V1.2.0 для Photoshop, включающий ControlNet
- Поддержка ControlNet (особенно круто генерит по скетчам в моде "canny")
- Устанавливаешь в один клик и наслаждаешься работой.
- Добавлен режим "Heal Brush", который позволяет легко удалять любые объекты или предметы из любого изображения.
- Live Preview результатов генерации
- Можно гонять как на локальной GPU, так и в облаке
Все-таки это огромный переворот в том, как сейчас должны работать успешные художники и дизайнеры.
GitHub
@ai_newz
- Поддержка ControlNet (особенно круто генерит по скетчам в моде "canny")
- Устанавливаешь в один клик и наслаждаешься работой.
- Добавлен режим "Heal Brush", который позволяет легко удалять любые объекты или предметы из любого изображения.
- Live Preview результатов генерации
- Можно гонять как на локальной GPU, так и в облаке
Все-таки это огромный переворот в том, как сейчас должны работать успешные художники и дизайнеры.
GitHub
@ai_newz
У активного ресерчера по Computer Vision обычна два тяжёлых периода в году. Это март–май, когда дедлайны на ICCV, ECCV, NeurIPS, и ноябрь, когда нужно херачить на CVPR. Всё это топовые конференции по AI и компьютерному зрению, которые стараются не пропускать.
Сейчас период ICCV+NeurIPS. И сегодня ночью дедлайн подачи статей на ICCV. Короче, я сижу в офисе, пишу-переписываю текст и подгоняю студентов с картинками и экспериментами.
Удачи всем с сабмитами! А прекрасную половину ещё и с праздником!🌹
#карьера
@ai_newz
Сейчас период ICCV+NeurIPS. И сегодня ночью дедлайн подачи статей на ICCV. Короче, я сижу в офисе, пишу-переписываю текст и подгоняю студентов с картинками и экспериментами.
Удачи всем с сабмитами! А прекрасную половину ещё и с праздником!🌹
#карьера
@ai_newz
Ёк-макарёк. Засабмитили 4 статьи на ICCV вчера. Часть из них, правда, ресабмиты с CVPR, но все же работы было много! Скоро все будет на архиве.
Ещё в ближайшую неделю я наконец залью свою статью, принятую на CVPR.
Мало кто знает, но мы в Meta можем довольно свободно коллаборировать с университетами. Например, я уже год как супервайжу 2-3 PhD студента.
#карьера
@ai_newz
Ещё в ближайшую неделю я наконец залью свою статью, принятую на CVPR.
Мало кто знает, но мы в Meta можем довольно свободно коллаборировать с университетами. Например, я уже год как супервайжу 2-3 PhD студента.
#карьера
@ai_newz
Друзья, после плотной работы всегда нужен хороший отдых. Поэтому я сейчас немного пропал из эфира. Полетел перезаряжаться на Азоры. Природа, хайки и серфинг каждый день, и никакого интернета!
Покатался на лошади. По ощущениям как беспилотный мотоцикл, который сам знает как ехать и как держать дорогу, но в то же время позволяет тебе слегка подруливать направление. Если хотите примерно понять, как будет ощущаться транспорт будущего, в котором встроен мощный интеллект, попробуйте верховую езду 😃.
@ai_newz
Покатался на лошади. По ощущениям как беспилотный мотоцикл, который сам знает как ехать и как держать дорогу, но в то же время позволяет тебе слегка подруливать направление. Если хотите примерно понять, как будет ощущаться транспорт будущего, в котором встроен мощный интеллект, попробуйте верховую езду 😃.
@ai_newz
AI Residency – это супер возможность вкатиться поглубже в AI и поработать в крутой ресерч лабе. Обычно это эдакий разогрев перед PhD, чтобы лучше понять чем хотите заниматься.
Я наткнулся на гитхаб со списком AI Residency программ. Думаю тут много кому это будет интересно.
Вот некоторые из позиций:
- OpenAI Residency-Research
- Meta AI Residency
- Microsoft Research: Postdoc Residency Program
- Microsoft+Cambridge Residency Program: Researcher on Large Language Models for End-User Programming
- Apple The 2023 AIML Residency Program
- Toyota Research Institute AI Resident
Больше ссылок на программы в репозитории. Дерзайте и подавайте, за попытку с вас ничего не возьмут!
@ai_newz
Я наткнулся на гитхаб со списком AI Residency программ. Думаю тут много кому это будет интересно.
Вот некоторые из позиций:
- OpenAI Residency-Research
- Meta AI Residency
- Microsoft Research: Postdoc Residency Program
- Microsoft+Cambridge Residency Program: Researcher on Large Language Models for End-User Programming
- Apple The 2023 AIML Residency Program
- Toyota Research Institute AI Resident
Больше ссылок на программы в репозитории. Дерзайте и подавайте, за попытку с вас ничего не возьмут!
@ai_newz
GitHub
GitHub - dangkhoasdc/awesome-ai-residency: List of AI Residency Programs
List of AI Residency Programs. Contribute to dangkhoasdc/awesome-ai-residency development by creating an account on GitHub.
🔥Вышла GPT-4!
https://openai.com/research/gpt-4
Теперь модель ещё может принимать и картинки на вход. В ответ выдает все ещё только текст. Ну, и конечно, модель более серьезно надрессировали не выходить за рамки дозволенного.
Пишут, что на многих бенчмарках новая модель конкретно бьет предыдущую GPT-3.5. В том числе на датасете экзаменов по разным предметам.
Без паники, господа программисты. Выдыхаем (пока). GPT-4 все ещё сосет на задачах с Codeforces – модель входит только в нижние 5% по рейтингу.
OpenAI в своем обычном стиле закрытого ИИ не делятся деталями. Не рассказали ни про архитектуру, ни даже про количество параметров 🙄.
По ссылке можно стать в очередь на доступ к API GPT-4.
@ai_newz
https://openai.com/research/gpt-4
Теперь модель ещё может принимать и картинки на вход. В ответ выдает все ещё только текст. Ну, и конечно, модель более серьезно надрессировали не выходить за рамки дозволенного.
Пишут, что на многих бенчмарках новая модель конкретно бьет предыдущую GPT-3.5. В том числе на датасете экзаменов по разным предметам.
Без паники, господа программисты. Выдыхаем (пока). GPT-4 все ещё сосет на задачах с Codeforces – модель входит только в нижние 5% по рейтингу.
OpenAI в своем обычном стиле закрытого ИИ не делятся деталями. Не рассказали ни про архитектуру, ни даже про количество параметров 🙄.
По ссылке можно стать в очередь на доступ к API GPT-4.
@ai_newz
Метаискусство: может ли робот сочинить симфонию
V–A–C Sreda
🎙Метаискусство: может ли робот сочинить симфонию?
Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.
В подкасте мы провели эксперимент, где мне и другим гостям (медиа-художник, звукорежиссер и звукоинженер) нужно было угадать, какая композиция была сгенерирована, а какая создана человеком. Cлушая этот выпуск, вы можете вместе со мной попытаться найти сгенерированые треки.
Кстати, фоновая музыка в подкасте, а также большая часть текста ведущего тоже были сгенерированы нейросетью.
Слушать на других платформах:
- Apple Podcasts
- Spotify
@ai_newz
Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.
В подкасте мы провели эксперимент, где мне и другим гостям (медиа-художник, звукорежиссер и звукоинженер) нужно было угадать, какая композиция была сгенерирована, а какая создана человеком. Cлушая этот выпуск, вы можете вместе со мной попытаться найти сгенерированые треки.
Кстати, фоновая музыка в подкасте, а также большая часть текста ведущего тоже были сгенерированы нейросетью.
Слушать на других платформах:
- Apple Podcasts
- Spotify
@ai_newz
эйай ньюз
V–A–C Sreda – Метаискусство: может ли робот сочинить симфонию
Кстати, это был мой первый опыт подкастинга (хоть и как гостя), и мне очень понравилось, классный выпуск получился.
Давно размышляю о том, чтобы сделать свой подкаст. Было ли бы вам интересно слушать мой подкаст о нейронках и AI науке? Напишите в комментах, предложите, какие темы можно было бы обсудить в формате подкаста.
Во время пандемии я завел youtube канал, где делал обзоры на статьи. Но надолго меня не хватило, очень много времени уходило на один ролик. Думаю, формат подкаста должен быть более легковесный.
Давно размышляю о том, чтобы сделать свой подкаст. Было ли бы вам интересно слушать мой подкаст о нейронках и AI науке? Напишите в комментах, предложите, какие темы можно было бы обсудить в формате подкаста.
Во время пандемии я завел youtube канал, где делал обзоры на статьи. Но надолго меня не хватило, очень много времени уходило на один ролик. Думаю, формат подкаста должен быть более легковесный.
Telegram
эйай ньюз
🎙Метаискусство: может ли робот сочинить симфонию?
Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.
В подкасте мы провели…
Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.
В подкасте мы провели…
Чтобы немного поубавить хайп, вот вам наброс. Со слов самой GPT-4, она обладает рядом недостатков, делающих ее не прорывной, а проходной технологией:
1. Ограниченное понимание: GPT-4, как и другие модели, основанные на языке, не обладает истинным пониманием языка или контекста. Они обучены на основе статистических закономерностей и корреляций в данных, но не могут осмыслить предложения и понятия так, как делают люди.
2. Завышенные ожидания: Многие СМИ и блогеры могут представлять GPT-4 как "революцию" или "прорыв" в области искусственного интеллекта, что может привести к нереалистичным ожиданиям относительно его возможностей. Это может привести к разочарованию, когда модель не оправдывает надежды.
3. Ограничения в области творчества: GPT-4, хотя и способна генерировать тексты, изображения и музыку, в конечном итоге зависит от обучающих данных, собранных от людей. Оно не способно создавать истинно оригинальное искусство или идеи, что ограничивает его применимость в творческих областях.
4. Зависимость от больших объемов данных: GPT-4 требует огромного количества данных для обучения, что может вызывать проблемы в эффективности и воздействии на окружающую среду.
5. Дорогостоящее обучение и использование: Обучение и эксплуатация модели GPT-4 требует значительных вычислительных ресурсов, что делает их дорогостоящими и менее доступными для многих пользователей.
6. Непостоянство результатов: Искусственный интеллект GPT-4 может быть непредсказуемым, порождая качественно разные результаты при разных запросах или даже с небольшими изменениями ввода.
7. Сложность контроля: Ограничение и регулирование вывода GPT-4 может быть сложным процессом, поскольку модель может генерировать нецензурные, оскорбительные или нежелательные результаты, что требует дополнительных усилий для модерации и контроля.
8. Отсутствие интерпретируемости: Работа GPT-4 может быть сложна для понимания, поскольку модель имеет множество слоев и параметров, что затрудняет объяснение ее поведения.
9. Неполнота знаний: Обучение GPT-4 заканчивается на определенной дате, и модель не может учесть новые события или информацию, появившуюся после этого срока.
10. Ошибки и неточности: GPT-4 может давать неверные или неточные ответы, поскольку оно опирается на статистические закономерности, а не на глубокое понимание.
11. Зависимость от качества данных: Эффективность GPT-4 напрямую связана с качеством и объемом предоставленных обучающих данных, что может ограничивать его применимость в некоторых областях.
12. Склонность к усилению предубеждений: GPT-4 может усиливать существующие предубеждения и стереотипы, присутствующие в обучающих данных, что может привести к нежелательным результатам.
13. Отсутствие эмоционального интеллекта: GPT-4 не способно понимать или отражать эмоции, что ограничивает его способность к эффективному взаимодействию с людьми.
14. Безопасность данных: Использование GPT-4 может представлять риски для безопасности и конфиденциальности данных, особенно при обработке чувствительной информации.
15. Проблемы с авторским правом: GPT-4 может генерировать контент, который может нарушать авторские права или создавать юридические проблемы для пользователей.
GPT-4 - это только одна из многих ступеней в развитии AI. В будущем вероятно появятся более продвинутые и эффективные модели, которые могут заменить GPT-4, делая ее менее актуальной.
PS. на скрине примеры боянистых детских задачек, которые GPT-4 просто не осилила.
@ai_newz
1. Ограниченное понимание: GPT-4, как и другие модели, основанные на языке, не обладает истинным пониманием языка или контекста. Они обучены на основе статистических закономерностей и корреляций в данных, но не могут осмыслить предложения и понятия так, как делают люди.
2. Завышенные ожидания: Многие СМИ и блогеры могут представлять GPT-4 как "революцию" или "прорыв" в области искусственного интеллекта, что может привести к нереалистичным ожиданиям относительно его возможностей. Это может привести к разочарованию, когда модель не оправдывает надежды.
3. Ограничения в области творчества: GPT-4, хотя и способна генерировать тексты, изображения и музыку, в конечном итоге зависит от обучающих данных, собранных от людей. Оно не способно создавать истинно оригинальное искусство или идеи, что ограничивает его применимость в творческих областях.
4. Зависимость от больших объемов данных: GPT-4 требует огромного количества данных для обучения, что может вызывать проблемы в эффективности и воздействии на окружающую среду.
5. Дорогостоящее обучение и использование: Обучение и эксплуатация модели GPT-4 требует значительных вычислительных ресурсов, что делает их дорогостоящими и менее доступными для многих пользователей.
6. Непостоянство результатов: Искусственный интеллект GPT-4 может быть непредсказуемым, порождая качественно разные результаты при разных запросах или даже с небольшими изменениями ввода.
7. Сложность контроля: Ограничение и регулирование вывода GPT-4 может быть сложным процессом, поскольку модель может генерировать нецензурные, оскорбительные или нежелательные результаты, что требует дополнительных усилий для модерации и контроля.
8. Отсутствие интерпретируемости: Работа GPT-4 может быть сложна для понимания, поскольку модель имеет множество слоев и параметров, что затрудняет объяснение ее поведения.
9. Неполнота знаний: Обучение GPT-4 заканчивается на определенной дате, и модель не может учесть новые события или информацию, появившуюся после этого срока.
10. Ошибки и неточности: GPT-4 может давать неверные или неточные ответы, поскольку оно опирается на статистические закономерности, а не на глубокое понимание.
11. Зависимость от качества данных: Эффективность GPT-4 напрямую связана с качеством и объемом предоставленных обучающих данных, что может ограничивать его применимость в некоторых областях.
12. Склонность к усилению предубеждений: GPT-4 может усиливать существующие предубеждения и стереотипы, присутствующие в обучающих данных, что может привести к нежелательным результатам.
13. Отсутствие эмоционального интеллекта: GPT-4 не способно понимать или отражать эмоции, что ограничивает его способность к эффективному взаимодействию с людьми.
14. Безопасность данных: Использование GPT-4 может представлять риски для безопасности и конфиденциальности данных, особенно при обработке чувствительной информации.
15. Проблемы с авторским правом: GPT-4 может генерировать контент, который может нарушать авторские права или создавать юридические проблемы для пользователей.
GPT-4 - это только одна из многих ступеней в развитии AI. В будущем вероятно появятся более продвинутые и эффективные модели, которые могут заменить GPT-4, делая ее менее актуальной.
PS. на скрине примеры боянистых детских задачек, которые GPT-4 просто не осилила.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
ModelScope Text-2-Video: Китайский опенсоурс разродился открытой моделькой для генерации видео по тексту
Это первая диффузионная text2video модель с открытым кодом и опубликованными весами (1.7 млрд параметров).
Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.
Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.
Ну что, давайте побыстрее заполним интернет проклятыми видео!
Demo
Model weights
@ai_newz
Это первая диффузионная text2video модель с открытым кодом и опубликованными весами (1.7 млрд параметров).
Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.
Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.
Ну что, давайте побыстрее заполним интернет проклятыми видео!
Demo
Model weights
@ai_newz
GenAI: Персональный апдейт
Несколько недель назад Марк анонсировал, что будет создана новая организация внутри Meta – GenAI, которая будет заниматься сугубо Generative AI. Наша команда покинула Reality Labs и попала в новую организацию.
Я очень рад этому событию, ведь последний год я занимался диффузионными моделями, а теперь полный газ в пол! Но на диффузии мы, конечно, не ограничиваемся и будем искать новые эффективные модели.
Ещё бонусом теперь я смогу плотнее сотрудничать с командами из FAIR, которые создали make-a-scene и make-a-video, или ту же LLaMa, потому что мы теперь с ними в одной организации.
Exciting stuff!
#карьера #мойпуть
@ai_newz
Несколько недель назад Марк анонсировал, что будет создана новая организация внутри Meta – GenAI, которая будет заниматься сугубо Generative AI. Наша команда покинула Reality Labs и попала в новую организацию.
Я очень рад этому событию, ведь последний год я занимался диффузионными моделями, а теперь полный газ в пол! Но на диффузии мы, конечно, не ограничиваемся и будем искать новые эффективные модели.
Ещё бонусом теперь я смогу плотнее сотрудничать с командами из FAIR, которые создали make-a-scene и make-a-video, или ту же LLaMa, потому что мы теперь с ними в одной организации.
Exciting stuff!
#карьера #мойпуть
@ai_newz