эйай ньюз
71.8K subscribers
1.56K photos
835 videos
7 files
1.89K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
🔥Consistency Models [OpenAI]

Что там по ускорению диффузионных моделей?

Чтобы сгенерить нормальный арт нужны десятки шагов диффузионной модели. Можнно, конечно, дистиллировать жирную модель в более легкую, но все равно более-менее хороший результат будет требовать нескольких итераций вычисления нейронки.

Челики из OpenAI дальше пытаются ускорять синтез. И в этой статье предложили новый тип генеративных моделей — Consistency Models, которые в целом связаны диффузионными моделями через фомулировку с помощью ОДУ (Обыкновенные Дифференциальные Уравнения), вот только Consistency Models могут работать за один шаг.

Новая модель достигает FID = 3.55 on CIFAR-10 и FID=6.20 на ImageNet 64x64 за один шаг. Что лучше чем все предыдущие методы дистиляции. Но все еще слабее чем самые толстые Ганы типа StyleGAN-XL и BigGAN-deep.

Прогресс идет и, думаю, скоро последуют дальнейшие улучшения. Статью читать стоит.

❱❱ ArXiv

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Я заметил, что появился новый продукт Adobe Podcast (пока в beta). Топовая херня с AI под капотом для записи подкастов и нарративов.

Основные фичи, использующие нейронки:

- Enhance Speech, которая позволяет улучшить качество звука вашей записи, удаляя фоновый шум и усиливаяя частоты вашего голоса, чтобы ваша речь звучала так, как будто бы она была записана в профессиональной студии. Из побочных эффектов -- он не совсем хорошо сохраняет идентичность рассказчика и слегка меняет тембр голоса.

- Редактирование слов, а не волновых форм [моя любимая фича]. Прогоняется speech2text нейронка, а затем вы можете легко удалять или перемещать слова в транскрипте аудио и видеть изменения в звуке. Это позволяет вам быстро исправлять ошибки или убирать лишнее.

- Mic Check с помошью AI. Помогает подобрать оптимальные параметры и расстояние до микрофона перед записью.

В планах у Адоби еще добавить автоматичечкий фильтр слов паразитов и всяких "эээ", "ммм". Киллер фича будет для начинающих подкастеров.

@ai_newz
Я протестил Enhance Speech от Адоби на своем голосе. Клево работает, качество и правда взлетает! Вот только он меняет тембр голоса, и после "улучшения" слегка теряется идентичность человека.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
❤️‍🔥Вышел апдейт плагина Stable Diffusion V1.2.0 для Photoshop, включающий ControlNet

- Поддержка ControlNet (особенно круто генерит по скетчам в моде "canny")
- Устанавливаешь в один клик и наслаждаешься работой.
- Добавлен режим "Heal Brush", который позволяет легко удалять любые объекты или предметы из любого изображения.
- Live Preview результатов генерации
- Можно гонять как на локальной GPU, так и в облаке

Все-таки это огромный переворот в том, как сейчас должны работать успешные художники и дизайнеры.

GitHub

@ai_newz
У активного ресерчера по Computer Vision обычна два тяжёлых периода в году. Это март–май, когда дедлайны на ICCV, ECCV, NeurIPS, и ноябрь, когда нужно херачить на CVPR. Всё это топовые конференции по AI и компьютерному зрению, которые стараются не пропускать.

Сейчас период ICCV+NeurIPS. И сегодня ночью дедлайн подачи статей на ICCV. Короче, я сижу в офисе, пишу-переписываю текст и подгоняю студентов с картинками и экспериментами.

Удачи всем с сабмитами! А прекрасную половину ещё и с праздником!🌹

#карьера

@ai_newz
Ёк-макарёк. Засабмитили 4 статьи на ICCV вчера. Часть из них, правда, ресабмиты с CVPR, но все же работы было много! Скоро все будет на архиве.

Ещё в ближайшую неделю я наконец залью свою статью, принятую на CVPR.

Мало кто знает, но мы в Meta можем довольно свободно коллаборировать с университетами. Например, я уже год как супервайжу 2-3 PhD студента.

#карьера

@ai_newz
Друзья, после плотной работы всегда нужен хороший отдых. Поэтому я сейчас немного пропал из эфира. Полетел перезаряжаться на Азоры. Природа, хайки и серфинг каждый день, и никакого интернета!

Покатался на лошади. По ощущениям как беспилотный мотоцикл, который сам знает как ехать и как держать дорогу, но в то же время позволяет тебе слегка подруливать направление. Если хотите примерно понять, как будет ощущаться транспорт будущего, в котором встроен мощный интеллект, попробуйте верховую езду 😃.

@ai_newz
AI Residency – это супер возможность вкатиться поглубже в AI и поработать в крутой ресерч лабе. Обычно это эдакий разогрев перед PhD, чтобы лучше понять чем хотите заниматься.

Я наткнулся на гитхаб со списком AI Residency программ. Думаю тут много кому это будет интересно.

Вот некоторые из позиций:
- OpenAI Residency-Research
- Meta AI Residency
- Microsoft Research: Postdoc Residency Program
- Microsoft+Cambridge Residency Program: Researcher on Large Language Models for End-User Programming
- Apple The 2023 AIML Residency Program
- Toyota Research Institute AI Resident

Больше ссылок на программы в репозитории. Дерзайте и подавайте, за попытку с вас ничего не возьмут!

@ai_newz
🔥Вышла GPT-4!

https://openai.com/research/gpt-4

Теперь модель ещё может принимать и картинки на вход. В ответ выдает все ещё только текст. Ну, и конечно, модель более серьезно надрессировали не выходить за рамки дозволенного.

Пишут, что на многих бенчмарках новая модель конкретно бьет предыдущую GPT-3.5. В том числе на датасете экзаменов по разным предметам.

Без паники, господа программисты. Выдыхаем (пока). GPT-4 все ещё сосет на задачах с Codeforces – модель входит только в нижние 5% по рейтингу.

OpenAI в своем обычном стиле закрытого ИИ не делятся деталями. Не рассказали ни про архитектуру, ни даже про количество параметров 🙄.

По ссылке можно стать в очередь на доступ к API GPT-4.

@ai_newz
Метаискусство: может ли робот сочинить симфонию
V–A–C Sreda
🎙Метаискусство: может ли робот сочинить симфонию?

Всем привет! Я вернулся из отпуска. А тем временем вышел подкаст с моим участием, где мы поговорили об AI, генеративной музыке и о потенциале нейросетей для применения в творческой сфере.

В подкасте мы провели эксперимент, где мне и другим гостям (медиа-художник, звукорежиссер и звукоинженер) нужно было угадать, какая композиция была сгенерирована, а какая создана человеком. Cлушая этот выпуск, вы можете вместе со мной попытаться найти сгенерированые треки.

Кстати, фоновая музыка в подкасте, а также большая часть текста ведущего тоже были сгенерированы нейросетью.

Слушать на других платформах:
- Apple Podcasts
- Spotify

@ai_newz
эйай ньюз
V–A–C Sreda – Метаискусство: может ли робот сочинить симфонию
Кстати, это был мой первый опыт подкастинга (хоть и как гостя), и мне очень понравилось, классный выпуск получился.

Давно размышляю о том, чтобы сделать свой подкаст. Было ли бы вам интересно слушать мой подкаст о нейронках и AI науке? Напишите в комментах, предложите, какие темы можно было бы обсудить в формате подкаста.

Во время пандемии я завел youtube канал, где делал обзоры на статьи. Но надолго меня не хватило, очень много времени уходило на один ролик. Думаю, формат подкаста должен быть более легковесный.
Чтобы немного поубавить хайп, вот вам наброс. Со слов самой GPT-4, она обладает рядом недостатков, делающих ее не прорывной, а проходной технологией:

1. Ограниченное понимание: GPT-4, как и другие модели, основанные на языке, не обладает истинным пониманием языка или контекста. Они обучены на основе статистических закономерностей и корреляций в данных, но не могут осмыслить предложения и понятия так, как делают люди.

2. Завышенные ожидания: Многие СМИ и блогеры могут представлять GPT-4 как "революцию" или "прорыв" в области искусственного интеллекта, что может привести к нереалистичным ожиданиям относительно его возможностей. Это может привести к разочарованию, когда модель не оправдывает надежды.

3. Ограничения в области творчества: GPT-4, хотя и способна генерировать тексты, изображения и музыку, в конечном итоге зависит от обучающих данных, собранных от людей. Оно не способно создавать истинно оригинальное искусство или идеи, что ограничивает его применимость в творческих областях.

4. Зависимость от больших объемов данных: GPT-4 требует огромного количества данных для обучения, что может вызывать проблемы в эффективности и воздействии на окружающую среду.

5. Дорогостоящее обучение и использование: Обучение и эксплуатация модели GPT-4 требует значительных вычислительных ресурсов, что делает их дорогостоящими и менее доступными для многих пользователей.

6. Непостоянство результатов: Искусственный интеллект GPT-4 может быть непредсказуемым, порождая качественно разные результаты при разных запросах или даже с небольшими изменениями ввода.

7. Сложность контроля: Ограничение и регулирование вывода GPT-4 может быть сложным процессом, поскольку модель может генерировать нецензурные, оскорбительные или нежелательные результаты, что требует дополнительных усилий для модерации и контроля.

8. Отсутствие интерпретируемости: Работа GPT-4 может быть сложна для понимания, поскольку модель имеет множество слоев и параметров, что затрудняет объяснение ее поведения.

9. Неполнота знаний: Обучение GPT-4 заканчивается на определенной дате, и модель не может учесть новые события или информацию, появившуюся после этого срока.

10. Ошибки и неточности: GPT-4 может давать неверные или неточные ответы, поскольку оно опирается на статистические закономерности, а не на глубокое понимание.

11. Зависимость от качества данных: Эффективность GPT-4 напрямую связана с качеством и объемом предоставленных обучающих данных, что может ограничивать его применимость в некоторых областях.

12. Склонность к усилению предубеждений: GPT-4 может усиливать существующие предубеждения и стереотипы, присутствующие в обучающих данных, что может привести к нежелательным результатам.

13. Отсутствие эмоционального интеллекта: GPT-4 не способно понимать или отражать эмоции, что ограничивает его способность к эффективному взаимодействию с людьми.

14. Безопасность данных: Использование GPT-4 может представлять риски для безопасности и конфиденциальности данных, особенно при обработке чувствительной информации.

15. Проблемы с авторским правом: GPT-4 может генерировать контент, который может нарушать авторские права или создавать юридические проблемы для пользователей.

GPT-4 - это только одна из многих ступеней в развитии AI. В будущем вероятно появятся более продвинутые и эффективные модели, которые могут заменить GPT-4, делая ее менее актуальной.

PS. на скрине примеры боянистых детских задачек, которые GPT-4 просто не осилила.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
ModelScope Text-2-Video: Китайский опенсоурс разродился открытой моделькой для генерации видео по тексту

Это первая диффузионная text2video модель с открытым кодом и опубликованными весами (1.7 млрд параметров).

Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.

Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.

Ну что, давайте побыстрее заполним интернет проклятыми видео!

Demo
Model weights

@ai_newz
GenAI: Персональный апдейт

Несколько недель назад Марк анонсировал, что будет создана новая организация внутри Meta – GenAI, которая будет заниматься сугубо Generative AI. Наша команда покинула Reality Labs и попала в новую организацию.

Я очень рад этому событию, ведь последний год я занимался диффузионными моделями, а теперь полный газ в пол! Но на диффузии мы, конечно, не ограничиваемся и будем искать новые эффективные модели.

Ещё бонусом теперь я смогу плотнее сотрудничать с командами из FAIR, которые создали make-a-scene и make-a-video, или ту же LLaMa, потому что мы теперь с ними в одной организации.

Exciting stuff!

#карьера #мойпуть

@ai_newz