Градиентное погружение
4.61K subscribers
179 photos
11 videos
10 files
164 links
Обсуждаем новости, рассказываем про ML с кодом и колабом, выигрываем соревы 🏆

Контакты: @Cene655, @Cucu_LaPraline
Download Telegram
Forwarded from тоже моушн
Media is too big
VIEW IN TELEGRAM
исследователи из гугла на днях выложили алгоритм frame interpolation. он умеет делать что то типа оживших фото из гарри поттера - гифку из набора картинок. так вот он неожиданно хорошо показал себя при замедлении анимаций сделанных в VQGAN+CLIP, pytti или Disco Diffusion. собрал это дело в колаб!

frame interpolation on github
demo video on youtube
colab notebook
Это не шутка, катбуст рекламируют на стендах.
Интересно, какая у них конверсия?

Кст, оказалась, что звездочку приписывают не просто так, а потому что могут влепить штраф
🤩12
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
CLIPasso: AI Создает скетчи по картинкам

В этой статье комбинируется дифференциальный рендеринг и CLIP. И, конечно, никакой это не настоящий AI 😅

Вот как это работает:
По картинке предсказываются приблизительные параметры линий, составляющих карандашный набросок. Затем параметрическое представление линий растеризуется и кормится в CLIP для вычисления похожести наброска с оригинальным изображением. Ошибка пропихивается назад до параметров линий и они итеративно обновляются, увеличивая совпадение со входной картинкой.

>> Папира >> Страница проекта
MusicBot - работает за вас, крутится у нас ⚡️

Мы готовы представить вам бета версию нашего нового мультитаск бота 🔥

Что он умеет? Ну вообще 3 вещи:
1️⃣ Создавать музыку в разных жанрах: calm, jazz, classic, pop
2️⃣ Общаться на английском (диалоговый бот)
3️⃣ Радовать вас результатом

Хотим заметить, что бот будет работать только ближайшие 24 часа, но если мы увидем заинтересованность аудитории, то подумаем над расширением.

За генерацию музыки отвечает модель music composer, разработанная командой SberAI, а за генерацию текста - всеми любимая GPT2.

Попробовать бота, спросить о жизни и послушать джаз можно тут - @gpt_music_bot
🔥6
👀 Гитхаб обновил интерфейс на сайте.
Теперь описание для закрепленных репозиториев отображается одной строкой без переносов.

Если честно, не очень приятно, так как мои описания не влезают.
⚡️ VideoDALLe

На днях мы адаптировали модель ruDALLe, которая генерирует картинки по тексту, к генерации видео по тексту. 🔥

Скоро представим код нашей работы, а пока ловите видосики: теннис, прыжок в воду и бильярд.
👍6👏2
Мы наконец выкатили пример супер прикольного файнтюна Рудольфа на любопытную задачу предсказания калорийности еды по фото

тут
👍4
VideoDalle - как генерация гифок, только лучше 🙆

Пост назад мы говорили что выпустим код, и так, теперь его можно найти в репозитории ruDalle.

Суть работы в том, что вместо генерации одной картинки мы обучаем генерировать сразу несколько. Это позволяет делать картинки более связанными и последовательными.

Спасибо каналу Love. Death. Transformers за пост и код ревью.

Колаб ноутбук
👍7👏1
Победили в хакатоне по ИИ 🥳

👉 Тут недавно Сбер организовывал хак по распознаванию рукописного текста на тетрадных листах, ну и админы решили принять участие.

👀 В течение трех недель решали задачи сегментации(выделения слов) и их последующее распознавание(задача OCR). В качестве метрики использовалась комбинация IOU и CER.

Сегодня стал доступен приватный лидерборд и оказалось, что один из админов как был на первом месте, так и остался, а второй отлетел со второго места на четвертое(с разницей в 5/10000) 😕.

В итоге удалось унести макбук и сбер портал.

Лидерборд
👏11👍3🔥2
Как быстро спарсить фотки из гугла/яндекса? ⚡️

👉 Представим ситуацию - вам необходимо собрать набор данных для генерации картинок, но вы слишком уставши, чтобы искать готовые решения или просто писать код.

Что делать в такой ситуации? Поспать Просто следуйте следующей инструкции:

1️⃣ Откройте хром, вбейте нужный запрос в поисковую систему(я пользуюсь яндексом, так как фильтры удобные)

2️⃣ Медленно прокрутите страницу с выдачей до нужного количества изображений

3️⃣ Сохраните страницу "полностью". Создастся один файл и папка с картинками

4️⃣ Запускаем файл converter.py и указываем полный путь к папке. Скрипт создаст папку images со всеми картинками в разрешении примерно 480 * 270

Опционально: запускаем delete.py и указываем полный путь, чтобы удалить дубли по хешу

🔥 В итоге, буквально за 5 минут можно спарсить порядка 1500 изображений, что довольно дёшево и сердито.
👍10😱1
Мы на паблике - первые 🥇

Ну или почти, в любом случае, можно и нужно подвести некоторые итоги финала Олимпиады НТО по распознаванию рукописного текст в тетрадях на русском и английском.

👉 Как обычно, начнем с хорошего:

1️⃣ Заняли первое место лидерборда с самого начала соревнования. 🔥

2️⃣ Использовали кристофари, что сильно помогло вырваться вперёд за счёт объёма памяти(32гб). Разрешение картинок на входе 2160 X 3130.

3️⃣ Обучали предобученную на Digital Peter CRNN (с аугментациями и чуть более расширенной версией бейзлайна) + статистически-языковую модель(KenLM) для beam search.

4️⃣ KenLM обучали на собранном датасете заданий с текстом из ОГЭ/ЕГЭ для русского и на датасете соревнования Feedback(сочинения на англе) с кагла.

5️⃣ Использовали detectron2 с аугментациями и чуть-чуть почищенным сетом, моделька X101 - топ зоопарка на датасете COCO.
👍14🔥4
👉 Что не вышло?

1️⃣ Хотели прикрутить алгоритм CopyPaste для сегментации, но обучалось слишком медленно.

2️⃣ Отказались от идеи с другими датасетами сегментации и OCR, так как у них другая тематика.

3️⃣ Пытались использовать аугментацию Сбера Handwriting Blots, но тоже работало медленно.
👏4