Градиентное погружение
4.61K subscribers
179 photos
11 videos
10 files
164 links
Обсуждаем новости, рассказываем про ML с кодом и колабом, выигрываем соревы 🏆

Контакты: @Cene655, @Cucu_LaPraline
Download Telegram
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Если помните, Nvidia не так давно показала свою новую нейронку (iNGP) – скармливаешь ей кучу фоток и она дает тебе 3D пространство этого помещения, в котором можно «перемещать камеру».

Один из интересных побочных эффектов этого алгоритма, это то, что можно «залетать» в отражения, в данном случае в зеркало — и летать там смотреть чего как.

Вход в зазеркалье открывается только с помощью нейронок, теперь все понятно ¯\_(ツ)_/¯
👍13
Silero TTS V3

Русский text to speech стал ещё лучше, вот прям конкретно.

Для сравнения превосходства нового спикера послушайте результаты работы с костылями и без

Честно говоря, очень страшно за то в каких мошеннических схемах это может использоваться

Попробовать онлайн
Почитать как работает это чудо
Поглядеть на гит
👍5🔥5
YDB

Яндекс выложил свою базу данных в открытый доступ

Даже чат в тг есть -> тык

Гитхаб
👍4
0000000002.wav
317.3 KB
#чтивонаночь

Диффузионные модели давно бьют SOTA в генерации изображений, а исследователи их решили заменить GAN в классическом TTS/ TEXT 2 SING на диффузионнную модель.

github
👍5
Про прогрессбары

Недавно понадобилось отслеживать состояние обучения модельки(переводчика) в реалтайме, но я работаю в save & run all кагла, что довольно неудобно и накладывает ограничения

Соответственно появились мысли о всяких MLOps инструментах типо wandb, neptune, tensorboard и тд

Но они тоже не сказать что супер удобные, ведь что есть удобнее мессенджеров?

Тут я начал гуглить на эту тему что-то для тг. Нашел штуку HF, которая тупо отправляет сообщение в мессенджер. Нормально, но хочется большего, большего реалтайма без флуда

Написал другу об этом всём, а в ответ:

Сделать TQDM вывод красивый, вытащить выходной поток, прогнать через какую-нить либу, которая по любому есть, это-ж питон. И в одно сообщение красиво скидывать с таймаутом в минуту, не шля новые, а изменяя старое
(хотя скорее всего есть более удобные инструменты юпитера)

Как ни странно он был прав, при этом настолько, что изменить в коде нужно было всего две строчки:
from tqdm.contrib.telegram import tqdm
for i in tqdm(iterable, token='{token}', chat_id='{chat_id}'):
...

В конечном итоге я остановился на комбинации tqdm telegram + wandb (полный вывод консоли + использование ресурсов) и пока что меня это устраивает
👍22🔥71
Много чего произошло за последнее время в жизни канала и админов.

Одним из таких событий стало награждение в Сбере, в ходе которого у нас появился свой собственный мерч (правда всего один экземпляр)
🔥13👍3
Пост назад мы писали про наш мерч, а сейчас хотим сообщить, что админы канала стали абсолютными победителями НТО ИИ 21-22 🔥

Хотим поблагодарить организаторов за весь труд и искреннюю преданность делу.

Мы ценим то, что вы прислушиваетесь к нам и надеемся что уровень мероприятия с каждым годом будет только расти, спасибо ⭐️
🔥29
Forwarded from partially unsupervised
Хочу посоветовать уважаемым читателям небольшой бесплатный курс MLOps Zoomcamp от моего старинного приятеля Алексея, автора книги Machine Learning Bookcamp. Курс рассчитан на не самую опытную аудиторию и поможет закрыть некоторые пробелы в ответе на вопрос "Как же все-таки выкатывать ML в продакшен".

Говоря про MLOps, не могу не заметить, насколько хайповым стал этот термин. На каком-то этапе я обнаружил, что все вокруг говорят про MLOps, и заволновался, что отстал от жизни. Немного почитал и обнаружил, что это все знакомые практики под новым красивым названием. Позже в одном из первых ревью на план нашей с Валерой книги ревьювер даже написал замечание в духе "удивлен, что эта глава не называется MLOps, хотя содержание похоже на него".

Как хорошие software инженеры уделяли внимание мониторингу и пайплайнам деплоймента до того, как про devops стали вещать из каждого утюга, так и MLOps - это не что-то кардинально новое, а просто собранные вместе практики, которые нельзя игнорировать, работая с настоящим продакшеном, а не только тыкая fit-predict в jupyter ноутбуках. Впрочем, хоть горшком назови, только в печь не ставь прод не роняй.
👍9
Forwarded from DL летописец (Павел Ильин)
🔥 HF выложили первый урок по RL!

Рассказывается зачем RL вообще нужен и его основы: пространство действий, окружение, награда, штрафы и т.д.

Довольно подробно рассказывается математика, которая стоит за всем этим. В качестве практики предлагают потренироваться на одном из базовых окружений - lunar lander, уже даже есть лидерборд).

Помимо этого есть много очень хороших дополнительных материалов для самостоятельного изучения.

Кажется самое время начать изучать этот ваш RL.

Урок
Лидерборд
🔥5👍2
Почитать

Почему-то именно сегодня захотелось зайти наконец-то в закладки и посмотреть что же такого интересного почитать есть.

Наткнулся на книжку Steve Nouri "Data Science interview questions" - содержит 134 вопроса к интервью с ответами на темы: статистика, датасаенс, аналитика, классический ML, DL и просто какой-то разнобой.

Вопросы не сказать что сложные, некоторые мне не очень нравятся из-за постановки + не в своем блоке, но несмотря на это я был приятно удивлен - вопросы действительно показывают кругозор кандидата и его интересы.

Думаю можно иногда почитывать, чтобы освежить память.

Книжка
👍22
Awesome-Diffusion

Один из админов нашел репозиторий, достойный вашего внимания, но перед началом стоит чуть поговорить про то, что такое диффузионные модели:

Работают диффузионные модели следующим образом — сначала искажают обучающие данные, постепенно добавляя гауссовский шум, медленно стирая детали, пока данные не превратятся в чистый шум, а затем нейронная сеть обучается, чтобы обратить этот процесс искажения вспять. При обратном искажении данные синтезируются из чистого шума путем постепенного снижения шума до тех пор, пока не будет получен чистый образец. (источник)

Собственно тема интересная и скорее всего вы о ней слышали, когда смотрели на всякие нейрогенерации коих в последнее время довольно много.

Репозиторий представляет собой сборник ссылок на статьи и их реализации, разделённые на самые разные темы(в том числе NLP, Vision, Audio, TS, etc).

Всё оформлено классно, а самое главное - структурированно.

Меня заинтересовала тема временных рядов и скорее всего, при необходимости, я попробую что-нибудь оттуда использовать.

Репозиторий
👍9🔥6
Теперь вы знаете как отвечать человеку, когда вам лень или он вам не понравился.

Это вопрос. Вопросам здесь не место.
👍22
Визуализация аудитории

Сделал небольшой парсер участников канала в телеге.

Беру все доступные описания и закидываю в модель, подаю в PCA и сжимаю до вектора из 2-х элементов, ручками выбираю кол-во кластеров и строю график.

Теперь про график:
Красные - всякие ссылки на каналы
Темные - DS/ML/универы
Зеленые - словосочетания и предложения

Ну и те, что в центре - что-то между всеми остальными.

Пока делал всё это, задумался о том, сколько данных мы теряем - начиная от сжатия и заканчивая кластеризацией.

Ведь действительно, для сжатия мы подаем N-мерные вектора, которые схлопываются в 2-мерные и именно по 2-мерным мы делаем кластеризацию.

Ок, давай подавать N-мерные, в чем проблема?
Проблема в том, что тогда у кластеров не будет четкой границы и понимать график станет куда сложнее.

Этим постом я хотел вернуть нас к пониманию того, что объяснять ML довольно сложно. Почему? Потому что мы не всегда имеем полное представление о данных.

Код для визуализации
👍14