Градиентное погружение
4.61K subscribers
179 photos
11 videos
10 files
164 links
Обсуждаем новости, рассказываем про ML с кодом и колабом, выигрываем соревы 🏆

Контакты: @Cene655, @Cucu_LaPraline
Download Telegram
Мы на паблике - первые 🥇

Ну или почти, в любом случае, можно и нужно подвести некоторые итоги финала Олимпиады НТО по распознаванию рукописного текст в тетрадях на русском и английском.

👉 Как обычно, начнем с хорошего:

1️⃣ Заняли первое место лидерборда с самого начала соревнования. 🔥

2️⃣ Использовали кристофари, что сильно помогло вырваться вперёд за счёт объёма памяти(32гб). Разрешение картинок на входе 2160 X 3130.

3️⃣ Обучали предобученную на Digital Peter CRNN (с аугментациями и чуть более расширенной версией бейзлайна) + статистически-языковую модель(KenLM) для beam search.

4️⃣ KenLM обучали на собранном датасете заданий с текстом из ОГЭ/ЕГЭ для русского и на датасете соревнования Feedback(сочинения на англе) с кагла.

5️⃣ Использовали detectron2 с аугментациями и чуть-чуть почищенным сетом, моделька X101 - топ зоопарка на датасете COCO.
👍14🔥4
👉 Что не вышло?

1️⃣ Хотели прикрутить алгоритм CopyPaste для сегментации, но обучалось слишком медленно.

2️⃣ Отказались от идеи с другими датасетами сегментации и OCR, так как у них другая тематика.

3️⃣ Пытались использовать аугментацию Сбера Handwriting Blots, но тоже работало медленно.
👏4
Градиентное погружение pinned «Наше решение, которое заняло первое место на паблик лидерборде в НТО ИИ. https://github.com/Lednik7/nto-ai-text-recognition»
Поздравляем всех с праздником 🎉

Нам очень приятно, что на нас подписаны не только трушные датасаентисты, но и прелестные дамы 🙌

Поэтому мы захотели сделать кое-что для вас, то что в наших силах и бюджете, а именно - нейропоздравлялку в тг🔥

@red_letter_day_bot - делитесь с друзьями, нам будет приятно
11👍2😱1
Авторское право в ИИ

Я думаю не секрет, что весь ML построен на использовании чего-то существующего обучении, будь то музыка, картинки или текст с 3D реконструкцией. Эти наборы зачастую состоят из публичных данных собранных в интернете, но не все из них, согласно их лицензии, разрешено использовать в своих целях.

Связи с этим возникает вопрос, а что использовать вообще можно? Если по правилам, то почти всё что имеет свободную лицензию, например лицензии Creative Commons. Специально для поиска свободных материалов существуют сайты по типу CC Search.

Что интересно, многие законы по защите авторского права используют понятия, ключевым моментом которых является человек. Из-за этого возникают путаницы.

Из недавнего. 14 февраля 2022 люди пытались зарегистрировать авторские права на картинку, сгенерированную нейронкой DABUS, на что в ответ получили:

Закон copyright защищает только "плоды интеллектуального труда", которые "основаны на творческих силах человеческого разума", отметив, что "картина была автономно создана искусственным интеллектом без какого-либо творческого вклада со стороны человеческого актера"(перевод с англа).

Подытожив можно сказать, что пока границы авторского права ИИ не определены.

Больше примеров авторского права и ИИ
👍7
Про платформы для исследований

Кажется, подключить без костылей колаб про/про+ больше не получится, поэтому стоит искать альтернативу.

Тут сразу можно вспомнить кагл, но его бывает мало(около 40 гпу часов ~ 3 ночи обучения).

Data Sphere (до 31 декабря 2022)
Как вариант, отправить заявку на грант от Яндекса. Дадут сумму до 100к для исследований на их платформе. V100 доступна.

Грант, выданный в рамках Программы, должен быть использован в течение шести месяцев с даты его зачисления на аккаунт.

Toloka Research Grant (до 31 марта)
Это грантовая программа для поддержки любых исследований, где есть много данных, будь то ML, лингвистика или социология. Грант представляет собой промокод на сумму от 100 до 500 долларов, активировав который, исследователь получает возможность запускать проекты по сбору и разметке данных в Яндекс.Толоке. Подать заявку может каждый, единственное условие — мы просим лауреатов указывать в статьях и на конференциях, что данные для исследования они собирали с помощью нашего сервиса.
👍5
Доступ к продуктам JetBrains

Компания приостановила продажу своего продукта.

Неприятно конечно, но решение есть и оно бесплатное.
Чтобы получить халявный промокод на All Products Pack, достаточно выполнить следующие действия:

1) Решить штук 10 задач по проге на stepik.org

2) Подождать часик-другой. Уведомление придет на почту(вроде) и в уведомления на сайте

3) Следовать инструкции из уведомления

Profit. Вот вам и доступ на 3 месяца.

Ну и ещё один вариант - отправить справку, что вы студент/школьник из образовательного учреждения, тогда доступ будет на год.
👍2
THE AI INDEX REPORT

Тут Стенфорд выкатил полный отчет по различным аспектам ИИ, начиная от научных публикаций и заканчивая финансированием исследований и разработок.

Вообщем-то документик большой, 200+ страниц. В целом, суть такова - ну очень большой интерес к этой сфере, много надежд на разработку различных черных коробок.

Пара интересных фактов:
— 21% PHD связаны с ИИ
— Больше всего времени на обучение тратится на тяжелые модели для обнаружения объектов и RL
— Климат и здравоохранение - самые популярные темы научных статей, влияющих на мир
— ИИ стал доступнее, обучение моделей для базовых задач уже не такое затратное (всё таки, отточенные пайплайны и no-code решения играют большую роль)

Потыкать графики можно тут
PDF файл
👍9🔥1
Maximal Update Parametrization

Майкрософт выпустил статью о том, как можно перенести параметры с маленькой модели на большую, при этом получить результат лучше, чем просто тренируя большую модель.

Статья
GitHub
👍4
Full Stack Deep Learning

Делимся прикольным опенсурс курсом по DL на английском.
В нем есть всё: начиная от базы и заканчивая развертыванием в качестве API.

Ссылка
👍11
Про ускорение кода

"Если необходимо, чтобы Ваш код работал быстрее,
то вероятно, следует просто использовать PyPy"

Гвидо ван Россум (создатель Python).

Вообщем-то наткнулся на интересную запись выступления с Moscow Python Conf++ 2019. Спикер рассказывает как они в Яндексе ускоряли рассылку писем путем применения языка Nim, Cython, PyPy, Numba - всё это без лишней воды, умных терминов и большого кол-ва кода с крутой подачей автора.

Посмотреть видео под чаёчек можно тут
👍7
👉 BLIP

Тут недавно вышло видео Яника про эдакий шустрый CLIP с 14М и 129М параметрами (VIT-B/VIT-L), который может:

1️⃣ Подписывать изображения

2️⃣ Отвечать что на картинке

3️⃣ Вытаскивать мультимодальную инфу

4️⃣ Сопоставлять и давать оценку парам текст-картинка

Попробовать сея чудо можно в онлайне на Replicate, в Hugging Face Spaces или Colab Notebook

GitHub
Видео Яника
👍8🔥3
Forwarded from Andrey Alekseev
Всем привет!
Сегодня мы опубликовали статью на Хабре о том, какие фичи есть в ETNA и как их генерировать, а ещё показали, как из всего этого собрать пайплайн прогнозирования.

https://habr.com/p/657297/
👍4