Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#соревнование
Для тех, кто любит соревноваться - Новогодний подарок от X5:
https://retailhero.ai/
#соревнование
К слову - о теме последнего комикса. Если кто-то ещё не знает, что такое DeepFake, то можно посмотреть в соревновании на платформе Кэгл. Между прочим, призовой фонд - 1 млн. $:
https://www.kaggle.com/c/deepfake-detection-challenge
#соревнование
На хабре сейчас идёт цикл статей по анализу данных в геномике / генетике, тема очень перспективная (особенно в Европе и США). Если планируете карьеру в научном крыле DS, то советую смотреть на стык биологии и DS. На всякий случай, не рекомендую тратить деньги на исследование своего генома (современные методы очень несовершенны). Каждая статья сопровождается описанием соревнования (повод, как минимум, посмотреть на данные):
https://habr.com/ru/company/atlasbiomed/blog/481334/
#соревнование
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#
#соревнование
Конкурс "VoicePrivacy" при конференции Interspeech 2020:
https://www.voiceprivacychallenge.org/
#соревнование
Смотрел тут свежие хакатоны, чтобы понять, а что сейчас модно. Вот этот самый клёвый, хотя и не по ML, а больше для разработчиков.
Хакатон в чумах (это палатка имеется в виду):
https://rhck.me/hackyanaorh
#соревнование
На кэгле сейчас идёт очень симпатичное соревнование, я уже порекламировал его своим студентам, а в одном из курсов мы взяли его как обязательно задание. В чём плюсы:
* идеально для практики в нейронках, они здесь рулят, плюс куча кёрнелов с кодом
* задача табличная - нет специфики CV или NLP, идеально для новичков, можно сконцентрироваться на обучении сетей
* данных немного (7-слойная сеть проходит 7-fold CV на ноуте за 6 минут)
* много классов, большой дисбаланс - шанс понять, что это такое и как с этим бороться
(выше как раз была ссылка на обсуждение соревнования)
https://www.kaggle.com/c/lish-moa/
#соревнование
Список текущих соревнований по анализу данных и машинному обучению на российских платформах (если что-то забыл - кидайте в комментарии):

Антихакатон от ВкусВилла
задача - увеличение выручки
специфика - на последнем этапе тестирование идей в торговых точках сети
окончание регистрации - 21 июня
старт - 23 июня
приз - 150 000
https://data-hackathon.vkusvill.ru

Всероссийский чемпИИонат по Computer Vision и Big Data
три задачи - предотвращение чс на жд, тенденции новостей, привязка аэроснимков к местности
окончание регистрации - 18 июля
старт - 26 июня
приз - 250 000 за 1 место
https://hacks-ai.ru/championships/758453

Искусственный интеллект в химии (для школьников)
задача - предсказание биологических свойств наночастиц
специфика - есть ещё воркшоп
окончание регистрации - 27 июля
приз - стажировка / поступление в ИТМО
https://scamt.ifmo.ru/datacon/

Machines Can See
задача - верификация моделей автомобилей
окончание регистрации - 24 июня (соревнование уже идёт)
окончание соревнования - 1 июля (осталась всего 1 неделя активной фазы соревнования)
приз - 300 000 за 1 место
https://ods.ai/competitions/mcs_car_verification

Соревнование на данных кредитных историй
задача - предсказание кредитного дефолта
окончание регистрации - можно до конца (соревнование уже идёт)
окончание соревнования - 31 июля
приз - 300 000 за 1 место
https://ods.ai/competitions/dl-fintech-bki
👍59🔥1
#соревнование
На кэгле когда-то было соревнование Abstraction and Reasoning Challenge, очень классное по постановке задачи - научиться на нескольких примерах, чаще даже на одном (причём человек это точно делает с лёгкостью). На картинке пример подобной задачи: по левой картинке сделать правую. Соревнование хотят продолжить - будет ARC2, сейчас собирают выборку, сделали даже такую песочницу для составления датасета. Организатор - автор популярных книг Франсуа Шолле. Не смотря на простоту, очень нетривиально, классно придумано и заставляет не просто "тренировать нейронки"! Можно почитать решение победителя первого соревнования.
👍52🔥16
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
60👍16🔥7🤩3❤‍🔥1🥰1😢1💯1
#соревнование
Есть много разных соревнований по анализу данных, например, на известной платформе kaggle уклон в сторону машинного обучения. А есть ещё конкурсы по финансовому моделированию, например Financial Modeling and Excel Competitions. В последнем номере журнала Риск-менеджмент в кредитной организации интервью с участником таких конкурсов (там есть примеры задач и данных). Кстати, в них почти нет участников из России (в рейтинге этого года всего 2).
👍23🤔5😢3
#соревнование
Обзор международных соревнований в DS за прошлый год: на каких платформах, что используют победители, какие конкурсы проходят и т.п. Такие отчёты каждый год выходят (но тут ни разу ссылок на них не давал).
https://mlcontests.com/state-of-machine-learning-competitions-2024/
42👍9🔥71🦄1