#competitions #зашквар
На этих выходных удалось поучаствовать в хакатоне AgroCode Hack 2023. Трек 2: Система краткосрочного прогнозирования заболеваний винограда. Выиграть ничего не удалось (призовое место было только одно), но это не главное.
Главное, что соревнование было про гео-данные. ИМХО, это самый интересный вид ML-соревнований. Во первых потому что он сам по себе очень редкий. Встретить гео-соревнование это как встретить единорога :) Во вторых на нем вы можете порисовать интересные визуализации прямо на карте (а не эти ваши гистограммы и барплоты :). А в третьих можно насчитать кучу интересных фичей в двух или трехмерном пространстве.
На выходе нужна была интерактивная карта с прогнозом заболевания винограда. Наше решение умеет даже анимацию истории показывать :) Картинки прикрепил, а также выложил итоговое решение и презентацию в комментариях.
Но самое интересно началось после объявления победителя. Оказалось, что победитель представил старое решение. А по правилам хакатона нужно было разработать решение непосредственно на хакатоне. От этого у участников знатно бомбануло и в чатике начался срач :) Участники включили режим детектива и вскоре выяснилось, что победитель это фирма (с оборотом 7 млн. руб.), которая занимается IoT в агросекторе, а в интернете нашлась старая их презентация, которую они и демонстрировали на питче.
Организаторов тут же обвинили в фальсификации и попросили прокомментировать зашквар :)
Сейчас организаторы взяли таймаут для ответ.
UPD.1: у победителей отобрали приз и отдали его второй команде :)
UPD.2: в спор вступили первые победители и заявили что выиграли честно :)
В общем на этом все и закончелось. Сложилось впечатление либо о каком-то предвзятом голосовании, либо о безалаберном. Пару разу предложил опубликовать судейский протокол - полный игнор. Короче, осадочек конечно остался не приятный. Добавил 8 пункт в этот список: https://t.iss.one/ds_private_sharing/77
На этих выходных удалось поучаствовать в хакатоне AgroCode Hack 2023. Трек 2: Система краткосрочного прогнозирования заболеваний винограда. Выиграть ничего не удалось (призовое место было только одно), но это не главное.
Главное, что соревнование было про гео-данные. ИМХО, это самый интересный вид ML-соревнований. Во первых потому что он сам по себе очень редкий. Встретить гео-соревнование это как встретить единорога :) Во вторых на нем вы можете порисовать интересные визуализации прямо на карте (а не эти ваши гистограммы и барплоты :). А в третьих можно насчитать кучу интересных фичей в двух или трехмерном пространстве.
На выходе нужна была интерактивная карта с прогнозом заболевания винограда. Наше решение умеет даже анимацию истории показывать :) Картинки прикрепил, а также выложил итоговое решение и презентацию в комментариях.
Но самое интересно началось после объявления победителя. Оказалось, что победитель представил старое решение. А по правилам хакатона нужно было разработать решение непосредственно на хакатоне. От этого у участников знатно бомбануло и в чатике начался срач :) Участники включили режим детектива и вскоре выяснилось, что победитель это фирма (с оборотом 7 млн. руб.), которая занимается IoT в агросекторе, а в интернете нашлась старая их презентация, которую они и демонстрировали на питче.
Организаторов тут же обвинили в фальсификации и попросили прокомментировать зашквар :)
Сейчас организаторы взяли таймаут для ответ.
UPD.1: у победителей отобрали приз и отдали его второй команде :)
UPD.2: в спор вступили первые победители и заявили что выиграли честно :)
В общем на этом все и закончелось. Сложилось впечатление либо о каком-то предвзятом голосовании, либо о безалаберном. Пару разу предложил опубликовать судейский протокол - полный игнор. Короче, осадочек конечно остался не приятный. Добавил 8 пункт в этот список: https://t.iss.one/ds_private_sharing/77
👍24😁8
#competitions #зашквар
На прошлой неделе участвовал еще в одном соревновании, заслужившим свое место в истории ML-соревнований - DataWagon. Трек 1: Прогнозирование спроса на грузовые ЖД перевозки.
Задача регрессии на временных рядах. Нужно было прогнозировать спрос на вагоны на отдельных ЖД станциях на 5 месяцев вперед.
Но организаторы хотели слишком многого от 2 дней соревнований и откровенно переборщили со сложностью. Например, модель должна была считать одно, а оценивалось другое. Были и другие сложности...
Бейзлайн, который представили организаторы, был очень примитивен: просто копировали последний исторический месяц на 5 месяцев прогноза.
Все попытки построить нормальную ML-модель на временных рядах давали скор заметно ниже бейзлайна. Участники быстро смекнули что к чему и начали мучать бейзлайн :) Например, вместо последнего месяц, брали последние два месяца. Или как-то усредняли значения последних месяцев и т.д. В результате лучшие по скору решения так или иначе были основаны на бейзлайне.
А это значит, что это первое в истории ML соревнование, в котором победили организаторы :)))
Что хочу сказать-то: участвуйте в соревнованиях - это весело :)
З.Ы. А чтобы такого не происходило, нужно всего-то выполнить 7 пункт этого списка: https://t.iss.one/ds_private_sharing/77
На прошлой неделе участвовал еще в одном соревновании, заслужившим свое место в истории ML-соревнований - DataWagon. Трек 1: Прогнозирование спроса на грузовые ЖД перевозки.
Задача регрессии на временных рядах. Нужно было прогнозировать спрос на вагоны на отдельных ЖД станциях на 5 месяцев вперед.
Но организаторы хотели слишком многого от 2 дней соревнований и откровенно переборщили со сложностью. Например, модель должна была считать одно, а оценивалось другое. Были и другие сложности...
Бейзлайн, который представили организаторы, был очень примитивен: просто копировали последний исторический месяц на 5 месяцев прогноза.
Все попытки построить нормальную ML-модель на временных рядах давали скор заметно ниже бейзлайна. Участники быстро смекнули что к чему и начали мучать бейзлайн :) Например, вместо последнего месяц, брали последние два месяца. Или как-то усредняли значения последних месяцев и т.д. В результате лучшие по скору решения так или иначе были основаны на бейзлайне.
А это значит, что это первое в истории ML соревнование, в котором победили организаторы :)))
Что хочу сказать-то: участвуйте в соревнованиях - это весело :)
З.Ы. А чтобы такого не происходило, нужно всего-то выполнить 7 пункт этого списка: https://t.iss.one/ds_private_sharing/77
🏆12😁5👍3👏3
#competitions #зашквар
Раз уж астрологи объявили неделю соревновательных постов, то расскажу об еще одном занятном хакатоне, который прошел месяц назад :) GoodsForecast Hack - Определение наличия товаров на полке.
Задача - классификация на временных рядах. Нужно было спрогнозировать, что какой-то товар в каком-то магазине в какое-то время забудут выложить на полку (и Дикси разорится :)
Первые подходы к снаряду выдавали очень веселый ROC AUC на отложенной выборке - ~43% :) Хотя обучение проходило нормально.
Стал разбираться почему и обнаружил такую интересную картину (см. картинку). Это сумма таргета по дням по каждому магазину за каждый день. Тут не вооруженным глазом видно, что в конце тренировочной выборки резко и сильно меняется паттерн данных (и скорее всего это продолжается в тестовом периоде - что потом и подтвердилось). Обучаться на таком нельзя.
Сразу же вспомнилось золотое правило МЛ: дерьмо на входе - дерьмо на выходе.
На вопрос к организаторам: "Что это за порнография?", был получен скромный ответ: "Изменилась модель".
Причем тут модель - не понятно :) Скорее таргет изменился или методология его сбора - хз...
Ничего не оставалось, кроме как выкинуть 80% тренировочной выборки :) После этого скор стал адекватным (~70%).
Но теперь получалось, что у нас на обучение и оценку 10 дней, а предсказывать надо 12. Такой себе временной ряд :)
Не знаю, преследовали ли какую-нибудь цель организаторы, выдавая такой датасет. Но похоже, что просто кто-то недоглядел :)
З.Ы. А чтобы такого не происходило, не забываем про пункт 7: https://t.iss.one/ds_private_sharing/77
Раз уж астрологи объявили неделю соревновательных постов, то расскажу об еще одном занятном хакатоне, который прошел месяц назад :) GoodsForecast Hack - Определение наличия товаров на полке.
Задача - классификация на временных рядах. Нужно было спрогнозировать, что какой-то товар в каком-то магазине в какое-то время забудут выложить на полку (и Дикси разорится :)
Первые подходы к снаряду выдавали очень веселый ROC AUC на отложенной выборке - ~43% :) Хотя обучение проходило нормально.
Стал разбираться почему и обнаружил такую интересную картину (см. картинку). Это сумма таргета по дням по каждому магазину за каждый день. Тут не вооруженным глазом видно, что в конце тренировочной выборки резко и сильно меняется паттерн данных (и скорее всего это продолжается в тестовом периоде - что потом и подтвердилось). Обучаться на таком нельзя.
Сразу же вспомнилось золотое правило МЛ: дерьмо на входе - дерьмо на выходе.
На вопрос к организаторам: "Что это за порнография?", был получен скромный ответ: "Изменилась модель".
Причем тут модель - не понятно :) Скорее таргет изменился или методология его сбора - хз...
Ничего не оставалось, кроме как выкинуть 80% тренировочной выборки :) После этого скор стал адекватным (~70%).
Но теперь получалось, что у нас на обучение и оценку 10 дней, а предсказывать надо 12. Такой себе временной ряд :)
Не знаю, преследовали ли какую-нибудь цель организаторы, выдавая такой датасет. Но похоже, что просто кто-то недоглядел :)
З.Ы. А чтобы такого не происходило, не забываем про пункт 7: https://t.iss.one/ds_private_sharing/77
👍17😁2👏1
Написал небольшое эссе (вру, большое :) на тему, какие задачи могут без дообучения выполнять современные большие языковые модели (LLM):
https://habr.com/ru/articles/775870/
https://habr.com/ru/articles/775870/
👍14🔥6
#Tip41 #Pandas
Есть у пандаса такая функция - автоматическое определение типа колонок при загрузке данных. Но тип данных может быть определен не верно. Казалась бы, ну и ладно - переопределим после загрузки. Но тут кроется одна неявная проблема.
Звучит она так: "Категории могут начинаться с 0, а числа - нет".
Яркий тому пример коды ОКАТО, ОКВЭД и пр. Если пандас определит колонки ОКАТО и ОКВЭД как числа он ничего не сообщит, а просто отбросит начальные нули и спокойно загрузит данные. Тем самым изменив идентификатор изначальной категории и, возможно, смешав их с другими категориями. И это можно попросту не заметить (сам с таким сталкивался).
Чтобы избежать этого нужно явно указывать тип колонок при загрузке данных:
Есть у пандаса такая функция - автоматическое определение типа колонок при загрузке данных. Но тип данных может быть определен не верно. Казалась бы, ну и ладно - переопределим после загрузки. Но тут кроется одна неявная проблема.
Звучит она так: "Категории могут начинаться с 0, а числа - нет".
Яркий тому пример коды ОКАТО, ОКВЭД и пр. Если пандас определит колонки ОКАТО и ОКВЭД как числа он ничего не сообщит, а просто отбросит начальные нули и спокойно загрузит данные. Тем самым изменив идентификатор изначальной категории и, возможно, смешав их с другими категориями. И это можно попросту не заметить (сам с таким сталкивался).
Чтобы избежать этого нужно явно указывать тип колонок при загрузке данных:
type_dict = {
'Col_A': 'category',
'Col_B': 'int16',
'Col_C': 'float16',
'Col_D': 'float32'}
df = pd.read_csv(myfile, dtype=type_dict)👍35🔥10
#Tip42 #EDA #Pandas
На прошлой неделе поучаствовал в хакатоне GO ALGO, организованный Московской фондовой биржей.
Для решения задачи нужно было анализировать биржевую информацию. И наконец-то мне мне удалось применить на практике очень редкий вид графиков — Спарклайны (Sparkline).
Спарклайны — это небольшие немаркированные графики. Обычно они не содержат ни осей ни подписей, поэтому в основном предназначены для передачи какой-то общей идеи.
А т.к. спарклайны очень маленькие, то они отлично помещаются в ячейках Pandas'а :)
Графики можно редактировать в определенных границах: менять их ширину/высоту, можно разукрасить на свое усмотрение. Также вы можете вывести другие типы графиков: барплоты, гистограммы и пр.
З.Ы. Сам хакатон проходил в интересном формате. С одной стороны это был обычный хактон - с чек-поинтами и общением с экспертами. С другой - он длился целых 10 дней (вместо обычных 2-3). А за это время можно было сделать неплохой продукт :)
На прошлой неделе поучаствовал в хакатоне GO ALGO, организованный Московской фондовой биржей.
Для решения задачи нужно было анализировать биржевую информацию. И наконец-то мне мне удалось применить на практике очень редкий вид графиков — Спарклайны (Sparkline).
Спарклайны — это небольшие немаркированные графики. Обычно они не содержат ни осей ни подписей, поэтому в основном предназначены для передачи какой-то общей идеи.
А т.к. спарклайны очень маленькие, то они отлично помещаются в ячейках Pandas'а :)
import base64
from io import BytesIO
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import HTML
def sparkline(data):
data = list(data)
fig, ax = plt.subplots(1, 1, figsize=(4, 0.25))
ax.plot(data)
# Убираем все лишнее с графика
ax.set_axis_off()
# Заливаем график
ax.fill_between(range(len(data)), data, len(data)*[min(data)], alpha=0.1)
# Выводим min/max
plt.plot(np.argmax(data), data[np.argmax(data)], 'r.')
plt.plot(np.argmin(data), data[np.argmin(data)], 'm.')
img = BytesIO()
plt.savefig(img)
img.seek(0)
plt.close()
return '<img src="data:image/png;base64,{}"/>'.format(base64.b64encode(img.read()).decode())
agg_df = df.groupby('tradedate', as_index=False)['pr_open'].agg(list)
agg_df['sparkline'] = agg_df['pr_open'].map(sparkline)
HTML(agg_df[['tradedate','sparkline']][-10:].to_html(escape=False))
Графики можно редактировать в определенных границах: менять их ширину/высоту, можно разукрасить на свое усмотрение. Также вы можете вывести другие типы графиков: барплоты, гистограммы и пр.
З.Ы. Сам хакатон проходил в интересном формате. С одной стороны это был обычный хактон - с чек-поинтами и общением с экспертами. С другой - он длился целых 10 дней (вместо обычных 2-3). А за это время можно было сделать неплохой продукт :)
⚡29👍1🔥1
#курс
После почти года доработок, я таки дописал последние два урока - про Градиентнный бустинг (регрессия и классификация). И теперь самый лучший в мире курс по ML (Алгоритмы Машинного обучения с нуля) перешел в релизную стадию (версия 1.0).
Напоминаю, что в курсе вам необходимо с нуля (на чистом Python, NumPy и Pandas) реализовать все основные алгоритмы машинного обучения:
1. Линейные модели:
- Линейная регрессия
- Логистическая регрессия
2. Метод ближайших соседей, kNN (классификация и регрессия)
3. Деревья решений (классификация и регрессия)
4. Ансамбли:
- Случайный лес (регрессия и классификация)
- Бэггинг (регрессия и классификация)
- Градиентный бустинг (регрессия и классификация)
5. Кластеризация:
- Метод k-средних (K-Means)
- Иерархическая агломеративная кластеризация
- DBSCAN
6. Снижение размерности (Метод главных компонент, PCA)
Курс находится на платформе степик: https://stepik.org/a/68260
З.Ы.1. По мере возможности буду дописывать и менее популярные темы из классического ML (рекомендашки, SVM и т.д.)
З.Ы.2. Градиентный бустинг оказался не таким простым как о нем рассказывают на вводных курсах :)
З.Ы.3. Спасибо всем кто помогал тестировать курс :)
После почти года доработок, я таки дописал последние два урока - про Градиентнный бустинг (регрессия и классификация). И теперь самый лучший в мире курс по ML (Алгоритмы Машинного обучения с нуля) перешел в релизную стадию (версия 1.0).
Напоминаю, что в курсе вам необходимо с нуля (на чистом Python, NumPy и Pandas) реализовать все основные алгоритмы машинного обучения:
1. Линейные модели:
- Линейная регрессия
- Логистическая регрессия
2. Метод ближайших соседей, kNN (классификация и регрессия)
3. Деревья решений (классификация и регрессия)
4. Ансамбли:
- Случайный лес (регрессия и классификация)
- Бэггинг (регрессия и классификация)
- Градиентный бустинг (регрессия и классификация)
5. Кластеризация:
- Метод k-средних (K-Means)
- Иерархическая агломеративная кластеризация
- DBSCAN
6. Снижение размерности (Метод главных компонент, PCA)
Курс находится на платформе степик: https://stepik.org/a/68260
З.Ы.1. По мере возможности буду дописывать и менее популярные темы из классического ML (рекомендашки, SVM и т.д.)
З.Ы.2. Градиентный бустинг оказался не таким простым как о нем рассказывают на вводных курсах :)
З.Ы.3. Спасибо всем кто помогал тестировать курс :)
🔥121❤8🥰1
#Tip43 #EDA
Leaderboard Probing - это различные техники, которые позволяют получить дополнительную информацию о таргете тестового датасета, на котором в соревнованиях производится оценка. И если правильно ею воспользоваться, то вы сможете получить преимущество перед другими участниками. Например, сможете собрать локальный тестовый датасет похожий на тот, что используется в соревновании. Или сможете навесить какую-нибудь дополнительную пост-обработку.
В основном все подходы сводятся к пониманию того, как рассчитываются метрики и манипуляции с их формулами. Но иногда встречаются и другие методы.
Рассмотрим пару примеров (см. картинки):
1. Если в соревновании используется метрика MSE, то выполнив всего два сабмита (один содержит все 0, а второй все 1), мы сможем вычислить среднее тестового датасета.
2. Можно попробовать оценить насколько тестовый датасет похож на тренировочный (и предугадать шейкап :). Допустим у нас многоклассовая классификация. Отправляем столько сабмитов - сколько классов. Каждый содержит только один класс. Тоже самое проделываем и на тренировочном датасете. Далее сравниваем их посредством графика.
З.Ы. Это некий PDP (https://t.iss.one/ds_private_sharing/48).
Встречаются и другие "цели": вычисление количества строк, дисперсия и пр.
Но не все так радужно:
1. Обычно корги пытаются предотвратить такие трюки. Например, делят тестовую выборку на публичную и приватную. И если паблик = 5%, то пробинг становится бесполезным. Или вовсе тестируют на скрытом датасете.
2. Зачастую подход зависит не только от метрик, но и от структуры данных. Поэтому универсальных подходов не так много.
3. На такие вычисления может потребоваться много сабмитов, а они обычно сильно ограничены.
4. Иногда LB probing запрещают явно. А иногда неявно, под примерно такими формулировками: создание избыточной нагрузки на сервер, использование уязвимостей системы для получения преимущества и т.д.
Если знаете интересные примеры LB probing - пишите в комментариях.
Leaderboard Probing - это различные техники, которые позволяют получить дополнительную информацию о таргете тестового датасета, на котором в соревнованиях производится оценка. И если правильно ею воспользоваться, то вы сможете получить преимущество перед другими участниками. Например, сможете собрать локальный тестовый датасет похожий на тот, что используется в соревновании. Или сможете навесить какую-нибудь дополнительную пост-обработку.
В основном все подходы сводятся к пониманию того, как рассчитываются метрики и манипуляции с их формулами. Но иногда встречаются и другие методы.
Рассмотрим пару примеров (см. картинки):
1. Если в соревновании используется метрика MSE, то выполнив всего два сабмита (один содержит все 0, а второй все 1), мы сможем вычислить среднее тестового датасета.
2. Можно попробовать оценить насколько тестовый датасет похож на тренировочный (и предугадать шейкап :). Допустим у нас многоклассовая классификация. Отправляем столько сабмитов - сколько классов. Каждый содержит только один класс. Тоже самое проделываем и на тренировочном датасете. Далее сравниваем их посредством графика.
З.Ы. Это некий PDP (https://t.iss.one/ds_private_sharing/48).
Встречаются и другие "цели": вычисление количества строк, дисперсия и пр.
Но не все так радужно:
1. Обычно корги пытаются предотвратить такие трюки. Например, делят тестовую выборку на публичную и приватную. И если паблик = 5%, то пробинг становится бесполезным. Или вовсе тестируют на скрытом датасете.
2. Зачастую подход зависит не только от метрик, но и от структуры данных. Поэтому универсальных подходов не так много.
3. На такие вычисления может потребоваться много сабмитов, а они обычно сильно ограничены.
4. Иногда LB probing запрещают явно. А иногда неявно, под примерно такими формулировками: создание избыточной нагрузки на сервер, использование уязвимостей системы для получения преимущества и т.д.
Если знаете интересные примеры LB probing - пишите в комментариях.
🔥15👍8😱5❤1
Написал на хабре статью, как с помощью Оптуны оптимизировать гиперпараметры RAG-системы (это такой карманный поисковик):
https://habr.com/ru/articles/811239/
https://habr.com/ru/articles/811239/
👍35🔥2
#contest
Дайджест ближайших соревнований (отсортированы по дате проведения, но обратите на дату окончания регистрации - она может быть сильно раньше):
[СОР] AvitoTech ML cup 2024
⏰ Даты: 5.11 - 5.12
🔜 [CLF] Задача: предсказать вероятность, что пользователь кликнет рекламу
💰 Приз: 600 т.р. (+10 мерч)
🏀 Участие: соло или команда до 4 человек
🌐 Формат: онлайн
[ХАК] Tender Hack
⏰ Даты: 8.11 - 10.11 (рег. до 8.11)
🔜 Задача: разработать сервис, осуществляющий мониторинг котировочных сессий на предмет корректности публикации
💰 Приз: 500 т.р.
🏀 Участие: команда 3-5 человек
🌐 Формат: офлайн в СПБ
[ХАК] ЦП. Международный хакатон
⏰ Даты: 08.11 - 10.11 (рег. до 04.11)
🔜 [NLP] Кейс 1: выделение именованных сущностей из электропочты и классификация сообщений
🔜 [CV, REC] Кейс 2: поиск смысловых копий изображений
🔜 [CV, NLP] Кейс 3: матчинг видеовизитки и описания вакансии
🔜 [CV, CLF] Кейс 4: поиск животных на фото и их классификация
🔜 [CV] Кейс 5: детекция и распознавание маркировки на изображении
🔜 [NLP] Кейс 6: качественный анализ документации на соответствие требованиям
🔜 [CLF] Кейс 7: детекция аномалий при строительстве жилых комплексов в части транспортной доступности
🔜 [CV] Кейс 8: поиск нарушений автотранспортом на видеозаписи
🔜 [CLF] Кейс 9: распознавания фазы глубокого сна и промежуточной фазы сна
🔜 [NLP, RAG] Кейс 10: чат-бот для поиска информации в агентской библиотеке материалов
💰 Приз: 10 млн. рублей
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид
[ХАК] BIV Hack
⏰ Даты: 15.11 - 17.11 (рег. до 12.11)
🔜 [CLF, NLP] Задача 1: Автоматизация разбора платежей
🔜 [NLP] Задача 2: Алгоритм выявления связей между контрагентами
💰 Приз: 300 т.р.
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] TulaHackDays2024
⏰ Даты: 15.11 - 17.11 (рег. до 12.11)
🔜 [NLP] Трек 1: Контроль показателей здоровья пациентов, киберассистент (помощь) и связь с лечащим врачом
🔜 [CV] Трек 2: Мониторинг состояния контейнерных площадок на основе данных, в том числе фото- и видеофиксации
💰 Приз: 350 т.р. на каждый трек
🏀 Участие: команда 2-5 человек
🌐 Формат: гибрид
[ХАК] AgroCode Hack Genetics
⏰ Даты: 22.11 - 24.11 (рег. до 14.11)
🔜 [CLF] Задача 1: Система оценки племенной ценности радужной форели
🔜 [NLP] Задача 2: «Тиндер» для коров
🔜 [REG] Задача 3: Прогнозирование урожайности
🔜 [CLT] Задача 4: Историческая агроголоволомка
💰 Приз: 200 т.р. на задачу
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] T1 | Импульс | Хакатон | Москва
⏰ Даты: 26.11 - 29.11 (рег. до 25.11)
🔜 [NLP] Трек 1: объединение данных пользователя в золотую запись
🔜 [NLP, RAG] Трек 2: цифровой ассистент базы знаний
💰 Приз: 600 т.р. на каждый трек
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид (Москва, минимум 2 участника на площадке)
[ХАК] ХАКАТОН ЕВРАЗА 3.0
⏰ Даты: 29.11 - 01.12 (рег. до 25.11)
🔜 [NLP] Задача: автоматический Code Review с помощью ИИ
💰 Приз: 500 т.р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
З.Ы. Здесь приведены только ML-задачи. Сами задачи могут включать и расширенные требования. Например, Frontend.
Дайджест ближайших соревнований (отсортированы по дате проведения, но обратите на дату окончания регистрации - она может быть сильно раньше):
[СОР] AvitoTech ML cup 2024
⏰ Даты: 5.11 - 5.12
🏀 Участие: соло или команда до 4 человек
🌐 Формат: онлайн
[ХАК] Tender Hack
⏰ Даты: 8.11 - 10.11 (рег. до 8.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: офлайн в СПБ
[ХАК] ЦП. Международный хакатон
⏰ Даты: 08.11 - 10.11 (рег. до 04.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид
[ХАК] BIV Hack
⏰ Даты: 15.11 - 17.11 (рег. до 12.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] TulaHackDays2024
⏰ Даты: 15.11 - 17.11 (рег. до 12.11)
💰 Приз: 350 т.р. на каждый трек
🏀 Участие: команда 2-5 человек
🌐 Формат: гибрид
[ХАК] AgroCode Hack Genetics
⏰ Даты: 22.11 - 24.11 (рег. до 14.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] T1 | Импульс | Хакатон | Москва
⏰ Даты: 26.11 - 29.11 (рег. до 25.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид (Москва, минимум 2 участника на площадке)
[ХАК] ХАКАТОН ЕВРАЗА 3.0
⏰ Даты: 29.11 - 01.12 (рег. до 25.11)
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
З.Ы. Здесь приведены только ML-задачи. Сами задачи могут включать и расширенные требования. Например, Frontend.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥3
Дайджест соревнований до конца года (при необходимости будет пополняться):
[ХАК] ФИЦ
⏰ Даты: 29.11 - 4.12 (рег. до 26.11)
🔜 [NLP] Кейс 2 - БухПульс - Разработать алгоритм сбора обратной связи от пользователей сервисе «Бухэксперт8».
🔜 [CV] Кейс 3 - Классификации опор ЛЭП по фото.
🔜 [NLP] Кейс 4 - Погонщик нейронок - Как можно быстрее сделать react приложение по макету из Figma, используя любые ИИ помощники.
🔜 [NLP] Кейс 5 - Оценка уровня экспертности по резюме.
🔜 [NLP] Кейс 6 - Контекстный перевод названий научных работ.
🔜 [TS] Кейс 7 - Прогнозирование бизнес драйверов (трафик людей, количество чеков, количество проданных товаров и т.д).
🔜 [CV] Кейс 8 - Формирование фото и видео контента с использованием нейросетей на основе биографии и фото персоны.
🔜 [CV] Кейс 9 - Разработка алгоритма трекинга людей в видеопотоке с нескольких камер.
🔜 [NLP] Кейс 11 - Симуляция записи в расписание.
🔜 [CV] Кейс 12 - Сервис для ведения реестра зеленых насаждений города Москвы: подсчета их количества, определения породы и пр. по фото.
🔜 [CV] Кейс 14 - Определение доступа на объект с использованием модели распознавания лиц.
🔜 [NLP] Кейс 15 - Семантический делитель текстов.
🔜 [CLF] Кейс 17 - Стартовый (профилактический) комплаенс: предотвращение рисков с помощью AI.
🔜 [NLP] Кейс 20 - Цифровой помощник юриста.
💰 Приз: 6 000 000 р.
🏀 Участие: команда 2-6 человек
🌐 Формат: отборочный этап - онлайн, финал - офлайн (Москва)
[ХАК] Норникель: интеллектуальные горизонты
⏰ Даты: 6.12 - 8.12 (рег. до 2.12)
🔜 [TS] Трек 1 - Флотомашина времени. Поиск наиболее эффективных диапазонов работы оборудования для повышения объема извлечения руды.
🔜 [CV] Трек 2 - Грязные дела. Разработать метод определения степени загрязнения кадра, чтобы обеспечить надежную работу камер на производстве.
🔜 [NLP] Трек 3 - Мультимодальные RAG модели. Разработка RAG системы для поиска информации в текстовых документах и картинках.
💰 Приз: 1 500 000 р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
[ХАК] Совкомбанк SecureHack
⏰ Даты: 6.12 - 15.12 (рег. до 4.12)
🔜 [NLP] Задача - необходимо создать продукт, который позволит разработчикам, аналитикам информационной безопасности и проектным менеджерам оценивать безопасность своих проектов, сервисов, задач на основе входных данных и предоставлять заключения с практическими рекомендациями по улучшению.
💰 Приз: 300 000 р.
🏀 Участие: команда 1-3 человек
🌐 Формат: онлайн
[ХАК] ТерраЛинк Code Fest
⏰ Даты: 9.12 - 15.12 (рег. до 6.12)
🔜 [NLP] Задача 1. Цифровой ассистент пользователя для исполнения функциональных команд.
🔜 [NLP] Задача 2. Нейросеть для проверки соответствия документации стандартам компании с выявлением рисков и отклонений.
🔜 [NLP] Задача 3. Нейросеть по распознавание текста (OCR), классификация документов, автоматическое извлечение данных, проверка орфографии, пунктуации, соответствии СТО компании.
💰 Приз: 600 000 р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
[ХАК] XMAS HACK
⏰ Даты: 20.12 - 23.12 (рег. до 19.12)
💡 Кейс 1. Разработать алгоритм, который будет динамически подстраиваться под меняющиеся условия, выбирая оптимальный маршрут для транзакции.
💡 Кейс 3. Прогнозирование уровня риска нового клиента на основе данных о текущих клиентах банка, а также дополнительной информации из открытых источников.
💰 Приз: 1 000 000 р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
[ХАК] ФИЦ
⏰ Даты: 29.11 - 4.12 (рег. до 26.11)
💰 Приз: 6 000 000 р.
🏀 Участие: команда 2-6 человек
🌐 Формат: отборочный этап - онлайн, финал - офлайн (Москва)
[ХАК] Норникель: интеллектуальные горизонты
⏰ Даты: 6.12 - 8.12 (рег. до 2.12)
💰 Приз: 1 500 000 р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
[ХАК] Совкомбанк SecureHack
⏰ Даты: 6.12 - 15.12 (рег. до 4.12)
💰 Приз: 300 000 р.
🏀 Участие: команда 1-3 человек
🌐 Формат: онлайн
[ХАК] ТерраЛинк Code Fest
⏰ Даты: 9.12 - 15.12 (рег. до 6.12)
💰 Приз: 600 000 р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
[ХАК] XMAS HACK
⏰ Даты: 20.12 - 23.12 (рег. до 19.12)
💡 Кейс 1. Разработать алгоритм, который будет динамически подстраиваться под меняющиеся условия, выбирая оптимальный маршрут для транзакции.
💡 Кейс 3. Прогнозирование уровня риска нового клиента на основе данных о текущих клиентах банка, а также дополнительной информации из открытых источников.
💰 Приз: 1 000 000 р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Начинаем коллекционировать соревнования января (пост будет дополняться по мере поступления):
[ХАК] GPT-4o-mini Hackathon
📅 Дата: 20.01.2025 - 27.01.2025
💡 Задача: разработать AI-ассистента с использованием модели GPT-4o-mini
💰 Призы: 1500$, 1000$ и 500$ (в виде подарков)
🏀 Участие: соло или команда
🌐 Формат: онлайн
[ХАК] GPT-4o-mini Hackathon
📅 Дата: 20.01.2025 - 27.01.2025
💡 Задача: разработать AI-ассистента с использованием модели GPT-4o-mini
🏀 Участие: соло или команда
🌐 Формат: онлайн
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍1
Плей-лист соревнований февраля (пополняемый):
[ХАК] Система Хак: Нижний Новгород
⏰ Даты: 15-16.02 (рег. до 13.02)
💡 [STT] Трек 1. Общение без барьеров. Задача – разработать систему генерации автоматических субтитров в реальном времени для интеграции на платформу МТС для видеозвонков, которая сделает онлайн-конференции доступнее для людей с особыми потребностями.
💡 [NLP] Трек 2. Удобный дом. Необходимо придумать и разработать улучшение для приложения, управляющего многоквартирным домом. Новая функция должна сделать сервис комфортнее для всех жильцов: например, автоматически включит домофон для ребенка или вызовет консьержа пожилому человеку.
💰 Приз: 750 000 р. + мерч всем участникам на площадке
🏀 Участие: команда 2-6 человек
🌐 Формат: гибрид , но больше половины участников команды должны быть на площадке (Нижний Новгород)
[СОР] Siam ML Hack
⏰ Даты: 28.02 - 19.03 (рег. до 27.02)
💡 [REG] Трек 1. Обнаружение бинарных характеристик в данных. Необходимо разработать модель для распознавания ключевых паттернов и их характеристик в дискретных данных, отображаемых на специализированном графике.
💡 [TS] Трек 2. Выделение полезных данных для анализа. Цель — разработать алгоритм, который выявляет самые информативные участки временных рядов и четко определяет их начало и конец, чтобы в дальнейшем проводить более глубокий анализ.
💰 Приз: 1 000 000 р.
🏀 Участие: команда 1-5 человек
🌐 Формат: онлайн
[СОР] Data Fusion Contest 2025
⏰ Даты: 13.02 - 07.04
💡 [NLP] Label Craft — необходимо предсказать категорию товаров на основе не полных данных о товаре (названиях и их описаний).
💡 [TS] 4cast — прогнозирование временных рядов для клиентов банка (юридических лиц) на основе их профилей и истории транзакций.
💡 [REG] Distribution — необходимо создать алгоритм, способный предсказывать распределение остатков на счетах клиента на 2 месяца вперед.
💰 Приз: 3 000 000 р. + мерч
🏀 Участие: соло или командой (до 4 человек)
🌐 Формат: онлайн
[ХАК] Система Хак: Нижний Новгород
⏰ Даты: 15-16.02 (рег. до 13.02)
💡 [STT] Трек 1. Общение без барьеров. Задача – разработать систему генерации автоматических субтитров в реальном времени для интеграции на платформу МТС для видеозвонков, которая сделает онлайн-конференции доступнее для людей с особыми потребностями.
💡 [NLP] Трек 2. Удобный дом. Необходимо придумать и разработать улучшение для приложения, управляющего многоквартирным домом. Новая функция должна сделать сервис комфортнее для всех жильцов: например, автоматически включит домофон для ребенка или вызовет консьержа пожилому человеку.
💰 Приз: 750 000 р. + мерч всем участникам на площадке
🏀 Участие: команда 2-6 человек
🌐 Формат: гибрид , но больше половины участников команды должны быть на площадке (Нижний Новгород)
[СОР] Siam ML Hack
⏰ Даты: 28.02 - 19.03 (рег. до 27.02)
💡 [REG] Трек 1. Обнаружение бинарных характеристик в данных. Необходимо разработать модель для распознавания ключевых паттернов и их характеристик в дискретных данных, отображаемых на специализированном графике.
💡 [TS] Трек 2. Выделение полезных данных для анализа. Цель — разработать алгоритм, который выявляет самые информативные участки временных рядов и четко определяет их начало и конец, чтобы в дальнейшем проводить более глубокий анализ.
💰 Приз: 1 000 000 р.
🏀 Участие: команда 1-5 человек
🌐 Формат: онлайн
[СОР] Data Fusion Contest 2025
⏰ Даты: 13.02 - 07.04
💡 [NLP] Label Craft — необходимо предсказать категорию товаров на основе не полных данных о товаре (названиях и их описаний).
💡 [TS] 4cast — прогнозирование временных рядов для клиентов банка (юридических лиц) на основе их профилей и истории транзакций.
💡 [REG] Distribution — необходимо создать алгоритм, способный предсказывать распределение остатков на счетах клиента на 2 месяца вперед.
💰 Приз: 3 000 000 р. + мерч
🏀 Участие: соло или командой (до 4 человек)
🌐 Формат: онлайн
❤7⚡1👍1
Соревнования марта (выше добавил февральское соревнование Data Fusion Contest 2025):
[ХАК] Kryptonite ML Challenget
⏰ Даты: 01.03 - 09.03, 16.03 питчинг (рег. до 01.03)
💡 [CV] Необходимо обучить модель распознавания лиц, которая корректно работает с задачей верификации и определяет фальшивые изображения, созданные с помощью DeepFake-технологий.
💰 Приз: 600 000 р.
🏀 Участие: соло или командой
🌐 Формат: онлайн
[ХАК] Марафон Цифровых Решений
⏰ Даты: 17.03 - 14.04 (рег. до 17.03)
💡 [КОМ] Кейс 1 - Оптимизация процесса паллетизации товаров.
💡 [REG] Кейс 2 - прогнозирование и оценка упущенных продаж.
💡 [CV] Кейс 4 - автоматической верификации наличия товара в видео-клипах.
💡 [CLF] Кейс 5 - прогнозироdание ситовых характеристик пульпы.
💡 [REG] Кейс 6 - создание предиктивной модели износа техники.
💰 Приз: индивидуально на кейс (до 1 миллиона).
🏀 Участие: соло или командой
🌐 Формат: онлайн
[ХАК] Kryptonite ML Challenget
⏰ Даты: 01.03 - 09.03, 16.03 питчинг (рег. до 01.03)
💡 [CV] Необходимо обучить модель распознавания лиц, которая корректно работает с задачей верификации и определяет фальшивые изображения, созданные с помощью DeepFake-технологий.
💰 Приз: 600 000 р.
🏀 Участие: соло или командой
🌐 Формат: онлайн
[ХАК] Марафон Цифровых Решений
⏰ Даты: 17.03 - 14.04 (рег. до 17.03)
💡 [КОМ] Кейс 1 - Оптимизация процесса паллетизации товаров.
💡 [REG] Кейс 2 - прогнозирование и оценка упущенных продаж.
💡 [CV] Кейс 4 - автоматической верификации наличия товара в видео-клипах.
💡 [CLF] Кейс 5 - прогнозироdание ситовых характеристик пульпы.
💡 [REG] Кейс 6 - создание предиктивной модели износа техники.
💰 Приз: индивидуально на кейс (до 1 миллиона).
🏀 Участие: соло или командой
🌐 Формат: онлайн
⚡2❤1
Дополнительные источники заработка на апрель :)
[СОР] Avito ML Cup 2025
⏰ Даты: 31.03 - 28.05
💡 [REC] Задача 1. Персональные рекомендации: создать модель, которая предскажет интересные для пользователя товары на основе его действий на платформе.
💡 [CV] Задача 2. Поиск дублей: разработать решение для обнаружения одинаковых товаров.
💰 Приз: 1 200 000 рублей
🏀 Участие: соло или командой (до 4 человек)
🌐 Формат: онлайн
[ХАК] Tender Hack Москва
⏰ Даты: 04.04 - 06.04 (рег. до 04.04)
💡 [NLP] Реализация ИИ-ассистента для анализа поисковых запросов пользователей в режиме чата.
💰 Приз: 500 000 рублей
🏀 Участие: командой (от 3 до 5 человек)
🌐 Формат: офлайн (отель «Лесная Сафмар»)
[ХАК] LLM Coding Challenge
⏰ Даты: 10.04 - 19.04
💡 [NLP] Сервис структурирования сообщений от агрономов - необходимо разработать решение, которое позволит полностью автоматизировать процесс получения и обработки сообщений (от агрономов) в единую базу данных.
💡 [NLP] Репортер качества кода разработчиков - разработать решение для автоматического ревью кода.
💰 Приз: 600 000 рублей
🏀 Участие: командой (от 2 до 3 человек)
🌐 Формат: онлайн
[СОР] IT_ONE Cup
⏰ Даты: 12.04 - 29.04 (рег. до 11.04)
💡 [NLP] Трек 1 - Динамические контекстные подсказки для системного аналитика.
💡 [NLP] Трек 2 - AI-генератор дизайн-макетов по описанию требований.
💡 [NLP] Трек 3 - Система визуализации BPMN-диаграмм.
💰 Приз: 1 500 000 рублей
🏀 Участие: соло или командой (до 5 человек)
🌐 Формат: онлайн
[ХАК] МТС True Tech Hack
⏰ Даты: 17.04 - 22.04 (рег. до 16.04)
💡 [CV] TouchVision: AI-ассистент для незрячих и слабовидящих пользователей.
💡 [NLP] MWS GPT: разработай компактную модель «ученик» для эффективной и быстрой классификации текста, которая будет дистиллирована знаниями из тяжелой модели «учителя».
💰 Приз: 1 500 000 рублей
🏀 Участие: командой (от 2 до 5 человек)
🌐 Формат: онлайн
[СОР] Avito ML Cup 2025
⏰ Даты: 31.03 - 28.05
💡 [REC] Задача 1. Персональные рекомендации: создать модель, которая предскажет интересные для пользователя товары на основе его действий на платформе.
💡 [CV] Задача 2. Поиск дублей: разработать решение для обнаружения одинаковых товаров.
💰 Приз: 1 200 000 рублей
🏀 Участие: соло или командой (до 4 человек)
🌐 Формат: онлайн
[ХАК] Tender Hack Москва
⏰ Даты: 04.04 - 06.04 (рег. до 04.04)
💡 [NLP] Реализация ИИ-ассистента для анализа поисковых запросов пользователей в режиме чата.
💰 Приз: 500 000 рублей
🏀 Участие: командой (от 3 до 5 человек)
🌐 Формат: офлайн (отель «Лесная Сафмар»)
[ХАК] LLM Coding Challenge
⏰ Даты: 10.04 - 19.04
💡 [NLP] Сервис структурирования сообщений от агрономов - необходимо разработать решение, которое позволит полностью автоматизировать процесс получения и обработки сообщений (от агрономов) в единую базу данных.
💡 [NLP] Репортер качества кода разработчиков - разработать решение для автоматического ревью кода.
💰 Приз: 600 000 рублей
🏀 Участие: командой (от 2 до 3 человек)
🌐 Формат: онлайн
[СОР] IT_ONE Cup
⏰ Даты: 12.04 - 29.04 (рег. до 11.04)
💡 [NLP] Трек 1 - Динамические контекстные подсказки для системного аналитика.
💡 [NLP] Трек 2 - AI-генератор дизайн-макетов по описанию требований.
💡 [NLP] Трек 3 - Система визуализации BPMN-диаграмм.
💰 Приз: 1 500 000 рублей
🏀 Участие: соло или командой (до 5 человек)
🌐 Формат: онлайн
[ХАК] МТС True Tech Hack
⏰ Даты: 17.04 - 22.04 (рег. до 16.04)
💡 [CV] TouchVision: AI-ассистент для незрячих и слабовидящих пользователей.
💡 [NLP] MWS GPT: разработай компактную модель «ученик» для эффективной и быстрой классификации текста, которая будет дистиллирована знаниями из тяжелой модели «учителя».
💰 Приз: 1 500 000 рублей
🏀 Участие: командой (от 2 до 5 человек)
🌐 Формат: онлайн
⚡2👍2🤔2❤1🔥1
Forwarded from LLM is all you need
Запилил на Степике курс - Разработка LLM с нуля
В курсе вам предстоит с нуля реализовать все основные компоненты LLM:
- Токенизатор (BPE)
- Эмбеддинги (Токенов и Позиционные)
- Блок Декодера:
- Multi-Head Attention
- FeedForward-слои
- Остаточные связи
- Вероятностная генерация
После чего мы соберем и подготовим датасет и обучим свою LLM (pre-train).
Разработка будет вестиcь на Python и низкоуровневых компонентах PyTorch.
Курс платный. Следующие две недели по промокоду FIRST предоставляется скидка 50%.
В курсе вам предстоит с нуля реализовать все основные компоненты LLM:
- Токенизатор (BPE)
- Эмбеддинги (Токенов и Позиционные)
- Блок Декодера:
- Multi-Head Attention
- FeedForward-слои
- Остаточные связи
- Вероятностная генерация
После чего мы соберем и подготовим датасет и обучим свою LLM (pre-train).
Разработка будет вестиcь на Python и низкоуровневых компонентах PyTorch.
Курс платный. Следующие две недели по промокоду FIRST предоставляется скидка 50%.
🔥39❤6👍3😁2🤔2