Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности
Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год
Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования
Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳12🔥4❤1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:
Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤🔥10🔥3🐳3
Только что началась трансляция на YouTube канале OpenAI про фичу оператора.
Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg
Статья: https://openai.com/index/computer-using-agent/
Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Introduction to Operator & Agents
Begins at 10am PT
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
🐳4❤🔥2⚡1
Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев
И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!
Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡9❤2😢2🐳1
Media is too big
VIEW IN TELEGRAM
Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)
Вот они, слева направо: сайт, статья, GitHub
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🐳2❤1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
🔥8🐳6❤2
Forwarded from Рисерчошная
huggingface.co
yandex/yambda · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Сегодня — честный обзор на уже захайпленный датасет.
Если вы когда-либо занимались ресерчем в рексисе, то точно сталкивались с проблемами датасетов.
(Можно вспомнить классическую статью Are We Really Making Much Progress?)
Сначала — немного боли из прошлого:
— гигантский гэп между train и test
— однотипный фидбек
— отсутствие разнообразия пользовательских паттернов
И это всё — на фоне постоянных споров в академии про то, что вообще считается хорошим датасетом.
Даже если вы соберёте SOTA-модель — она может просто не «прокраситься» на кривом сете.
Ну серьёзно, в том же MovieLens test отстоит от train на несколько лет.
И вот — датасет от Яндекс Музыки.
Огромный:
пришёл ли пользователь к треку сам или его привёл алгоритм
С одной стороны — это прям must-have для исследовательского пула.
Многоуровневый фидбек:
Даже эмбеддинги спектрограмм есть.
А ещё — продуманный split:
(приложу картинку в комментах — очень в тему для продовой оценки)
По сравнению с Netflix, Steam и прочими — это реально большой и комплексный датасет.
Я бы еще упомянул о бенчмарках и красивом коде куда на мой взгляд легко интегрировать свои решения.
Один момент, о котором почти никто не говорит — это домен.
Яндекс Музыка — это, как и TikTok, продукт с ярко выраженными короткими и длинными предпочтениями.
Здесь трансформеры можно не просто тестировать — здесь они раскрываются.
Но. Доверяй, но проверяй.
Спасибо ребятам из Яндекса за такой летний подгон.
Реально мощный вклад в сообщество, действительно мало компаний могут себе это позволить.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🐳5⚡3