Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
🔄Главный миф, который стоит за Leetcode

Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это? 👋

У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы? 💺

Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы 👓

Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код 💃

Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам 💻

Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным 🔍

Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса? 👀

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
51156🐳3🔥2❤‍🔥1
🔄Практикуем математику в формате LeetCode

На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований🖍️

Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь 📥

На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи 📁

Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы? 🖼️
Please open Telegram to view this post
VIEW IN TELEGRAM
51🐳13❤‍🔥321
🔄 Зачем тестировать ML-системы?

Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы? 🪟

Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации 🔥

Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов 😵

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
194🔥4❤‍🔥1
📱 Illuminate by Google: paper to podcast service

Google запустил в экспериментальном формате проект Illuminatetext-to-speech сервис, который превращает научные статьи по computer science в подкаст 🎧

Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы 🤫

На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет 🤗

Вот несколько примеров генераций:

⚡️Attention Is All You Need: audio, paper
⚡️Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: audio, paper
⚡️Efficient Estimation of Word Representations in Vector Space: audio, paper

Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок 🤔

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1🐳13🔥82👨‍💻1
🎵 Как Spotify ускорил разметку данных для ML в 10 раз

Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности

В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы

Их стратегия разметки строится на трех столпах:

⚡️ Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
⚡️ Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
⚡️ Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте 🎵

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥1233
🤝 Результаты эксперимента «AI Art Turing Test»

В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом

Вот некоторые цифры из результатов:

🤝 Средняя точность ответов участников составила примерно 60%
🤝 Только около 5% участников смогли правильно идентифицировать более 75% изображений.
🤝 Примерно 25% участников показали точность ниже 50%
🤝 Некоторые изображения вводили в заблуждение особенно часто: одно из AI generated изображений было идентифицировано как человеческое более чем в 70% случаев.

Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥742
😃 Kaggle x Child Mind Institute: произошел шейкап

Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности 😡

Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год 🤡

Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования 🔘

Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да? 😇

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳12🔥41🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Paragraphica: context-to-image camera

Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:

🖍️Принцип работы: камера анализирует данные о местоположении — адрес, погоду, время суток и близлежащие объекты. На основе этих данных она генерирует текстовое описание текущего места.

🖍️Технология: с помощью AI image synthesis, текстовое описание преобразуется в визуальное изображение. Это не обычное фото, а визуализация данных, отражающая сущность момента и место, в котором вы находитесь.

🖍️ Оборудование: Raspberry Pi 4, 15-дюймовый сенсорный экран, 3D-печатный корпус, индивидуальная электроника.

🖍️Программное обеспечение: Noodl, Python, API Stable Diffusion.

Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥10🔥3🐳3
🧿 Live: Introduction to Operator & Agents

Только что началась трансляция на YouTube канале OpenAI про фичу оператора.

Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg

Статья: https://openai.com/index/computer-using-agent/

Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳4❤‍🔥21
⌨️ Change of plans: OpenAI edition

Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев

И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!

Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля? 😭

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
92😢2🐳1
Media is too big
VIEW IN TELEGRAM
🤖 TidyBot++: применение, статья, код

Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)

Вот они, слева направо: сайт, статья, GitHub

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🐳21
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир

Если коротко, десять лет обучения сжали в две часа симуляции-тренировки

А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:

«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
🔥8🐳62
Forwarded from Рисерчошная
💬 Yet another dataset?

Сегодня — честный обзор на уже захайпленный датасет.
Если вы когда-либо занимались ресерчем в рексисе, то точно сталкивались с проблемами датасетов.
(Можно вспомнить классическую статью Are We Really Making Much Progress?)

Сначала — немного боли из прошлого:
— гигантский гэп между train и test
— однотипный фидбек
— отсутствие разнообразия пользовательских паттернов

И это всё — на фоне постоянных споров в академии про то, что вообще считается хорошим датасетом.

Даже если вы соберёте SOTA-модель — она может просто не «прокраситься» на кривом сете.
Ну серьёзно, в том же MovieLens test отстоит от train на несколько лет.

И вот — датасет от Яндекс Музыки.
Огромный:
4.78 млрд взаимодействий
9.39 млн треков
1 млн пользователей
и впервые — флаг is_organic, который показывает:
пришёл ли пользователь к треку сам или его привёл алгоритм

С одной стороны — это прям must-have для исследовательского пула.
Многоуровневый фидбек:
implicit (прослушивания)
explicit (лайки, дизлайки, отмены)

Даже эмбеддинги спектрограмм есть.

А ещё — продуманный split:
leave-one-last
temporal global
(приложу картинку в комментах — очень в тему для продовой оценки)

По сравнению с Netflix, Steam и прочими — это реально большой и комплексный датасет.

Я бы еще упомянул о бенчмарках и красивом коде куда на мой взгляд легко интегрировать свои решения.

Один момент, о котором почти никто не говорит — это домен.

Яндекс Музыка — это, как и TikTok, продукт с ярко выраженными короткими и длинными предпочтениями.
Здесь трансформеры можно не просто тестировать — здесь они раскрываются.

Но. Доверяй, но проверяй.
👀 Насколько честно размечена органика?
👀 Подходит ли датасет для cold-start задач?
👀 Для многих экспериментов вокруг LLM, мне бы хотелось увидеть больше фичей о пользователях, да и в целом фичей. (btw я понимаю, из-за чего их не включают)

Спасибо ребятам из Яндекса за такой летний подгон.
Реально мощный вклад в сообщество, действительно мало компаний могут себе это позволить.

➡️ Hugging Face и arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM
5🐳53