Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
🔄Самый главный пост. Что это за канал?

Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс ⚡️, студент НИУ ВШЭ программы «Компьютерная лингвистика» и автор каналов Тагир Анализирует и Журнал «Зарплатник». Раньше я делал аналитику в Альфа-Банке🐤 и в Ozon💙

Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент

🗣Для кого этот канал?
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты

🗣Ссылки на соседние каналы
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2976😢3
🔄Графы в рекомендательных системах [часть 1]

Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей 💡

Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями 🙂

Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели 🚀

В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft 😊

Заваривайте чай и переходите читать статью по этой ссылке 🧠

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤‍🔥433
🔄Статья, которая чуть не осталась за кулисами

Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью 🐱

Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны" 😌

Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний 🐱

В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным 🙏

Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы? 😴😴

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
15🐳5❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔄Обучаем нейросеть проходить змейку в терминале

Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения 🪩

В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении📀

Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:

🔗Инициализация популяции: Начальная популяция агентов создаётся с случайными весами.

🔗Оценка производительности: Каждый агент оценивается по его способности собирать пищу и избегать столкновений.

🔗Отбор: Лучшие агенты выбираются для размножения на основе их "приспособленности" — чем дольше агент выживает и чем больше собирает пищи, тем выше его шансы быть выбранным для следующего поколения.

🔗Кроссовер и мутации: Веса выбранных агентов комбинируются и мутируют с небольшой вероятностью (0.1), создавая новое поколение агентов, которое потенциально наследует успешные стратегии своих предшественников.

Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы🖼️

Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?🎬

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳1171
🔄Подборка зарубежных мероприятий по Data Science

Принес вам подборку зарубежных школ и мероприятий в аналитике и Data Science. Взял подборку в канале моего товарища @computerscienceabroad, где публикуются подобные подборки об иностранных возможностях – PhD, cтажировки, работы и курсы🌐

Участие в подобных мероприятиях позволяет глубже погрузиться в сферу, обрасти полезными контактами и просто отдохнуть, а может – съездить в командировку🖼

Computational Linguistics Fall School
📌Где: University of Passau, Германия
🕐Когда: September 16 - 27

Data 2030 Summit 2024
📌Где: Стокгольм, Швеция/Онлайн
🕒Когда: 25-26 сентября 2024

Lambda World
📌Где: Кадис, Испания
🕓Когда: 2-4 октября 2024

Machine Learning Week Europe
📌Где: Мюнхен, Германия
🕐Когда: 18-19 ноября 2024

International Workshop on Adaptable, Reliable, and Responsible Learning
📌Где: Абу-Даби, ОАЭ
🕑Когда: 9 декабря 2024

Advanced Language Processing Winter School
📌Где: Centre Paul-Langevin, Франция
🕑Когда: 30 марта - 4 апреля 2025

Подавайте заявки, оформляйте командировки, ставьте реакции китов и записывайтесь на визу, если она вам нужна😁

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳1133
🔄Новый портал для тренировки алгоритмов

У Яндекса все свое. Не Jira, а Трекер. Не Zoom, а Телемост. Ребята даже свой SQL изобрели. А еще недавно они выпустили CodeRunтренажер для решения алгоритмов вдобавок к своему хэндбуку по алгоритмам, о котором я писал здесь 📒

Это аналог Leetcode, который делают наши коллеги из Яндекса. Из плюсов — там есть подборки по машинному обучению, анализу данных и других областей. Еще там есть авторские подборки от сотрудников — от руководителя ШАДа, от чемпиона мира ICPC 2023, от СТО Поиска и других людей 🖥

А еще до 27 августа проходит контест среди участников, где лучшим подарят какие-то призы и фаст-трек на собесы. Очевидно, что такие вещи делаются для найма — если хотите в Яндекс, то можно что-то порешать для тренировки 💻

Из минусов — некоторые люди пишут, что заходят в Easy задачки, ничего не понимают и выходят. Сам я еще не решал, но добавил себе в копилку ресурсов для момента, когда буду снова ботать алгоритмы 🕷

А вы уже решали задачки на CodeRun? Там правда такие сложные задачи? Ставьте реакции китов 🐳 — нас обязательно заметят и сделают еще один сервис под названием Яндекс Кит ✉️

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
50🐳27🔥3❤‍🔥211
🔄Главный миф, который стоит за Leetcode

Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это? 👋

У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы? 💺

Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы 👓

Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код 💃

Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам 💻

Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным 🔍

Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса? 👀

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
51156🐳3🔥2❤‍🔥1
🔄Практикуем математику в формате LeetCode

На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований🖍️

Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь 📥

На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи 📁

Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы? 🖼️
Please open Telegram to view this post
VIEW IN TELEGRAM
51🐳13❤‍🔥321
🔄 Зачем тестировать ML-системы?

Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы? 🪟

Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации 🔥

Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов 😵

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
194🔥4❤‍🔥1
📱 Illuminate by Google: paper to podcast service

Google запустил в экспериментальном формате проект Illuminatetext-to-speech сервис, который превращает научные статьи по computer science в подкаст 🎧

Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы 🤫

На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет 🤗

Вот несколько примеров генераций:

⚡️Attention Is All You Need: audio, paper
⚡️Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: audio, paper
⚡️Efficient Estimation of Word Representations in Vector Space: audio, paper

Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок 🤔

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1🐳13🔥82👨‍💻1
🎵 Как Spotify ускорил разметку данных для ML в 10 раз

Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности

В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы

Их стратегия разметки строится на трех столпах:

⚡️ Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
⚡️ Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
⚡️ Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте 🎵

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥1233
🤝 Результаты эксперимента «AI Art Turing Test»

В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом

Вот некоторые цифры из результатов:

🤝 Средняя точность ответов участников составила примерно 60%
🤝 Только около 5% участников смогли правильно идентифицировать более 75% изображений.
🤝 Примерно 25% участников показали точность ниже 50%
🤝 Некоторые изображения вводили в заблуждение особенно часто: одно из AI generated изображений было идентифицировано как человеческое более чем в 70% случаев.

Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥742
😃 Kaggle x Child Mind Institute: произошел шейкап

Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности 😡

Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год 🤡

Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования 🔘

Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да? 😇

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳12🔥41🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Paragraphica: context-to-image camera

Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:

🖍️Принцип работы: камера анализирует данные о местоположении — адрес, погоду, время суток и близлежащие объекты. На основе этих данных она генерирует текстовое описание текущего места.

🖍️Технология: с помощью AI image synthesis, текстовое описание преобразуется в визуальное изображение. Это не обычное фото, а визуализация данных, отражающая сущность момента и место, в котором вы находитесь.

🖍️ Оборудование: Raspberry Pi 4, 15-дюймовый сенсорный экран, 3D-печатный корпус, индивидуальная электроника.

🖍️Программное обеспечение: Noodl, Python, API Stable Diffusion.

Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥10🔥3🐳3
🧿 Live: Introduction to Operator & Agents

Только что началась трансляция на YouTube канале OpenAI про фичу оператора.

Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg

Статья: https://openai.com/index/computer-using-agent/

Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳4❤‍🔥21
⌨️ Change of plans: OpenAI edition

Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев

И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!

Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля? 😭

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
92😢2🐳1
Media is too big
VIEW IN TELEGRAM
🤖 TidyBot++: применение, статья, код

Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)

Вот они, слева направо: сайт, статья, GitHub

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🐳21
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир

Если коротко, десять лет обучения сжали в две часа симуляции-тренировки

А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:

«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
🔥8🐳62
Forwarded from Рисерчошная
💬 Yet another dataset?

Сегодня — честный обзор на уже захайпленный датасет.
Если вы когда-либо занимались ресерчем в рексисе, то точно сталкивались с проблемами датасетов.
(Можно вспомнить классическую статью Are We Really Making Much Progress?)

Сначала — немного боли из прошлого:
— гигантский гэп между train и test
— однотипный фидбек
— отсутствие разнообразия пользовательских паттернов

И это всё — на фоне постоянных споров в академии про то, что вообще считается хорошим датасетом.

Даже если вы соберёте SOTA-модель — она может просто не «прокраситься» на кривом сете.
Ну серьёзно, в том же MovieLens test отстоит от train на несколько лет.

И вот — датасет от Яндекс Музыки.
Огромный:
4.78 млрд взаимодействий
9.39 млн треков
1 млн пользователей
и впервые — флаг is_organic, который показывает:
пришёл ли пользователь к треку сам или его привёл алгоритм

С одной стороны — это прям must-have для исследовательского пула.
Многоуровневый фидбек:
implicit (прослушивания)
explicit (лайки, дизлайки, отмены)

Даже эмбеддинги спектрограмм есть.

А ещё — продуманный split:
leave-one-last
temporal global
(приложу картинку в комментах — очень в тему для продовой оценки)

По сравнению с Netflix, Steam и прочими — это реально большой и комплексный датасет.

Я бы еще упомянул о бенчмарках и красивом коде куда на мой взгляд легко интегрировать свои решения.

Один момент, о котором почти никто не говорит — это домен.

Яндекс Музыка — это, как и TikTok, продукт с ярко выраженными короткими и длинными предпочтениями.
Здесь трансформеры можно не просто тестировать — здесь они раскрываются.

Но. Доверяй, но проверяй.
👀 Насколько честно размечена органика?
👀 Подходит ли датасет для cold-start задач?
👀 Для многих экспериментов вокруг LLM, мне бы хотелось увидеть больше фичей о пользователях, да и в целом фичей. (btw я понимаю, из-за чего их не включают)

Спасибо ребятам из Яндекса за такой летний подгон.
Реально мощный вклад в сообщество, действительно мало компаний могут себе это позволить.

➡️ Hugging Face и arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM
5🐳53