Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Forwarded from Al Talent Hub
Наше комьюнити едино общими целями и ценностями. Одна из них — развитие в AI/ML.
Делимся папкой каналов, которые читают, рекомендуют и создают участники нашего комьюнити 💛

Подписаться на всю папку можно одной кнопкой:
https://t.iss.one/addlist/rVTsaVFgjHpjZTRi

Делитесь в комментариях, что еще добавить в подборку 👇
🎉14😢6🐳5❤‍🔥311
🎉 Анонс: Создание клуба Whale Data Science! 🐋🔬

Если вы тоже замечаете магию, стоящую за гигантскими объемами данных, встречайте - клуб Whale Data Science! Наш новый современный коллектив состоит всего из восьми избранных участников, которые, несомненно, внесут свой уникальный вклад в область Data Science.

Наша цель - обмен знаниями, идеями и опытом в мире Data Science и Искусственного Интеллекта.

Следите за нашими обновлениями и постами. Вместе мы сможем раскрыть все возможности, которые дает нам Data Science, и открыть для себя новые горизонты знаний! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳225🔥4😢2👨‍💻1
С днем рождения меня 🎂
🎉99❤‍🔥76🔥6🏆3😢1
Виртуальное окружение

Все ещё встречаю людей, которые не понимают что такое виртуальное окружение, а подробного гайда я так и не выпустил.

Большинство студентов karpov.courses устанавливают anaconda, но мало кто знает какие проблемы она за собой несёт.


Как интуитивно это работает?
Представьте, что ваш python это планета. На единый материк и на этом материке живут некоторые животные (пакеты, библиотеки).
Конечно лев не сможет жить в Антарктиде, так же как белый медведь в Сахаре, так и ваши проекты их пакеты не могут находиться одинаково во всех проектов.

Что бы этого избежать вы изолируете вашу планету на отдельные куски — метрики, регионы, зоны. В каждом из ваших метриков (виртуальных окружений) есть отдельный набор животных, которые не выходят за рамки этого материка.


Проблема анаконды
После удаление анаконды, ее виртуальное окружение не удаляется и остаются некоторые участки, которые мешают для дальнейшей работы.

Это можно понять если в терминале у вас например остался
(base) : |

Более того у нее стоит свой python и в вашем терминале .bashrc указан путь именно к нему, а не к новым python, которые вы устанавливаете.


Инструкция
1. Откройте терминал
2. Зайдите в папку с проектом
3. Введите python -m venv venv
4. Появится папочка venv
5. Что бы активировать окружение
source venv/bin/activate
у вас появится в терминале слева от ввода строки и имя пользователя (venv) это название вашего окружения
6. Что бы деактивировать — deactivate

Давайте соберём 100 реактов 🐳
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳90🔥7🏆3👨‍💻3
Noteable — плагин для автоматизации EDA

Я достаточно часто пользуюсь ChatGPT для упрощения рутины. И тут наткнулся на такой плагин как noteable.

В GPT4 добавили интерпретатор и теперь он умеет запускать код и делать отладку. А значит с некоторыми плагинами и инструкциями теперь можно автоматизировать куча процессов.

Хотите найти инсайты? Быстро исследовать данные? Определить пользовательские предпочтения? Этот плагин будет для вас.

А какими плагинами пользуетесь вы? Делитесь в комментариях!

Жду от вас 100 🐳 реактов и расскажу о том как оплатить ChatGPT, если у вас нет зарубежной карты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳108🔥3
🌟 Крупный розыгрыш мерча в честь 5.000 подписчиков

Постов на этом канале хватит, чтобы написать какую-нибудь плохую книгу про аналитику. Меня всегда забавляли названия книг про IT — голая статистика, гладиаторы/пираты и игры на доверии, измеряйте самое важное. Обложки O'Reilly тоже интересные — обычно туда ставят рандомное животное👍

В этот раз для розыгрыша я устроил коллаборацию с рядом крутых компаний. Все компании из списка выстраивают хороший айти бренд, проводят мероприятия, ведут каналы и предлагают приятные условия работы💍

Призы
Будет 5 призовых мест. Каждый победитель получит набор мерча. В призовом фонде (который потом будет делиться) есть толстовки, кружки, коврики для мыши, носки, брелки, стикеры и многое другое🤡

Условия
🗣Подписаться на канал @tagir_analyzes
🗣Поставить реакцию кита 🐳 к этому посту
🗣Придумать и написать в комментариях забавное название книги про аналитику с хэштэгом #книга

Правила
Один участник — один комментарий. В одном комментарии может быть несколько названий. Призы я отправляю за свой счет по территории России😕

Как и когда определим победителей
С помощью рандомайзера в день моего рождения 2го сентября 🎧

Благодарности читателям
Спасибо, что читаете этот канал! С сентября я вернусь к режиму публикаций 2 раза в неделю, введу регулярные рубрики и буду рассказывать много полезных вещей. Всех обнимаю!😈

Благодарности компаниям за призовой фонд
Большое спасибо за мерч коллегам из AvitoTech 💚 @avitotech, Alfa Digital 🍸 @alfadigital_jobs, Ozon Tech 💙 @ozon_tech, Samokat.teсh 🚴‍♀️ @samokat_tech , SberMarket Tech 👀 @sbermarket_tech, Yandex Go 🥹
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳304❤‍🔥2
Уверены ли вы, что блоггеры на которых вы подписаны настоящие?
Anonymous Poll
56%
Они настоящие!
44%
ChatGPT API
🐳9
А вот и осень, первые холода и депрессия

Сегодня закончилось мероприятие AI TALLENT HUB в рамках которого я совместно с @bogdanisssimo, @ai_minds и @AnTkDm делали AI INFLUENCE.

Идея в том, что бы создать инструмент для автоматизации работы с контентом.

Самые популярные каналы ~ обзорные каналы на какие-то новости, инструменты и тд.

Наш проект к сожалению не оценили ребята из ИТМО, меня честно задела фраза мол нет потенциала, АИ не умеет создавать ничего нового.
Сразу вспоминается следующее:
- ИИ никогда не сможет написать симфонию
- А вы сможете?

Вернёмся к каналам, вы, наверное все знаете канал Игоря Котенкова. Вам всем нравится как он обозревает те или иные вещи в сфере АИ. Почему бы не автоматизировать этот процесс. Да он не будет такой же углублённый или мемный. Если вы рисерчер, то вы очевидно следите за Женей из @j_links.

Так почему бы не автоматизировать процесс обработки папир?
Почему бы не автоматизировать новостные дайджесты?
Почему бы не автоматизировать перевод зарубежных подкастов, статей?

Сейчас бот умеет:
- В автономном или полуавтоном режиме писать в канал
- Делать обзор на посты других каналов
- Daily посты на тему X

Если вам стало интересно что из этого получится, подпишитесь на канал @ImNotAuthentic сделаю туда пост о том почему человек, как и GPT не создаёт ничего нового!

Жду от вас реакты тонну 🐳
и помните: новое — хорошо забытое старое @notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳35🔥64
🗳️ Голосование за сторисы

— Обновить телеграм
— Иметь премиум подписку (к сожалению)
— Перейти по ссылке и проголосовать, нужно всего 16 голосов
— Смотреть сторис канала 💙

https://t.iss.one/notedatascience?boost
🔥5😢3
Autogen от Microsoft

Пока в OpenAI происходит драма, я расскажу вам о том как ChatGPT научился писать, запускать и проверять код за вас, и как в этом процессе используются принципы, знакомые нам из ролевых игр.

https://dzen.ru/media/notedatascience/autogen-ot-microsoft-655b8b4e73d46a0214b16e78
6😢5🐳3🔥1
Сейчас очень много слухов и фейков происходит вокруг ОпенАИ. Лично я читаю канал Игоря - Сиолошная, он только проверенную инфу постит и по делу.

https://t.iss.one/seeallochnaya
7🔥3😢2
Forwarded from 🔎 PostFinder BLOG
Как перестать скроллить и НАЙТИ?

Мы хотели бы с вами поделиться первыми результатами нашего бота!

Если вы постоянно теряетесь в ТОННЕ КОНТЕНТА, приходиться листать БЕСКОНЕЧНОЕ количество постов и никак не можете найти ТОТ САМЫЙ пост? То вы пришли в нужное место!

В комментариях прикладываем скрины первых результатов!
🔥9
Forwarded from Рисерчошная
ПРЕВРАТИТЕ СВОЙ ПЕТ-ПРОЕКТ ИЗ ХОББИ В КАРЬЕРУ

Написал свой долгожданный пост на ХАБР, где рассказал как делать достойные пет-проекты, который помогут вам быстро развиваться!

Затронул очень много тем:
🛠 о том как быстро набирать навыки и стоп флажках в обучении
🏆 какие пет-проекты успешные и почему они станут вашим будущим стартапом
🚀 какие есть этапы в пет-проектах и почему вам нужны пользователи
💪 как не потерять мотивацию
🔍 и оформить это в резюме!


ЧИТАТЬ ПО ССЫЛКЕ

Отдать голос за канал

https://t.iss.one/boost/persecond300k

#EDUCATION
🔥175
Forwarded from WildRecSys
Продолжаем раскрывать тему трансформеров в проде.

Сегодня про переход от задачи next item prediction к задаче next basket prediction, комбинирование фидбека и переиспользование эмбеддингов в других задачах.

https://telegra.ph/Vyzhimaem-maksimum-iz-ALBERT4Rec-04-09
1🔥1
Forwarded from Рисерчошная
‼️ ОТКУДА DEEZER ЗНАЕТ, КАКАЯ МУЗЫКА НРАВИТСЯ НОВЫМ ПОЛЬЗОВАТЕЛЯМ?

В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!

В статье вы можете узнать про:
1️⃣ Почему холодный старт важен
2️⃣ Зачем сервисы следят за вами
3️⃣ Зачем нужна кластеризация
4️⃣ Как Deezer научились персонализировать Cold Start

ЧИТАТЬ ПО ССЫЛКЕ


Отдать голос за канал
https://t.iss.one/boost/persecond300k

Вступить в чат
https://t.iss.one/persecond300kchat

#RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from Сиолошная
Вместе с Данилом с канала @persecond300k подготовили для себя и для вас Бинго-карточку для предстоящей трансляции OpenAI, чтоб было интереснее наблюдать!

Некоторые факты субъективные (например, что такое «существенные улучшения»?), но мы постараемся судить объективно! 👍

Правила такие:
1. Когда случается то, что написано — вычёркиваем или обводим
2. Когда выбиваем линию — выпиваете (алкоголь, содовую или сок)
3. Если закрыто 3 линии — то повторяем «Ну Сама, ну даёт!»

Заполненные карточки по ходу трансляции можно скидывать в чат или в комментарии к этому посту!

(файл в оригинальном разрешении скину в комментарии)
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🔄Рекомендации аудиокниг в Spotify

Недавно Spotify представил пользователям аудиокниги. Новый тип контента требует новых алгоритмов персонализированных рекомендаций. В своей новой статье AI рисерчеры из компании рассказывают о том, как они решали эту задачу 🎵

Аудиокниги, в отличие от музыки и подкастов, требуют более точных рекомендаций, так как пользователи не могут прослушать их перед покупкой. Здесь же возникает еще больше проблем с данными, потому что большинство пользователей ещё не знакомы с аудиокнигами на платформе 👋

В Spotify разработали систему рекомендаций 2T-HGNN. Используя гетерогенные графовые нейронные сети и Two Tower model, они улучшили точность рекомендаций. Этот подход уменьшает сложность модели и повышает её скорость 🙂

Текущие результаты: +46% к числу новых запусков аудиокниг и +23% к общему времени прослушивания. Более того, модель положительно повлияла и на уже знакомые пользователям подкасты 🤣

Пишите в комментариях, что вы думаете о таком подходе? Какие сложности вы видите при работе с рекомендациями аудиокниг? Ставьте реакции китов 🐳

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
7🐳5❤‍🔥4🔥21👨‍💻1
VWE (Variance Weighted Estimator) - как еще один метод снижения дисперсии.

🚙 Зачем это нужно?

Мы хотим по-прежнему снизить дисперсию для преобразования метрики к более чувствительной. Как следствие - снижение длительности эксперимента.

💡 Основная идея

Дать пользователям с меньшей дисперсией метрики больший вес для снижения общей дисперсии эффекта.

🖥 Как реализовать?

Предположим, мы хотим оценить ARPU и применить к выручке на пользователя для того чтобы снизить дисперсию. Основная реализация заключается в том, что мы смотрим на то, как изменялась метрика в предпериоде и тем самым мы знаем ее дисперсию и как следствие вес. Затем, мы берем вес для метрики на пользователя, равный 1 / дисперсию, тем самым становится очевидно, что при больших дисперсиях вес становится меньше и затем рассчитываем среднее в группе A и группе B. Код который можно реализовать у себя ниже при сплите 50 / 50 с историей в 21 день (это также можно поресерчить, например, если у нас есть бОльшая история по пользователям, будет меньшее смещение, как мне кажется). Чем-то похоже на стратификацию, где каждой страте мы присваиваем вес, только здесь вес рассчитывается на истории пользователя:

import numpy as np
import pandas as pd

n_users = 1000
days = 21
pre_experiment_revenue = np.random.normal(loc=5, scale=2, size=(n_users, days))

control_group_revenue = np.random.normal(loc=5, scale=2, size=500)
treatment_group_revenue = np.random.normal(loc=5.5, scale=2, size=500)

pre_experiment_df = pd.DataFrame(pre_experiment_revenue, columns=[f'day_{i+1}' for i in range(days)])
pre_experiment_df['user_id'] = np.arange(n_users)

experiment_df = pd.DataFrame({
'user_id': np.arange(n_users),
'group': ['control'] * (n_users // 2) + ['treatment'] * (n_users - n_users // 2),
'revenue': np.concatenate([control_group_revenue, treatment_group_revenue])
})

data = pd.merge(experiment_df, pre_experiment_df, on='user_id')
data['user_variance'] = data[[f'day_{i+1}' for i in range(days)]].var(axis=1)
data['weight'] = 1 / data['user_variance']
data['weighted_revenue'] = data['revenue'] * data['weight']


👎 Минусы VWE:

Аномалии могут поломать оценку
Метод может быть чувствителен к аномальным значениям в предэкспериментальных данных, что может привести к некорректным оценкам весов

Необходима история по пользователям, должна быть богатая история по действиям, например, когда замеряем CTR
VWE требует значительного объема предэкспериментальных данных для точного расчета дисперсий и весов. В случае недостатка данных, результаты могут быть менее надежными

Может давать смещение
При расчете в оценке среднего мы можем получить небольшое смещение из-за перевзвешивания. Другая задача - это получение несмещенной оценки (например, как корректировка средним значением в преэкспериментальной группе при CUPED

Можно использовать с CUPED с уже перевзвешенными значениями. В статье от Facebook удалось добиться следующих результатов по снижению дисперсии в %.

CUPED only - 37,24%
VWE only - 17,31%
CUPED + VWE - 48,38%


На стратификации не смотрели, как я понимаю, но можно было бы еще, наверное снизить либо есть какие-то ограничения про которые я не знаю. А с Ratio-метрикой так вообще прикол: линеаризируем, VWE, CUPED, стратификацию

Этот метод еще освещался на Avito Analytics Meetup + был разбор статьи на YouTube

😉 Ставьте реакции, если пост был полезен, пишите комментарии. Дальше разберем стратификацию и линеаризиацию
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1111❤‍🔥1
🔄Активные денежные соревнования на Kaggle

Собрал для вас подборку из 9 соревнований на Kaggle, к которым еще можно присоединиться. Призовой фонд в каждом из них — от $50.000 до $1.100.000. Некоторые соревнования заканчиваются уже совсем скоро, а некоторые запустили пару дней назад 🤡

Вот сами соревнования с ссылками:

🗣Learning Agency Lab - Automated Essay Scoring 2.0 | ссылка
Цель: Улучшение алгоритмов оценки эссе для повышения образовательных результатов студентов.
Количество команд: 2694.
Дата завершения: 1 июля 2024.

🗣NeurIPS 2024 - Predict New Medicines with BELKA | ссылка
Цель: Прогнозирование взаимодействий малых молекул с белками с использованием BELKA.
Количество команд: 1835.
Дата завершения: 9 июля 2024.

🗣LEAP - Atmospheric Physics using AI (ClimSim) | ссылка
Цель: Симуляция высокого разрешения атмосферных процессов с использованием климатической модели.
Количество команд: 449.
Дата завершения: 16 июля 2024.

🗣USPTO - Explainable AI for Patent Professionals | ссылка
Цель: Помощь патентным специалистам в понимании результатов ИИ через привычный язык запросов.
Количество команд: 315.
Дата завершения: 25 июля 2024.

🗣LMSYS - Chatbot Arena Human Preference Predictions | ссылка
Цель: Прогнозирование предпочтений пользователей.
Количество команд: 929.
Дата завершения: 29 июля 2024.

🗣LLM 20 Questions | ссылка
Цель: Угадать секретное слово в сотрудничестве.
Количество команд: 362.
Дата завершения: 29 июля 2024.

🗣ISIC 2024 - Skin Cancer Detection with 3D-TBP | ссылка
Цель: Определение рака кожи на обрезанных фотографиях из 3D-снимков всего тела.
Количество команд: 129.
Дата завершения: 29 августа 2024.

🗣RSNA 2024 Lumbar Spine Degenerative Classification | ссылка
Цель: Классификация дегенеративных состояний поясничного отдела позвоночника.
Количество команд: 519.
Дата завершения: 29 сентября 2024.

🗣ARC Prize 2024 | ссылка
Цель: Разработка ИИ-систем, способных эффективно осваивать новые навыки и решать открытые задачи без полагания исключительно на обширные наборы данных.
Количество команд: 315.
Дата завершения: 29 октября 2024.

Пишите в комментариях, планируете ли вы участвовать в каком-то из соревнований. Если у вас есть интерес к какому-то из соревнований, я готов подробнее рассказать о нем в отдельном посте. С вас — реакции 🐳

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳10❤‍🔥31
🔄Самый главный пост. Что это за канал?

Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс ⚡️, студент НИУ ВШЭ программы «Компьютерная лингвистика» и автор каналов Тагир Анализирует и Журнал «Зарплатник». Раньше я делал аналитику в Альфа-Банке🐤 и в Ozon💙

Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент

🗣Для кого этот канал?
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты

🗣Ссылки на соседние каналы
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2976😢3