🎉🎄Новогодний квиз на «Start Career in DS»
🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.
🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.
❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
Как участвовать:
1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!
🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"
Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!
🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.
🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.
❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
Как участвовать:
1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!
🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"
Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!
❤46🔥9👍7
🎊🎄«Новогодний квиз» [Ч.1]
Вопросы о нашем канале за последний год:
1️⃣ Сколько постов на нашем канале вышло за 2024 год?
2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?
3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?
🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!
Также ждём ваших реакций ❤️ и 🔥под постом!
Вопросы о нашем канале за последний год:
1️⃣ Сколько постов на нашем канале вышло за 2024 год?
2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?
3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?
🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!
Также ждём ваших реакций ❤️ и 🔥под постом!
🔥12❤3
🎄🪄«Новогодний квиз» [Ч.2]
Общие вопросы по Machine Learning:
1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?
2️⃣ Что такое data leakage? И какие существуют способы его избежать?
3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.
4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?
5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?
👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!
Общие вопросы по Machine Learning:
1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?
2️⃣ Что такое data leakage? И какие существуют способы его избежать?
3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.
4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?
5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?
👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!
❤12🔥5🤩1
🏆 Рады сообщить об окончании новогоднего квиза и поздравить участников и победителей!
⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!
🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!
💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️
Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!
⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!
🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!
💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️
Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!
🔥18❤7👍4❤🔥1
🩵 Итоги 2024 и планы на 2025!
Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)
Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂
Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS
Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)
Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!
Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)
Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂
Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS
Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)
Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!
❤🔥37❤25👍8🔥4
🔗 Базовая теория по DL, которую должен знать каждый
👨💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.
1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.
2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.
3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.
4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.
5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.
📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей
Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋
👨💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.
1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.
2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.
3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.
4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.
5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.
📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей
Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋
❤57🔥25👍12❤🔥3
Всем привет!
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»
Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.
Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»
Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.
Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)
❤17🔥8❤🔥1
📊 Как оценивать LLM: бенчмарки [Ч.2]
В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.
❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.
Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели
🗑Виды бенчмарков:
1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию
2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.
3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.
📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"
Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂
В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.
❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.
Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели
🗑Виды бенчмарков:
1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию
2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.
3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.
📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"
Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂
❤22🔥6👍2
📚 Книги по ML/DS
Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚
💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться:
0. Роман с Data Science
Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих
1. Машинное обучение для бизнеса и маркетинга
На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!)
2. DS для карьериста
Достаточно старая книжка, но многие советы ещё актуальны!
Про то, как строить карьеру в DS
💼 Если хотите натаскаться к собеседованиям и отточить знания основ:
0. [ENG]Cracking the coding interview
Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению
1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями
- Грокаем алгоритмы
- Грокаем машинное обучение
- Грокаем глубокое обучение
2. Доверительное А/В-тестирование
Ключевые идеи АВ-тестирования понятным языком
🥷 Если уже знаете основы и хотите углубить свои знания:
0. [ENG]Machine Learning System Design
Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂
1. [ENG]Understanding Deep Learning
Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024)
Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!
Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚
💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться:
0. Роман с Data Science
Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих
1. Машинное обучение для бизнеса и маркетинга
На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!)
2. DS для карьериста
Достаточно старая книжка, но многие советы ещё актуальны!
Про то, как строить карьеру в DS
💼 Если хотите натаскаться к собеседованиям и отточить знания основ:
0. [ENG]Cracking the coding interview
Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению
1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями
- Грокаем алгоритмы
- Грокаем машинное обучение
- Грокаем глубокое обучение
2. Доверительное А/В-тестирование
Ключевые идеи АВ-тестирования понятным языком
🥷 Если уже знаете основы и хотите углубить свои знания:
0. [ENG]Machine Learning System Design
Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂
1. [ENG]Understanding Deep Learning
Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024)
Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!
❤50🔥25👍8😁1
💻 Где искать вакансии в Data-профессиях?
Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂
Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.):
1. Your Dream Data Job
Вакансии на позиции в аналитике/ml/data science в российские компании .
К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции.
2. Offer Inside Job
Вакансии в международных компаниях с русскими фаундерами и командами.
Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям
3. Нескучный Data Science Jobs
Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании
4. Data Science Jobs
Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании.
Оставляйте свои 🔥 если хотите вторую часть поборки!
Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂
Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.):
1. Your Dream Data Job
Вакансии на позиции в аналитике/ml/data science в российские компании .
К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции.
2. Offer Inside Job
Вакансии в международных компаниях с русскими фаундерами и командами.
Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям
3. Нескучный Data Science Jobs
Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании
4. Data Science Jobs
Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании.
Оставляйте свои 🔥 если хотите вторую часть поборки!
🔥39❤4❤🔥3😁1
🔥 Сборники тестовых заданий и видео разборы реальных тестовых 👇
📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд
📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber
📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и заполнение пропусков, построение random forest и обучение модели
📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка)
📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация)
📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy
Сохраняйте подборку! Ставьте 🔥 и ❤️!
📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд
📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber
📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и заполнение пропусков, построение random forest и обучение модели
📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка)
📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация)
📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy
Сохраняйте подборку! Ставьте 🔥 и ❤️!
❤43🔥20❤🔥6👍5😁1🤩1
🎯 Как вкатиться в NLP: подборка основных RoadMaps
🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами!
0⃣ [ENG] NLP-Course от Лены Войты
Не RoadMap, но этот курс заслуживает, чтобы быть в подборке.
Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое.
Хватит с головой, чтобы погрузиться в NLP.
1️⃣ [ENG] Step-by-Step RoadMap по NLP
Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP).
2️⃣ [ENG] RoadMap to Learn NLP and LLMs
RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое).
Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения.
3️⃣ [ENG] Git-репозиторий с RoadMap по NLP
RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML.
Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем.
4️⃣ [RU] Git-репозиторий c NLP Compass на русском
Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются:
- Python-библиотеки при работе с NLP
- Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя
- Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг)
В добавок в репозитории есть огромный набор NLP-туториалов по разным темам.
5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps
Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs.
Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer.
Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом.
Не забывайте ставить ❤️ и 🔥за крутые подборки!
Пишите комментарии и делитесь своими ресурсами!
До встречи👋
🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами!
0⃣ [ENG] NLP-Course от Лены Войты
Не RoadMap, но этот курс заслуживает, чтобы быть в подборке.
Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое.
Хватит с головой, чтобы погрузиться в NLP.
1️⃣ [ENG] Step-by-Step RoadMap по NLP
Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP).
2️⃣ [ENG] RoadMap to Learn NLP and LLMs
RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое).
Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения.
3️⃣ [ENG] Git-репозиторий с RoadMap по NLP
RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML.
Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем.
4️⃣ [RU] Git-репозиторий c NLP Compass на русском
Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются:
- Python-библиотеки при работе с NLP
- Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя
- Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг)
В добавок в репозитории есть огромный набор NLP-туториалов по разным темам.
5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps
Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs.
Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer.
Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом.
Не забывайте ставить ❤️ и 🔥за крутые подборки!
Пишите комментарии и делитесь своими ресурсами!
До встречи👋
❤🔥27🔥13❤5👍5😁1
📚 Weekend offer в Яндексе
На связи Рома Васильев, создатель этого канала.
Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)!
Что будет:
- В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике)
- В воскресенье (2 марта) - финалы с командами и офферы
Почему оно стоит того:
- Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня.
- Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд)
- Яндекс предлагает вполне хорошие условия
Как готовиться:
- Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных
- Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂
- Подумать о том, как грамотно рассказать о себе и своём опыте на финале
Где зарегистрироваться:
Вот тут
На связи Рома Васильев, создатель этого канала.
Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)!
Что будет:
- В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике)
- В воскресенье (2 марта) - финалы с командами и офферы
Почему оно стоит того:
- Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня.
- Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд)
- Яндекс предлагает вполне хорошие условия
Как готовиться:
- Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных
- Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂
- Подумать о том, как грамотно рассказать о себе и своём опыте на финале
Где зарегистрироваться:
Вот тут
Яндекс Weekend Offer
Analytics
Analytics
Офер за 2 дня для аналитиков с опытом от двух лет на Python. 1–2 марта, онлайн.
🔥13❤9👍4
Что такое Git и зачем он нужен Data Scientist'у
Git — важный инструмент разработки, который необходим каждому, кто пишет код, включая DS-специалистам.
Git - это система (программа), которая позволяет отслеживать и вести изменения в файлах вашего проекта. Git - преимущественно используется в разработке, но иногда и в других областях.
🗂 Репозиторий - это хранилище вашего кода для одного или нескольких проектов. Git позволяет хранить репозитории локально или использовать специальные веб-сайты: GitHub, Bitbucket, GitLab.
🔝 Основные преимущества Git:
1. Контроль версий — возможность фиксировать каждое изменение в проекте и возвращаться к любой версии кода.
2. Работа в команде — удобная командная разработка без конфликтов в коде.
3. Воспроизводимость — возможность фиксировать состояние кода и данных.
4. Портфолио/Трудоустройство — работодатели часто используют GitHub, как способ оценить навыки кандидата
5. Безопасность — код хранится не только на вашем компьютере, но и в удаленном репозитории.
📚Дополнительные материалы по теме:
- Подборка постов про Git от нашего канала🤗
- [RU] Официальная документация Git на русском
- [RU] Интерактивный тренажер с доступной теорией и практикой ключевых концепций Git
- [ENG] Официальная документация по GitHub (подойдет как новичкам для знакомство с платформой, так и опытным юзерам для продвинутого использования)
- [RU] Git за полчаса - руководство для начинающих
- [RU] Репозиторий с советами и трюками по Git
Ставьте ❤️ и 🔥под данным постом!
И не забывайте делиться полезными ресурсами по Git в комментариях!
Git — важный инструмент разработки, который необходим каждому, кто пишет код, включая DS-специалистам.
Git - это система (программа), которая позволяет отслеживать и вести изменения в файлах вашего проекта. Git - преимущественно используется в разработке, но иногда и в других областях.
🗂 Репозиторий - это хранилище вашего кода для одного или нескольких проектов. Git позволяет хранить репозитории локально или использовать специальные веб-сайты: GitHub, Bitbucket, GitLab.
🔝 Основные преимущества Git:
1. Контроль версий — возможность фиксировать каждое изменение в проекте и возвращаться к любой версии кода.
2. Работа в команде — удобная командная разработка без конфликтов в коде.
3. Воспроизводимость — возможность фиксировать состояние кода и данных.
4. Портфолио/Трудоустройство — работодатели часто используют GitHub, как способ оценить навыки кандидата
5. Безопасность — код хранится не только на вашем компьютере, но и в удаленном репозитории.
📚Дополнительные материалы по теме:
- Подборка постов про Git от нашего канала🤗
- [RU] Официальная документация Git на русском
- [RU] Интерактивный тренажер с доступной теорией и практикой ключевых концепций Git
- [ENG] Официальная документация по GitHub (подойдет как новичкам для знакомство с платформой, так и опытным юзерам для продвинутого использования)
- [RU] Git за полчаса - руководство для начинающих
- [RU] Репозиторий с советами и трюками по Git
Ставьте ❤️ и 🔥под данным постом!
И не забывайте делиться полезными ресурсами по Git в комментариях!
Telegram
Start Career in DS
🐈⬛ Бесплатный курс для начинающих - введение в Git
У нас уже были посты про Git:
– Интерактивный туториал (если вы уже немного понимаете в Git)
– Курс для тех, кто вообще не работал с гитом
– Что делать, если накосячил при работе с гитом
Есть ещё один…
У нас уже были посты про Git:
– Интерактивный туториал (если вы уже немного понимаете в Git)
– Курс для тех, кто вообще не работал с гитом
– Что делать, если накосячил при работе с гитом
Есть ещё один…
❤42🔥23👍1
📢 Опросник о зарплатах в Data Science
Женя из @not_boring_ds запустил клёвый опрос, который поможет лучше понять текущее состояние рынка в российском DS. Приглашаем вас принять участие и внести свой вклад!
📝 Что внутри опроса?
Затрагивает ключевые аспекты вашей работы: опыт, текущая роль, тип данных, с которыми работаете, уровень зарплаты и степень удовлетворенности. На прохождение опроса уйдет буквально 5 минут.
Будем пристально следить за результатами и обязательно поделимся с вами первыми! ❤️
[Ссылка на опросник]
Женя из @not_boring_ds запустил клёвый опрос, который поможет лучше понять текущее состояние рынка в российском DS. Приглашаем вас принять участие и внести свой вклад!
📝 Что внутри опроса?
Затрагивает ключевые аспекты вашей работы: опыт, текущая роль, тип данных, с которыми работаете, уровень зарплаты и степень удовлетворенности. На прохождение опроса уйдет буквально 5 минут.
Будем пристально следить за результатами и обязательно поделимся с вами первыми! ❤️
[Ссылка на опросник]
Google Docs
Опрос. Карьера в DS: опыт, текущая работа, удовлетворенность, планы на будущее.
Опрос проводится с целью добавления прозрачности в сфере Data Science, пожалуйста, отвечайте честно. Результаты опроса будут опубликованы публично в агрегированном формате.
👍16🔥6❤3
Школа Аналитиков-Разработчиков Яндекса
До 27 апреля можно подать заявку на бесплатный интенсив, выпускники которого становятся аналитиками в Яндексе. Это ШАР, где мы рассказываем, как свободно работать с данными, извлекать из них смыслы и принимать на их основе обоснованные решения.
Впервые в этом году участникам ШАРа можно выбрать направление: Data Engineering или Data Science.
Стартуем 2 июня со всеми, кто пройдёт отбор. Сначала лекции и домашки, потом командный проект с участниками других направлений. Всего в этом году Яндекс запускаем семь Летних школ для разработчиков, менеджеров, девопсов и т.д.
ШАР — это шанс прокачаться и попасть на стажировку в Яндекс (или сразу в штат) и познакомиться с новыми близкими по духу ребятами.
Детали, отзывы и кнопка Подать заявку здесь: https://yandex.ru/yaintern/schools/analytics
До 27 апреля можно подать заявку на бесплатный интенсив, выпускники которого становятся аналитиками в Яндексе. Это ШАР, где мы рассказываем, как свободно работать с данными, извлекать из них смыслы и принимать на их основе обоснованные решения.
Впервые в этом году участникам ШАРа можно выбрать направление: Data Engineering или Data Science.
Стартуем 2 июня со всеми, кто пройдёт отбор. Сначала лекции и домашки, потом командный проект с участниками других направлений. Всего в этом году Яндекс запускаем семь Летних школ для разработчиков, менеджеров, девопсов и т.д.
ШАР — это шанс прокачаться и попасть на стажировку в Яндекс (или сразу в штат) и познакомиться с новыми близкими по духу ребятами.
Детали, отзывы и кнопка Подать заявку здесь: https://yandex.ru/yaintern/schools/analytics
Школа аналитиков-разработчиков
Летняя школа Яндекса для аналитиков-разработчиков. Больше половины выпускников получают офер
❤20❤🔥10😁7🔥3
🐶 Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные
У Andrey Karpathy есть такой твит:
, в котором ясно сказано, что, чтобы по-настоящему «зашарить в теме», нужно взять проект и усердно работать над ним
Вообще, про Pet-проекты и их важность в резюме мы уже писали один обзорный пост, но хотим напомнить ещё: в этот раз подробно разберем каждый этап создания пет-проекта, чтобы у вас больше не осталось причин не делать его: сегодня обсудим идею проекта и откуда можно взять данные для него
# Идея
– Если идей нет, то участвуйте во всяких хакатонах (можно посмотреть актуальные на сайте хакатоны.рус или ods.ai) и kaggle-чемпионатах
– Не думайте, берите и делайте! У ODS 25 июля стартует хакатон, в котором команды вайбкодят пет-проекты – найти себе единомышленников можно в их чате @ods_pet_projects, зарегистрироваться можно в форме до 24 июля, а посмотреть проекты прошлых лет можно тут
– Очень важно, чтобы идея резонировала с вами. Вместо того, чтобы брать скучную идею, лучше подольше подумать над ней
– Чтобы найти такую идею, можно обратиться к ChatGPT/Perplexity, рассказать им свои интересы и увлечения, и с какой-то вероятностью вы получите что-то действительно годное
– Копировать чужую идею – норм. Если вам что-то интересно, но это уже существует, ничего страшного, как минимум вы разберетесь в том, как это работает подробнее, как максимум – сделаете лучше
# Данные
Можно чуть заморочиться и тянуть данные через api (например, у HeadHunter), но мы собрали супер-подборку, откуда можно напрямую скачать годные данные в удобном формате:
– Kaggle Datasets: датасеты на любой вкус, многие из которых уже стали классикой ML-жанра
– Google Dataset: поможет найти необходимый датасет и подскажет, где и в каком формате можно скачать
– Исследования 2ГИС: содержит стату по сферам экономики в городах России, удобно экспортируется в Excel
– Google Trends: отличный вариант, если хочется поисследовать популярность чего-либо. Можно выгрузить динамику популярности, популярность по субрегионам, "еще по теме" и похожие запросы в формате csv.
– Датасет с отзывами на Яндекс картах: хороший вариант потренироваться в NLP
– BI Portal Росстата: собранная статистика по РФ и агрегированные датасетов, которые можно экспортировать в Excel или CSV
А еще нашли для вас годную репу на гитхабе со сборником PET-проектов по DS. Советуем сначала посмотреть идеи, оформления и лучшие практики там, перед тем как начать делать свой проект. Насмотренность порождает качество!
Ставьте 🔥, и пишите в комментарии самые абсурдные идеи для пет проектов)
Как только пост наберет больше 50 огонечков, дропаем следующую часть
У Andrey Karpathy есть такой твит:
How to become expert at thing:
1 iteratively take on concrete projects and accomplish them depth wise, learning “on demand” (ie don’t learn bottom up breadth wise)
2 teach/summarize everything you learn in your own words
3 only compare yourself to younger you, never to others
, в котором ясно сказано, что, чтобы по-настоящему «зашарить в теме», нужно взять проект и усердно работать над ним
Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия.
Вообще, про Pet-проекты и их важность в резюме мы уже писали один обзорный пост, но хотим напомнить ещё: в этот раз подробно разберем каждый этап создания пет-проекта, чтобы у вас больше не осталось причин не делать его: сегодня обсудим идею проекта и откуда можно взять данные для него
# Идея
– Если идей нет, то участвуйте во всяких хакатонах (можно посмотреть актуальные на сайте хакатоны.рус или ods.ai) и kaggle-чемпионатах
– Не думайте, берите и делайте! У ODS 25 июля стартует хакатон, в котором команды вайбкодят пет-проекты – найти себе единомышленников можно в их чате @ods_pet_projects, зарегистрироваться можно в форме до 24 июля, а посмотреть проекты прошлых лет можно тут
– Очень важно, чтобы идея резонировала с вами. Вместо того, чтобы брать скучную идею, лучше подольше подумать над ней
– Чтобы найти такую идею, можно обратиться к ChatGPT/Perplexity, рассказать им свои интересы и увлечения, и с какой-то вероятностью вы получите что-то действительно годное
– Копировать чужую идею – норм. Если вам что-то интересно, но это уже существует, ничего страшного, как минимум вы разберетесь в том, как это работает подробнее, как максимум – сделаете лучше
# Данные
Можно чуть заморочиться и тянуть данные через api (например, у HeadHunter), но мы собрали супер-подборку, откуда можно напрямую скачать годные данные в удобном формате:
– Kaggle Datasets: датасеты на любой вкус, многие из которых уже стали классикой ML-жанра
– Google Dataset: поможет найти необходимый датасет и подскажет, где и в каком формате можно скачать
– Исследования 2ГИС: содержит стату по сферам экономики в городах России, удобно экспортируется в Excel
– Google Trends: отличный вариант, если хочется поисследовать популярность чего-либо. Можно выгрузить динамику популярности, популярность по субрегионам, "еще по теме" и похожие запросы в формате csv.
– Датасет с отзывами на Яндекс картах: хороший вариант потренироваться в NLP
– BI Portal Росстата: собранная статистика по РФ и агрегированные датасетов, которые можно экспортировать в Excel или CSV
А еще нашли для вас годную репу на гитхабе со сборником PET-проектов по DS. Советуем сначала посмотреть идеи, оформления и лучшие практики там, перед тем как начать делать свой проект. Насмотренность порождает качество!
Ставьте 🔥, и пишите в комментарии самые абсурдные идеи для пет проектов)
Как только пост наберет больше 50 огонечков, дропаем следующую часть
Telegram
Start Career in DS
🐶 Пет-проекты для начинающего Data Scientistа
Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь (пусть даже совсем небольшой) пет…
Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь (пусть даже совсем небольшой) пет…
🔥104❤13❤🔥6🤩1
🏎 Давно тебя не было в уличных гонках!
Как вы уже заметили, мы пропали на какое-то время...
Но вернулись и не планируем изменять тому, за что вы нас любите и читаете. Для вас мы:
— Записывали видео, в которых простым языком поясняли сложные вещи
— Показывали, как парсить что угодно и как угодно
— Подробно разбирали задачи с собесов
— Находили крутые роадмапы для развития в DS
— Собирали подборки для прокачки знаний в в ML-system design
и много чего еще крутого и полезного!
Мы пересобрали команду, теперь будет делать контент для вас:
Рома Васильев
- Руковожу аналитикой международного Поиска в Яндексе. Провёл в Яндексе и не только сотни собеседований, нанимал много ребят в разные направления
- Веду этот канал уже больше пяти (офигеть!) лет, здесь мы про что только не писали уже. А ещё преподаю машинное обучение/аналитику в ВШЭ, Центральном Университете, периодически выступаю на конфах/открытых уроках и тд
- В последнее время много пишу про аналитику/менеджмент/управление в личный телеграм канал я так понимаю, Роман Васильев
Олег Андреев:
- Этот невероятный парень проработал у меня ассистентом (по каналу и не только) практически год, за это время мы с ним успели написать кучу постов (например, пост про материалы для стажировки его рук дело) и сделать несколько классных видосов
– На втором курсе универа вышел на стажировку в Яндекс, потом попал в штат, и сейчас уже больше года работает в АнтиФишинге браузера аналитиком-разработчиком
Аня Курдина:
– Попала на стажировку в команду аналитики международного Яндекса, на стажировке делала проект, про который я потом рассказывал на конфе Young&Yandex (посмотреть можно тут)
– После стажировки Аня вышла в штат и сейчас работает аналитиком-разработчиком в рекламе
– А еще Аня недавно стала золотым медалистом олимпиады «Я-профессионал» по направлению бизнес-информатика 🎉
Пишите в комментарии, про что вам было бы интересно почитать, и обязательно ставьте реакции на этот пост и на комментарии с идеями постов (чем больше реакций, тем выше вероятность, что мы выберем тему именно этого комментария) 🤩
Как вы уже заметили, мы пропали на какое-то время...
Но вернулись и не планируем изменять тому, за что вы нас любите и читаете. Для вас мы:
— Записывали видео, в которых простым языком поясняли сложные вещи
— Показывали, как парсить что угодно и как угодно
— Подробно разбирали задачи с собесов
— Находили крутые роадмапы для развития в DS
— Собирали подборки для прокачки знаний в в ML-system design
и много чего еще крутого и полезного!
Мы пересобрали команду, теперь будет делать контент для вас:
Рома Васильев
- Руковожу аналитикой международного Поиска в Яндексе. Провёл в Яндексе и не только сотни собеседований, нанимал много ребят в разные направления
- Веду этот канал уже больше пяти (офигеть!) лет, здесь мы про что только не писали уже. А ещё преподаю машинное обучение/аналитику в ВШЭ, Центральном Университете, периодически выступаю на конфах/открытых уроках и тд
- В последнее время много пишу про аналитику/менеджмент/управление в личный телеграм канал я так понимаю, Роман Васильев
Олег Андреев:
- Этот невероятный парень проработал у меня ассистентом (по каналу и не только) практически год, за это время мы с ним успели написать кучу постов (например, пост про материалы для стажировки его рук дело) и сделать несколько классных видосов
– На втором курсе универа вышел на стажировку в Яндекс, потом попал в штат, и сейчас уже больше года работает в АнтиФишинге браузера аналитиком-разработчиком
Аня Курдина:
– Попала на стажировку в команду аналитики международного Яндекса, на стажировке делала проект, про который я потом рассказывал на конфе Young&Yandex (посмотреть можно тут)
– После стажировки Аня вышла в штат и сейчас работает аналитиком-разработчиком в рекламе
– А еще Аня недавно стала золотым медалистом олимпиады «Я-профессионал» по направлению бизнес-информатика 🎉
Пишите в комментарии, про что вам было бы интересно почитать, и обязательно ставьте реакции на этот пост и на комментарии с идеями постов (чем больше реакций, тем выше вероятность, что мы выберем тему именно этого комментария) 🤩
❤29🔥19❤🔥9👍5
🐈 Твой будущий пет-проект поэтапно, ч. 2: парсим, предобрабатываем и изучаем данные
Прошлые части:
1. Откуда взять идею и данные
В прошлой части (которая невероятно быстро набрала 50 реакций!) мы рассказали, откуда можно взять идею для твоего пет–проекта. Скорее всего, она будет попадать в одну или несколько категорий из следующих 5 (в зависимости от того, что ты хочешь развивать):
– Аналитика + визуализация (e.g. сделать красивый дашборд)
– Обучение моделек (e.g. дообучить llmку)
– Сбор и подготовка данных (e.g. настроить регулярный парсинг)
– Развертывание моделей (e.g. поднять llamу)
– А/Б, проверка гипотез (e.g. провести стат тест)
В этой серии постов постараемся затронуть все категории проектов и их этапы. И первые этапы (сбор данных, предобработка и EDA) подходят для большинства категорий
# Сбор данных
В прошлой части рассказали про то, откуда брать данные, но не рассказали, что делать, если вы не нашли подходящего датасета. В таком случае можно найти источник, и:
1) Вытащить данные через API
– Вот тут лежит небольшой список самых очевидных API
– Обычно к API всегда есть документация, и достать оттуда данные не составляет проблемы
2) Если API нет, спарсить их
– Про парсинг мы уже писали подробный пост, которого вполне достаточно для большинства сайтов
– Если у сайта сильная защита, то, скорее всего, вам стоит подумать над другим источником данных 🙂
– Если не хочется писать скрипты, то есть готовые воркфлоу в хайповой lowcode платформе n8n, их можно найти тут (кстати, в бигтехах все чаще используется лоукод, если хотите пост про опенсорсный lowcode, то нужно набрать 50 сердечек ❤️ на этом посте)
# Предобработка данных
– Самую базу можно найти, например, в этой статейке
– Про предобработку текстов можно почитать тут
– Про работу с изображениями можно посмотреть слайды из Вышки
– Статейка с полезными штуками для препроцессинга временных рядов
# EDA (Исследовательский анализ данных)
– Разведочный анализ включает в себя построение графичков, тесное знакомство с данными, извлечение инсайтов из них
– Если вы новичок, и вам нужно понять, что такое exploratory data analysis, прочитайте эту статью
– Тут есть наш пост с ссылками на лекции Александра Дьяконова
– А еще мы писали про то, как чувак делал EDA для музыкантов с last.fm, менее научно, но можно посмотреть для развлечения
– Если вы решили делать пет-проект в рамках кагл-соревы, можете посмотреть пример EDA для соревнования
Чтобы вышла следующая часть, давайте наберем 150 🔥 под этим постом, и добьем первый уровень для канала (забустить по ссылке), чтобы мы могли публиковать сторисы
А еще обязательно пишите в комментариях свои вопросы по пет-проектам, и мы постараемся ответить на них прямо там же или в следующих частях 🙂
Прошлые части:
1. Откуда взять идею и данные
В прошлой части (которая невероятно быстро набрала 50 реакций!) мы рассказали, откуда можно взять идею для твоего пет–проекта. Скорее всего, она будет попадать в одну или несколько категорий из следующих 5 (в зависимости от того, что ты хочешь развивать):
– Аналитика + визуализация (e.g. сделать красивый дашборд)
– Обучение моделек (e.g. дообучить llmку)
– Сбор и подготовка данных (e.g. настроить регулярный парсинг)
– Развертывание моделей (e.g. поднять llamу)
– А/Б, проверка гипотез (e.g. провести стат тест)
В этой серии постов постараемся затронуть все категории проектов и их этапы. И первые этапы (сбор данных, предобработка и EDA) подходят для большинства категорий
# Сбор данных
В прошлой части рассказали про то, откуда брать данные, но не рассказали, что делать, если вы не нашли подходящего датасета. В таком случае можно найти источник, и:
1) Вытащить данные через API
– Вот тут лежит небольшой список самых очевидных API
– Обычно к API всегда есть документация, и достать оттуда данные не составляет проблемы
2) Если API нет, спарсить их
– Про парсинг мы уже писали подробный пост, которого вполне достаточно для большинства сайтов
– Если у сайта сильная защита, то, скорее всего, вам стоит подумать над другим источником данных 🙂
– Если не хочется писать скрипты, то есть готовые воркфлоу в хайповой lowcode платформе n8n, их можно найти тут (кстати, в бигтехах все чаще используется лоукод, если хотите пост про опенсорсный lowcode, то нужно набрать 50 сердечек ❤️ на этом посте)
# Предобработка данных
– Самую базу можно найти, например, в этой статейке
– Про предобработку текстов можно почитать тут
– Про работу с изображениями можно посмотреть слайды из Вышки
– Статейка с полезными штуками для препроцессинга временных рядов
# EDA (Исследовательский анализ данных)
– Разведочный анализ включает в себя построение графичков, тесное знакомство с данными, извлечение инсайтов из них
– Если вы новичок, и вам нужно понять, что такое exploratory data analysis, прочитайте эту статью
– Тут есть наш пост с ссылками на лекции Александра Дьяконова
– А еще мы писали про то, как чувак делал EDA для музыкантов с last.fm, менее научно, но можно посмотреть для развлечения
– Если вы решили делать пет-проект в рамках кагл-соревы, можете посмотреть пример EDA для соревнования
Чтобы вышла следующая часть, давайте наберем 150 🔥 под этим постом, и добьем первый уровень для канала (забустить по ссылке), чтобы мы могли публиковать сторисы
А еще обязательно пишите в комментариях свои вопросы по пет-проектам, и мы постараемся ответить на них прямо там же или в следующих частях 🙂
Хабр
Разведочный анализ (EDA)
Разведочный анализ данных, или EDA, – это как археологические раскопки в мире информации. Это первый шаг, когда мы берем на себя роль исследователя данных и начинаем расследовать, как устроены наши...
🔥88❤10❤🔥3😁3
Магистратура как способ войти в Айти
В последнее время открылось очень много классных магистратур по DS совместно с ТОП-компаниями.
Чем они отличаются от обычных магистратур?
💭 Преподают дисциплины не только преподаватели ВУЗа, но и опытные аналитики и ML-щики из индустрии
💭 Программы практико-ориентированные, а значит будет что показать в портфолио и резюме
💭 Учат актуальным навыкам, которые используются в компаниях
💭 Компании-партнеры предоставляют стажировки и способствуют трудоустройству в компанию
💭 Прокачивают до конкретного уровня на рынке. Какие-то программы до джун+, какие-то до миддл+
Собрали для вас подборку магистратур с бюджетными местами, в которые еще открыт набор в этом году:
🎓 ВШЭ x Авито: Машинное обучение в цифровом продукте. Обучение проходит очно и онлайн, Авито оплачивает обучение 30 будущим магистрам, кто лучше всех пройдет отбор. Стоимость платного - 600 тыс. в год. Подать документы можно до 8го августа. Подробнее прочитать можно еще и у Авито
🎓 ФКН ВШЭ х Яндекс: Современные компьютерные науки. Очное обучение, 52 бюджетных места. Программа включает в себя data science, теоретическую информатику, инфраструктуру больших данных. Вступительные испытания - экзамен по математике и программированию + собеседование. Податься можно до 8 августа. Стоимость платного обучение - 490 тыс. в год
🎓 ИТМО х ВК: Программирование и ИИ. Очное обучение с возможностью обучаться онлайн, 43 бюджетных места. Прием документов до 19го августа. Можно поступить через личные достижения или сдать вступительный экзамен. Стоимость платного обучения - 599 тыс. в год
🎓 ВШЭ СПБ х ВК: Машинное обучение и анализ данных. Очное обучение и 30 бюджетных мест. Студенты проходят практики и стажировки как в российских компаниях VK, Biocad, Сбер, Яндекс, Газпромнефть, так и международных JetBrains, Huawei. Прием документов до 8го августа, а узнать, как лучше подготовиться к вступительным ВК описали тут. Стоимость платного обучения - 390 тыс. в год
🎓ВШЭ х Сбер: Финансовые технологии и анализ данных. Очное обучение, Сбер покрывает 100% стоимости обучение 30 студентам. Вступительные испытания - экзамен по вышмату и собеседование. Пройти их и подать документы можно до 8го августа. Стоимость платного обучения - 490 тыс. в год
Ставьте 👍, если хотите больше постов про магистратуру и образовательные курсы
P.S. давайте поднажмём и накинем бустов каналу (осталось совсем немного до следующего уровня), чтобы наш контент стал ещё интереснее и разнообразнее
В последнее время открылось очень много классных магистратур по DS совместно с ТОП-компаниями.
Чем они отличаются от обычных магистратур?
💭 Преподают дисциплины не только преподаватели ВУЗа, но и опытные аналитики и ML-щики из индустрии
💭 Программы практико-ориентированные, а значит будет что показать в портфолио и резюме
💭 Учат актуальным навыкам, которые используются в компаниях
💭 Компании-партнеры предоставляют стажировки и способствуют трудоустройству в компанию
💭 Прокачивают до конкретного уровня на рынке. Какие-то программы до джун+, какие-то до миддл+
Собрали для вас подборку магистратур с бюджетными местами, в которые еще открыт набор в этом году:
🎓 ВШЭ x Авито: Машинное обучение в цифровом продукте. Обучение проходит очно и онлайн, Авито оплачивает обучение 30 будущим магистрам, кто лучше всех пройдет отбор. Стоимость платного - 600 тыс. в год. Подать документы можно до 8го августа. Подробнее прочитать можно еще и у Авито
🎓 ФКН ВШЭ х Яндекс: Современные компьютерные науки. Очное обучение, 52 бюджетных места. Программа включает в себя data science, теоретическую информатику, инфраструктуру больших данных. Вступительные испытания - экзамен по математике и программированию + собеседование. Податься можно до 8 августа. Стоимость платного обучение - 490 тыс. в год
🎓 ИТМО х ВК: Программирование и ИИ. Очное обучение с возможностью обучаться онлайн, 43 бюджетных места. Прием документов до 19го августа. Можно поступить через личные достижения или сдать вступительный экзамен. Стоимость платного обучения - 599 тыс. в год
🎓 ВШЭ СПБ х ВК: Машинное обучение и анализ данных. Очное обучение и 30 бюджетных мест. Студенты проходят практики и стажировки как в российских компаниях VK, Biocad, Сбер, Яндекс, Газпромнефть, так и международных JetBrains, Huawei. Прием документов до 8го августа, а узнать, как лучше подготовиться к вступительным ВК описали тут. Стоимость платного обучения - 390 тыс. в год
🎓ВШЭ х Сбер: Финансовые технологии и анализ данных. Очное обучение, Сбер покрывает 100% стоимости обучение 30 студентам. Вступительные испытания - экзамен по вышмату и собеседование. Пройти их и подать документы можно до 8го августа. Стоимость платного обучения - 490 тыс. в год
Ставьте 👍, если хотите больше постов про магистратуру и образовательные курсы
P.S. давайте поднажмём и накинем бустов каналу (осталось совсем немного до следующего уровня), чтобы наш контент стал ещё интереснее и разнообразнее
👍37😁6❤3