PyMagic
6.09K subscribers
232 photos
4 videos
10 files
251 links
Data Science / ML / Deep Learning
VK group https://vk.com/club211095898
Download Telegram
youtube-lesson.zip
5.3 MB
Код с данными из видео
9👍4🤯1
➡️В новом ролике я рассказала о том, как начала работать в Data Science. Поделилась своими ошибками, которые возникали как в процессе обучения, так и в период профессионального роста. Ошибок было много, но самые частые оказались связанными с базовыми вещами.

Я случайно забыла отключить комментарии под последним роликом. К своему удивлению, получила много позитивных откликов. Спасибо вам, ребята! ❤️

Однако, как обычно, нашлось место и для гадких комментов)) Значит дождь зимой не пойдет))

И да, у некоторых людей обычное выражение лица связано с индивидуальными особенностями, а не с высокомерием.

https://www.youtube.com/watch?v=OS7vANT0YPQ
👍39🔥1🤣1
➡️Кстати, у нас в Wildberries теперь регулярно выходит не просто дайджест новостей из мира ML, но и экспертные комментарии наших коллег. Они делятся своим мнением о самых актуальных темах и делают содержательный анализ.

➡️Кроме того, мы активно расширяем нашу команду специалистов по Data Science, так как 2024 год завершился для нас крайне продуктивно, поэтому будем рады видеть вас в нашей команде 🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Forwarded from WB Space
#дайджест_wbs
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег👇

➡️ Релиз Deepseek-V3
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.

Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).

DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.

➡️ VLM с ризонингом от Qwen
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).

Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.

➡️ HuggingFace выпустили smolagents
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.

Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.


Комментарии подготовили ML- и DS-специалисты Wildberries 💘

🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍31
➡️ Что такое контрастивное обучение?

Давайте сегодня немного разомнемся и попробуем разобрать новый материал! Не будем замыкаться в рамках классического машинного обучения, а пойдем чуть дальше. Сегодня разберем одну из важных и интересных тем, потому что этот метод набирает все больше оборотов и используется в совершенно разных задачах.

Контрастивное обучение (Contrastive Learning) — это метод самообучения (self-supervised learning), который позволяет моделям извлекать полезные представления из данных без явных меток. Основная идея заключается в том, чтобы научить модель различать похожие и непохожие объекты, используя функцию потерь, называемую Contrastive Loss.

➡️ Как работает контрастивное обучение?
Ф
ормируются пары:
- "положительные" — состоящие из похожих объектов, например аугментированных версий одного изображения, или объектов, которые были оценены пользователем высоко или с которыми он активно взаимодействовал в задачах рекомендаций.
- "отрицательные" — из различных объектов, например, изображений из разных классов, текстов с разным содержанием, или объектов, с которыми пользователь не взаимодействовал.

Модель обучается с использованием Contrastive Loss, минимизируя расстояние между эмбеддингами (представлениями) положительных пар и максимизируя расстояние между отрицательными.

➡️ В чем преимущество?
Не требует размеченных данных, что особенно полезно, когда метки отсутствуют или их недостаточно. Модель учится выделять важные признаки. Этот метод универсален и применим к разным типам данных: изображениям, тексту и аудио.

➡️ Примеры применения:
SimCLR - популярный фреймворк для контрастивного обучения для CV
MoCo (Momentum Contrast) - метод контрастивного обучения с моментумом (плавное обновление), улучшает качество представлений за счет стабильных негативных примеров
CLIP от OpenAI - модель, которая связывает текст и изображения с помощью контрастивного обучения, позволяя, например, искать изображения по текстовым запросам
- PTLS (pytorch-lifestream) - опенсорс библиотека, позволяющая строить эмбеддинги из событийных данных на основе метода контрастивного обучения CoLES

Помимо этого, контрастивное обучение можно применять и для обучения рекомендательных систем, например, в рамках подхода, основанного на контенте (Content-Based).
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍4
➡️ Обучение Data Science для начинающих

Уже 10 февраля у нас стартует 8-ой поток курса по Data Science.

Что вы изучите:
Математику для Data Science
Как проводить АБ-тестирование
Классические ML-алгоритмы: от линейных моделей до бустингов
Научитесь разбираться в ML-алгоритмах и грамотно их применять
NLP: от TF-IDF до Transformers
Deep Learning: основные тренды, база по нейросетям
Computer Vision: примеры из области
MLOps: production code, FastAPI, Streamlit, линтеры
Дополнительно: Airflow, MLFlow, многопоточность, мультипроцессинг, временные ряды, Superset и пр.

Также у нас есть расширенная версия курса с обучением почти на 1 год, дополнительно включающая:
➡️NLP: от базовой обработки текста (токенизация, лемматизация, регулярные выражения и пр.) до продвинутых моделей: Word2Vec, LSTM, Attention, Transformer (BERT, GPT). Научитесь дообучать модели с Hugging Face и применять их в задачах анализа тональности, диалогов и обработки кода (GraphCodeBERT, CodeT5)
➡️Рекомендательные системы: коллаборативная, контентная и гибридная фильтрация. Изучите алгоритмы (User/ItemKNN, ALS, NCF, SVD++), метрики валидации (классификационные, регрессионные, ранжирующие, beyond accuracy). Разберете продвинутые методы: двухуровневые модели, ранжирование, нейросетевые подходы, автоэнкодеры и графовые рекомендации. Особое внимание уделено последовательным и контекстно-адаптивным системам.

📎 Вся актуальная информация о кол-ве теоретического и практического материала, преподавателях, статстике трудоустройства выпускников на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥116
🚀💥 WOMEN IN DATA SCIENCE MEETUP: ТО, ЧТО ВЗОРВЁТ ВАШ 2025 ГОД! 💥🚀

Друзья, приготовьтесь: 7 марта в суперсовременном зале Sber на Уральской, 1 пройдёт событие, которое перевернёт ваше представление о Data Science! Это не просто митап — это билет в будущее, где женщины-гении данных диктуют правила игры. Вы точно не хотите это пропустить.

🔥 ПОЧЕМУ ЭТО БОМБА?

Легендарные спикеры:

Полина Федотова (Сбер) раскроет, как ИИ управляет роботами уже сегодня — да, это не фантастика!
Анна Текучева (Wildberries) научит ловить «модные словечки» в поиске так же ловко, как браконьеров-рыболовов 🎣 (да, она это делала!).
Анастасия Функнер, Ольга Павлова, Анна Ефимова (Ozon Банк) покажут, как создать ML-платформу будущего из симбиоза Golang, MLOps и магии.
Алена Феногенова (Sber) припасла сюрприз на стыке AGI и NLP — даже название доклада пока засекречено!

Круглый стол со звездами:

Нонна Шахова, Эмели Драль, Ирина Голощапова и Анастасия Никулина обсудят, как женщины меняют правила в DS — от старта в карьере до управления ML-революцией.

После партии науки — рок-н-ролл!

Ваши мозги перегреются? Отдохнём под «Rock Data Band» — они сыграют кавер-хиты (это нужно слышать!). Плюс активности, нетворкинг и море энергии.

🎯 ВЫ ПОПАДЁТЕ:
— В футуристический зал Sber.
— На доклады, которые даже на конференциях уровня AAA не всегда услышишь.
В сообщество тех, кто уже сегодня решает, куда повернёт AI.

📌 ДЕТАЛИ:

🗓 7 марта | 15:30 сбор гостей, 16:00 старт
📍 Sber Hall (СПб, Уральская 1, лит. Ч)
🎟 Регистрация — места ограничены!

P.S. Спешите: скоро откроем названия ещё двух секретных докладов. Это будет жарко, как GPU при тренировке LLM!

#WiDS #ODS_SPB #WomenInTech #DataScienceIsFemale 💻👩🔬🎸

Вы готовы увидеть, на что способны женщины в Data Science? Тогда жмите на ссылку — пока места не кончились! 🔥
🔥24😐9👍6🍾4👨‍💻1
Полезные книги по машинному обучению 📚

1) Машинное обучение с PyTorch и Scikit-Learn, Себастьян Рашка
2) PyTorch. Освещая глубокое обучение, Лука Антига, Томас Виман, Эли Стивенс
3) Грокаем машинное обучение, Луис Серрано
4) Data Science. Наука о данных с нуля, Джоэл Грас
5)Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев, Никита Сергеев
38👍5
🔖ТОП-5 книг по ML

Мы на канале не раз разбирали книги по машинному обучению. Чтож, я предлагаю не останавливаться на этом и разобрать еще несколько интересных источников информации для вашего серого вещества 🧠

➡️Я оценивала книги по следующим критериям:
- Базовые знания
- Практические задание
- Глубина изложения
- Актуальность

Спойлер, данный перечень подойдет для начинающих, либо для специалистов с базой в мл (классические алгоритмы).

Честно говоря, найти прям крутые книги для опытных специалистов очень и очень тяжело, скорее это симбиоз из выступлений на конференциях, статей.

https://www.youtube.com/watch?v=ABIB9BNyYV0

Выше список из рассмотренных книг из видео ☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥1621😁1
В феврале нам удалось встретиться с Марком Паненко (Chief DS Ozon Fintech) в Москве и записать для вас целых две части подкаста Data Breakfast 🥰

В первой части мы обсудили тему личного бренда в Data Science: зачем и для кого он нужен, какие инструменты для этого существуют и многое другое.
За несколько лет на ютубе, большого количества разных экспериментов на разных площадках, анализа других специалистов, собственных успех и неудач, в том числе опыта с продвижением наших DS из WB, мне есть что рассказать!

Краткое саммери:
- Личный бренд, зачем строить, если ты не инфлюенсер?
- YouTube, блог или LinkedIn — где стартовать новичку?
- Как преодолеть страх критики и нехватку времени?
- Главный миф о личном бренде в DS. Spoiler: «Идеальность» — это иллюзия.
- Реальные кейсы из Wildberries: как экспертиза превращается в доверие.

Ссылка на сообщение в группе ODS Piter, где размещен подкаст. Присоединяйтесь и слушайте!

Ставьте ❤️ и мы выпустим 2ую часть подкаста, но уже на другую тему 😉

Инвайт в группу https://t.iss.one/+R7S2T7UvxVoxYTdi
Please open Telegram to view this post
VIEW IN TELEGRAM
25😭3👍1
Forwarded from WB Space
#мнение_эксперта
В конце февраля DeepSeek устроили неделю опенсорса и 5 дней публиковали репозитории с кодом их проектов ⚙️

FlashMLA — механизм декодирования для больших языковых моделей.
DeepEP — коммуникационная библиотека, специально разработанная для MoE и EP.
DeepGEMM — библиотека для эффективных вычислений General Matrix Multiplications.
DualPipe — инновационный алгоритм двунаправленного конвейерного параллелизма.
Fire-Flyer File System (3FS) — высокопроизводительная распределенная файловая система.

Остальные подробности про каждый проект читайте на карточках!

———
Спасибо за разбор Павлу Дмитриеву, Machine Learning Engineer в CoreCV
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍2