PyMagic
6.1K subscribers
232 photos
4 videos
10 files
251 links
Data Science / ML / Deep Learning
VK group https://vk.com/club211095898
Download Telegram
🚀Как устроен блок NLP на курсе по Data Science?

Друзья, поздравляю с наступившим Новым годом и приближающимся Рождеством! 🎄

Сегодня мы разберем блок по обработке естественного языка (NLP) на курсе Data Science для начинающих. Этот блок проработан настолько детально, что вы сможете сразу использовать полученные знания для реальных задач.

Блок составлен Айдаром Валеевым, аспирантом Иннополиса, который сейчас работает NLP-специалистом в GigaCode и ранее занимался разработкой NLP-решений в Digital Habits и EORA.

➡️Основы NLP
Вы начнете со знакомства с NLP и изучения ключевых задач: классификации текстов, анализа тональности, распознавания именованных сущностей (NER) и определения частей речи (POS-tagging).

Затем погрузитесь в обработку текста: токенизацию (разделение на слова), лемматизацию (приведение слова к нормальной форме), стемминг (выделение основы слова) и удаление стоп-слов. Также изучите современные подходы, такие как Byte-Pair Encoding (BPE), который используется в языковых моделях (LLM).

➡️Инструменты анализа текста
Изучите регулярные выражения, теорию формальных языков, а также лексический анализ. Рассмотрите такие методы, как TF-IDF, LSA, LDA, и словари вроде WordNet.
Также блок охватывает основы информационного поиска: построение инвертированных индексов, методы ранжирования и поиск релевантных документов в больших текстовых массивах.

➡️Языковое моделирование
Познакомитесь с Part-of-Speech Tagging, скрытыми марковскими моделями (HMM), а также нейросетевыми подходами для предсказания текста.
Для представления слов в числовом виде изучите популярные методики: Word2Vec, FastText и GloVe.
Далее переходите к нейросетевым архитектурам для обработки последовательностей: RNN, LSTM и GRU. Узнаете, как механизм Attention улучшает качество моделей.

➡️Современные подходы: Transformer и LLM
Изучите архитектуру Transformer, лежащую в основе BERT и GPT. Разберете Self-Attention, Multi-Head Attention и Positional Encoding.
На практике создадите простую модель Transformer для перевода текста.
После этого углубитесь в BERT, GPT и Transfer Learning.
Используя библиотеку Hugging Face, вы дообучите готовые модели под конкретные задачи.

➡️Применение и практика
Куда ведь без реальных практических примеров, да еще и на Python? Ловите! На практике решите задачи классификации намерений, анализа диалогов и расшифровок звонков. Также познакомитесь с моделями для анализа кода: GraphCodeBERT, UniXcoder, CodeT5 и StarCoder.

В завершении курса изучите, как сохранить NLP-модель в формате ONNX, оптимизировать с помощью TensorRT и развернуть её в реальных приложениях с использованием Docker и Triton Inference Server.

💪 У вас будут тестовые задания после каждого урока в блоке, а также 3 крупных практических задания! Отличная возможность не только закрепить теорию, но и попрактиковаться.

Вы могли заметить, что информации действительно много! Да, это так! Поэтому перечитайте 3-е предложение этого поста 😉 Но несмотря на это, всё объяснено максимально доступным языком. Главное — не лениться и с интересом подходить к процессу обучения!

❗️Старт обучения 8-го потока начинася 10 февраля! Для тех, кто хочет приобрести тариф Grandmaster, действует скидка 5% по промокоду PYMAGICTG до 10 января.

Вся подробная информация о кол-ве теоретического и практического материала, преподавателях, кураторах на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥6🤩1
youtube-lesson.zip
5.3 MB
Код с данными из видео
9👍4🤯1
➡️В новом ролике я рассказала о том, как начала работать в Data Science. Поделилась своими ошибками, которые возникали как в процессе обучения, так и в период профессионального роста. Ошибок было много, но самые частые оказались связанными с базовыми вещами.

Я случайно забыла отключить комментарии под последним роликом. К своему удивлению, получила много позитивных откликов. Спасибо вам, ребята! ❤️

Однако, как обычно, нашлось место и для гадких комментов)) Значит дождь зимой не пойдет))

И да, у некоторых людей обычное выражение лица связано с индивидуальными особенностями, а не с высокомерием.

https://www.youtube.com/watch?v=OS7vANT0YPQ
👍39🔥1🤣1
➡️Кстати, у нас в Wildberries теперь регулярно выходит не просто дайджест новостей из мира ML, но и экспертные комментарии наших коллег. Они делятся своим мнением о самых актуальных темах и делают содержательный анализ.

➡️Кроме того, мы активно расширяем нашу команду специалистов по Data Science, так как 2024 год завершился для нас крайне продуктивно, поэтому будем рады видеть вас в нашей команде 🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Forwarded from WB Space
#дайджест_wbs
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег👇

➡️ Релиз Deepseek-V3
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.

Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).

DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.

➡️ VLM с ризонингом от Qwen
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).

Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.

➡️ HuggingFace выпустили smolagents
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.

Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.


Комментарии подготовили ML- и DS-специалисты Wildberries 💘

🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍31
➡️ Что такое контрастивное обучение?

Давайте сегодня немного разомнемся и попробуем разобрать новый материал! Не будем замыкаться в рамках классического машинного обучения, а пойдем чуть дальше. Сегодня разберем одну из важных и интересных тем, потому что этот метод набирает все больше оборотов и используется в совершенно разных задачах.

Контрастивное обучение (Contrastive Learning) — это метод самообучения (self-supervised learning), который позволяет моделям извлекать полезные представления из данных без явных меток. Основная идея заключается в том, чтобы научить модель различать похожие и непохожие объекты, используя функцию потерь, называемую Contrastive Loss.

➡️ Как работает контрастивное обучение?
Ф
ормируются пары:
- "положительные" — состоящие из похожих объектов, например аугментированных версий одного изображения, или объектов, которые были оценены пользователем высоко или с которыми он активно взаимодействовал в задачах рекомендаций.
- "отрицательные" — из различных объектов, например, изображений из разных классов, текстов с разным содержанием, или объектов, с которыми пользователь не взаимодействовал.

Модель обучается с использованием Contrastive Loss, минимизируя расстояние между эмбеддингами (представлениями) положительных пар и максимизируя расстояние между отрицательными.

➡️ В чем преимущество?
Не требует размеченных данных, что особенно полезно, когда метки отсутствуют или их недостаточно. Модель учится выделять важные признаки. Этот метод универсален и применим к разным типам данных: изображениям, тексту и аудио.

➡️ Примеры применения:
SimCLR - популярный фреймворк для контрастивного обучения для CV
MoCo (Momentum Contrast) - метод контрастивного обучения с моментумом (плавное обновление), улучшает качество представлений за счет стабильных негативных примеров
CLIP от OpenAI - модель, которая связывает текст и изображения с помощью контрастивного обучения, позволяя, например, искать изображения по текстовым запросам
- PTLS (pytorch-lifestream) - опенсорс библиотека, позволяющая строить эмбеддинги из событийных данных на основе метода контрастивного обучения CoLES

Помимо этого, контрастивное обучение можно применять и для обучения рекомендательных систем, например, в рамках подхода, основанного на контенте (Content-Based).
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍4
➡️ Обучение Data Science для начинающих

Уже 10 февраля у нас стартует 8-ой поток курса по Data Science.

Что вы изучите:
Математику для Data Science
Как проводить АБ-тестирование
Классические ML-алгоритмы: от линейных моделей до бустингов
Научитесь разбираться в ML-алгоритмах и грамотно их применять
NLP: от TF-IDF до Transformers
Deep Learning: основные тренды, база по нейросетям
Computer Vision: примеры из области
MLOps: production code, FastAPI, Streamlit, линтеры
Дополнительно: Airflow, MLFlow, многопоточность, мультипроцессинг, временные ряды, Superset и пр.

Также у нас есть расширенная версия курса с обучением почти на 1 год, дополнительно включающая:
➡️NLP: от базовой обработки текста (токенизация, лемматизация, регулярные выражения и пр.) до продвинутых моделей: Word2Vec, LSTM, Attention, Transformer (BERT, GPT). Научитесь дообучать модели с Hugging Face и применять их в задачах анализа тональности, диалогов и обработки кода (GraphCodeBERT, CodeT5)
➡️Рекомендательные системы: коллаборативная, контентная и гибридная фильтрация. Изучите алгоритмы (User/ItemKNN, ALS, NCF, SVD++), метрики валидации (классификационные, регрессионные, ранжирующие, beyond accuracy). Разберете продвинутые методы: двухуровневые модели, ранжирование, нейросетевые подходы, автоэнкодеры и графовые рекомендации. Особое внимание уделено последовательным и контекстно-адаптивным системам.

📎 Вся актуальная информация о кол-ве теоретического и практического материала, преподавателях, статстике трудоустройства выпускников на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥116
🚀💥 WOMEN IN DATA SCIENCE MEETUP: ТО, ЧТО ВЗОРВЁТ ВАШ 2025 ГОД! 💥🚀

Друзья, приготовьтесь: 7 марта в суперсовременном зале Sber на Уральской, 1 пройдёт событие, которое перевернёт ваше представление о Data Science! Это не просто митап — это билет в будущее, где женщины-гении данных диктуют правила игры. Вы точно не хотите это пропустить.

🔥 ПОЧЕМУ ЭТО БОМБА?

Легендарные спикеры:

Полина Федотова (Сбер) раскроет, как ИИ управляет роботами уже сегодня — да, это не фантастика!
Анна Текучева (Wildberries) научит ловить «модные словечки» в поиске так же ловко, как браконьеров-рыболовов 🎣 (да, она это делала!).
Анастасия Функнер, Ольга Павлова, Анна Ефимова (Ozon Банк) покажут, как создать ML-платформу будущего из симбиоза Golang, MLOps и магии.
Алена Феногенова (Sber) припасла сюрприз на стыке AGI и NLP — даже название доклада пока засекречено!

Круглый стол со звездами:

Нонна Шахова, Эмели Драль, Ирина Голощапова и Анастасия Никулина обсудят, как женщины меняют правила в DS — от старта в карьере до управления ML-революцией.

После партии науки — рок-н-ролл!

Ваши мозги перегреются? Отдохнём под «Rock Data Band» — они сыграют кавер-хиты (это нужно слышать!). Плюс активности, нетворкинг и море энергии.

🎯 ВЫ ПОПАДЁТЕ:
— В футуристический зал Sber.
— На доклады, которые даже на конференциях уровня AAA не всегда услышишь.
В сообщество тех, кто уже сегодня решает, куда повернёт AI.

📌 ДЕТАЛИ:

🗓 7 марта | 15:30 сбор гостей, 16:00 старт
📍 Sber Hall (СПб, Уральская 1, лит. Ч)
🎟 Регистрация — места ограничены!

P.S. Спешите: скоро откроем названия ещё двух секретных докладов. Это будет жарко, как GPU при тренировке LLM!

#WiDS #ODS_SPB #WomenInTech #DataScienceIsFemale 💻👩🔬🎸

Вы готовы увидеть, на что способны женщины в Data Science? Тогда жмите на ссылку — пока места не кончились! 🔥
🔥24😐9👍6🍾4👨‍💻1
Полезные книги по машинному обучению 📚

1) Машинное обучение с PyTorch и Scikit-Learn, Себастьян Рашка
2) PyTorch. Освещая глубокое обучение, Лука Антига, Томас Виман, Эли Стивенс
3) Грокаем машинное обучение, Луис Серрано
4) Data Science. Наука о данных с нуля, Джоэл Грас
5)Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев, Никита Сергеев
38👍5
🔖ТОП-5 книг по ML

Мы на канале не раз разбирали книги по машинному обучению. Чтож, я предлагаю не останавливаться на этом и разобрать еще несколько интересных источников информации для вашего серого вещества 🧠

➡️Я оценивала книги по следующим критериям:
- Базовые знания
- Практические задание
- Глубина изложения
- Актуальность

Спойлер, данный перечень подойдет для начинающих, либо для специалистов с базой в мл (классические алгоритмы).

Честно говоря, найти прям крутые книги для опытных специалистов очень и очень тяжело, скорее это симбиоз из выступлений на конференциях, статей.

https://www.youtube.com/watch?v=ABIB9BNyYV0

Выше список из рассмотренных книг из видео ☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥1621😁1
В феврале нам удалось встретиться с Марком Паненко (Chief DS Ozon Fintech) в Москве и записать для вас целых две части подкаста Data Breakfast 🥰

В первой части мы обсудили тему личного бренда в Data Science: зачем и для кого он нужен, какие инструменты для этого существуют и многое другое.
За несколько лет на ютубе, большого количества разных экспериментов на разных площадках, анализа других специалистов, собственных успех и неудач, в том числе опыта с продвижением наших DS из WB, мне есть что рассказать!

Краткое саммери:
- Личный бренд, зачем строить, если ты не инфлюенсер?
- YouTube, блог или LinkedIn — где стартовать новичку?
- Как преодолеть страх критики и нехватку времени?
- Главный миф о личном бренде в DS. Spoiler: «Идеальность» — это иллюзия.
- Реальные кейсы из Wildberries: как экспертиза превращается в доверие.

Ссылка на сообщение в группе ODS Piter, где размещен подкаст. Присоединяйтесь и слушайте!

Ставьте ❤️ и мы выпустим 2ую часть подкаста, но уже на другую тему 😉

Инвайт в группу https://t.iss.one/+R7S2T7UvxVoxYTdi
Please open Telegram to view this post
VIEW IN TELEGRAM
25😭3👍1
Forwarded from WB Space
#мнение_эксперта
В конце февраля DeepSeek устроили неделю опенсорса и 5 дней публиковали репозитории с кодом их проектов ⚙️

FlashMLA — механизм декодирования для больших языковых моделей.
DeepEP — коммуникационная библиотека, специально разработанная для MoE и EP.
DeepGEMM — библиотека для эффективных вычислений General Matrix Multiplications.
DualPipe — инновационный алгоритм двунаправленного конвейерного параллелизма.
Fire-Flyer File System (3FS) — высокопроизводительная распределенная файловая система.

Остальные подробности про каждый проект читайте на карточках!

———
Спасибо за разбор Павлу Дмитриеву, Machine Learning Engineer в CoreCV
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍2