🚀Как устроен блок NLP на курсе по Data Science?
Друзья, поздравляю с наступившим Новым годом и приближающимся Рождеством! 🎄
Сегодня мы разберем блок по обработке естественного языка (NLP) на курсе Data Science для начинающих. Этот блок проработан настолько детально, что вы сможете сразу использовать полученные знания для реальных задач.
Блок составлен Айдаром Валеевым, аспирантом Иннополиса, который сейчас работает NLP-специалистом в GigaCode и ранее занимался разработкой NLP-решений в Digital Habits и EORA.
➡️ Основы NLP
Вы начнете со знакомства с NLP и изучения ключевых задач: классификации текстов, анализа тональности, распознавания именованных сущностей (NER) и определения частей речи (POS-tagging).
Затем погрузитесь в обработку текста: токенизацию (разделение на слова), лемматизацию (приведение слова к нормальной форме), стемминг (выделение основы слова) и удаление стоп-слов. Также изучите современные подходы, такие как Byte-Pair Encoding (BPE), который используется в языковых моделях (LLM).
➡️ Инструменты анализа текста
Изучите регулярные выражения, теорию формальных языков, а также лексический анализ. Рассмотрите такие методы, как TF-IDF, LSA, LDA, и словари вроде WordNet.
Также блок охватывает основы информационного поиска: построение инвертированных индексов, методы ранжирования и поиск релевантных документов в больших текстовых массивах.
➡️ Языковое моделирование
Познакомитесь с Part-of-Speech Tagging, скрытыми марковскими моделями (HMM), а также нейросетевыми подходами для предсказания текста.
Для представления слов в числовом виде изучите популярные методики: Word2Vec, FastText и GloVe.
Далее переходите к нейросетевым архитектурам для обработки последовательностей: RNN, LSTM и GRU. Узнаете, как механизм Attention улучшает качество моделей.
➡️ Современные подходы: Transformer и LLM
Изучите архитектуру Transformer, лежащую в основе BERT и GPT. Разберете Self-Attention, Multi-Head Attention и Positional Encoding.
На практике создадите простую модель Transformer для перевода текста.
После этого углубитесь в BERT, GPT и Transfer Learning.
Используя библиотеку Hugging Face, вы дообучите готовые модели под конкретные задачи.
➡️ Применение и практика
Куда ведь без реальных практических примеров, да еще и на Python? Ловите! На практике решите задачи классификации намерений, анализа диалогов и расшифровок звонков. Также познакомитесь с моделями для анализа кода: GraphCodeBERT, UniXcoder, CodeT5 и StarCoder.
В завершении курса изучите, как сохранить NLP-модель в формате ONNX, оптимизировать с помощью TensorRT и развернуть её в реальных приложениях с использованием Docker и Triton Inference Server.
💪 У вас будут тестовые задания после каждого урока в блоке, а также 3 крупных практических задания! Отличная возможность не только закрепить теорию, но и попрактиковаться.
Вы могли заметить, что информации действительно много! Да, это так! Поэтому перечитайте 3-е предложение этого поста 😉 Но несмотря на это, всё объяснено максимально доступным языком. Главное — не лениться и с интересом подходить к процессу обучения!
❗️ Старт обучения 8-го потока начинася 10 февраля! Для тех, кто хочет приобрести тариф Grandmaster, действует скидка 5% по промокоду PYMAGICTG до 10 января.
Вся подробная информация о кол-ве теоретического и практического материала, преподавателях, кураторах на сайте PyMagic
Друзья, поздравляю с наступившим Новым годом и приближающимся Рождеством! 🎄
Сегодня мы разберем блок по обработке естественного языка (NLP) на курсе Data Science для начинающих. Этот блок проработан настолько детально, что вы сможете сразу использовать полученные знания для реальных задач.
Блок составлен Айдаром Валеевым, аспирантом Иннополиса, который сейчас работает NLP-специалистом в GigaCode и ранее занимался разработкой NLP-решений в Digital Habits и EORA.
Вы начнете со знакомства с NLP и изучения ключевых задач: классификации текстов, анализа тональности, распознавания именованных сущностей (NER) и определения частей речи (POS-tagging).
Затем погрузитесь в обработку текста: токенизацию (разделение на слова), лемматизацию (приведение слова к нормальной форме), стемминг (выделение основы слова) и удаление стоп-слов. Также изучите современные подходы, такие как Byte-Pair Encoding (BPE), который используется в языковых моделях (LLM).
Изучите регулярные выражения, теорию формальных языков, а также лексический анализ. Рассмотрите такие методы, как TF-IDF, LSA, LDA, и словари вроде WordNet.
Также блок охватывает основы информационного поиска: построение инвертированных индексов, методы ранжирования и поиск релевантных документов в больших текстовых массивах.
Познакомитесь с Part-of-Speech Tagging, скрытыми марковскими моделями (HMM), а также нейросетевыми подходами для предсказания текста.
Для представления слов в числовом виде изучите популярные методики: Word2Vec, FastText и GloVe.
Далее переходите к нейросетевым архитектурам для обработки последовательностей: RNN, LSTM и GRU. Узнаете, как механизм Attention улучшает качество моделей.
Изучите архитектуру Transformer, лежащую в основе BERT и GPT. Разберете Self-Attention, Multi-Head Attention и Positional Encoding.
На практике создадите простую модель Transformer для перевода текста.
После этого углубитесь в BERT, GPT и Transfer Learning.
Используя библиотеку Hugging Face, вы дообучите готовые модели под конкретные задачи.
Куда ведь без реальных практических примеров, да еще и на Python? Ловите! На практике решите задачи классификации намерений, анализа диалогов и расшифровок звонков. Также познакомитесь с моделями для анализа кода: GraphCodeBERT, UniXcoder, CodeT5 и StarCoder.
В завершении курса изучите, как сохранить NLP-модель в формате ONNX, оптимизировать с помощью TensorRT и развернуть её в реальных приложениях с использованием Docker и Triton Inference Server.
💪 У вас будут тестовые задания после каждого урока в блоке, а также 3 крупных практических задания! Отличная возможность не только закрепить теорию, но и попрактиковаться.
Вы могли заметить, что информации действительно много! Да, это так! Поэтому перечитайте 3-е предложение этого поста 😉 Но несмотря на это, всё объяснено максимально доступным языком. Главное — не лениться и с интересом подходить к процессу обучения!
Вся подробная информация о кол-ве теоретического и практического материала, преподавателях, кураторах на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Курс Data Science для начинающих
Реальные задачи и проекты, разбор алгоритмов и методов машинного обучения, пробное собеседование
👍11🔥6🤩1
➡️В новом ролике я рассказала о том, как начала работать в Data Science. Поделилась своими ошибками, которые возникали как в процессе обучения, так и в период профессионального роста. Ошибок было много, но самые частые оказались связанными с базовыми вещами.
Я случайно забыла отключить комментарии под последним роликом. К своему удивлению, получила много позитивных откликов. Спасибо вам, ребята! ❤️
Однако, как обычно, нашлось место и для гадких комментов)) Значит дождь зимой не пойдет))
И да, у некоторых людей обычное выражение лица связано с индивидуальными особенностями, а не с высокомерием.
https://www.youtube.com/watch?v=OS7vANT0YPQ
Я случайно забыла отключить комментарии под последним роликом. К своему удивлению, получила много позитивных откликов. Спасибо вам, ребята! ❤️
Однако, как обычно, нашлось место и для гадких комментов)) Значит дождь зимой не пойдет))
И да, у некоторых людей обычное выражение лица связано с индивидуальными особенностями, а не с высокомерием.
https://www.youtube.com/watch?v=OS7vANT0YPQ
YouTube
Что я поняла за 8 лет в сфере ML. Моя история
В этом видео я делюсь своим опытом работы в сфере машинного обучения за последние 8 лет. Мы обсудим ключевые моменты, которые я узнала на своем пути, а также вызовы и достижения, с которыми столкнулась. Если вы интересуетесь карьерой в области Data Science…
👍39🔥1🤣1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Forwarded from WB Space
#дайджест_wbs
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег👇
➡️ Релиз Deepseek-V3
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.
Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).
DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.
➡️ VLM с ризонингом от Qwen
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).
Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.
➡️ HuggingFace выпустили smolagents
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.
Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.
➿ ➿ ➿ ➿ ➿
Комментарии подготовили ML- и DS-специалисты Wildberries💘
🌟 @wb_space
📹 @wb_tech
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.
Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).
DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).
Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.
Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.
Комментарии подготовили ML- и DS-специалисты Wildberries
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3❤1
Давайте сегодня немного разомнемся и попробуем разобрать новый материал! Не будем замыкаться в рамках классического машинного обучения, а пойдем чуть дальше. Сегодня разберем одну из важных и интересных тем, потому что этот метод набирает все больше оборотов и используется в совершенно разных задачах.
Контрастивное обучение (Contrastive Learning) — это метод самообучения (self-supervised learning), который позволяет моделям извлекать полезные представления из данных без явных меток. Основная идея заключается в том, чтобы научить модель различать похожие и непохожие объекты, используя функцию потерь, называемую Contrastive Loss.
Формируются пары:
- "положительные" — состоящие из похожих объектов, например аугментированных версий одного изображения, или объектов, которые были оценены пользователем высоко или с которыми он активно взаимодействовал в задачах рекомендаций.
- "отрицательные" — из различных объектов, например, изображений из разных классов, текстов с разным содержанием, или объектов, с которыми пользователь не взаимодействовал.
Модель обучается с использованием Contrastive Loss, минимизируя расстояние между эмбеддингами (представлениями) положительных пар и максимизируя расстояние между отрицательными.
Не требует размеченных данных, что особенно полезно, когда метки отсутствуют или их недостаточно. Модель учится выделять важные признаки. Этот метод универсален и применим к разным типам данных: изображениям, тексту и аудио.
⁃ SimCLR - популярный фреймворк для контрастивного обучения для CV
⁃ MoCo (Momentum Contrast) - метод контрастивного обучения с моментумом (плавное обновление), улучшает качество представлений за счет стабильных негативных примеров
⁃ CLIP от OpenAI - модель, которая связывает текст и изображения с помощью контрастивного обучения, позволяя, например, искать изображения по текстовым запросам
- PTLS (pytorch-lifestream) - опенсорс библиотека, позволяющая строить эмбеддинги из событийных данных на основе метода контрастивного обучения CoLES
Помимо этого, контрастивное обучение можно применять и для обучения рекомендательных систем, например, в рамках подхода, основанного на контенте (Content-Based).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍4
Уже 10 февраля у нас стартует 8-ой поток курса по Data Science.
Что вы изучите:
Также у нас есть расширенная версия курса с обучением почти на 1 год, дополнительно включающая:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤6
🚀💥 WOMEN IN DATA SCIENCE MEETUP: ТО, ЧТО ВЗОРВЁТ ВАШ 2025 ГОД! 💥🚀
Друзья, приготовьтесь: 7 марта в суперсовременном зале Sber на Уральской, 1 пройдёт событие, которое перевернёт ваше представление о Data Science! Это не просто митап — это билет в будущее, где женщины-гении данных диктуют правила игры. Вы точно не хотите это пропустить.
🔥 ПОЧЕМУ ЭТО БОМБА?
✅ Легендарные спикеры:
— Полина Федотова (Сбер) раскроет, как ИИ управляет роботами уже сегодня — да, это не фантастика!
— Анна Текучева (Wildberries) научит ловить «модные словечки» в поиске так же ловко, как браконьеров-рыболовов 🎣 (да, она это делала!).
— Анастасия Функнер, Ольга Павлова, Анна Ефимова (Ozon Банк) покажут, как создать ML-платформу будущего из симбиоза Golang, MLOps и магии.
— Алена Феногенова (Sber) припасла сюрприз на стыке AGI и NLP — даже название доклада пока засекречено!
✅ Круглый стол со звездами:
Нонна Шахова, Эмели Драль, Ирина Голощапова и Анастасия Никулина обсудят, как женщины меняют правила в DS — от старта в карьере до управления ML-революцией.
✅ После партии науки — рок-н-ролл!
Ваши мозги перегреются? Отдохнём под «Rock Data Band» — они сыграют кавер-хиты (это нужно слышать!). Плюс активности, нетворкинг и море энергии.
🎯 ВЫ ПОПАДЁТЕ:
— В футуристический зал Sber.
— На доклады, которые даже на конференциях уровня AAA не всегда услышишь.
— В сообщество тех, кто уже сегодня решает, куда повернёт AI.
📌 ДЕТАЛИ:
🗓 7 марта | ⏰ 15:30 сбор гостей, 16:00 старт
📍 Sber Hall (СПб, Уральская 1, лит. Ч)
🎟 Регистрация — места ограничены!
P.S. Спешите: скоро откроем названия ещё двух секретных докладов. Это будет жарко, как GPU при тренировке LLM!
#WiDS #ODS_SPB #WomenInTech #DataScienceIsFemale 💻👩🔬🎸
Вы готовы увидеть, на что способны женщины в Data Science? Тогда жмите на ссылку — пока места не кончились! 🔥
Друзья, приготовьтесь: 7 марта в суперсовременном зале Sber на Уральской, 1 пройдёт событие, которое перевернёт ваше представление о Data Science! Это не просто митап — это билет в будущее, где женщины-гении данных диктуют правила игры. Вы точно не хотите это пропустить.
🔥 ПОЧЕМУ ЭТО БОМБА?
✅ Легендарные спикеры:
— Полина Федотова (Сбер) раскроет, как ИИ управляет роботами уже сегодня — да, это не фантастика!
— Анна Текучева (Wildberries) научит ловить «модные словечки» в поиске так же ловко, как браконьеров-рыболовов 🎣 (да, она это делала!).
— Анастасия Функнер, Ольга Павлова, Анна Ефимова (Ozon Банк) покажут, как создать ML-платформу будущего из симбиоза Golang, MLOps и магии.
— Алена Феногенова (Sber) припасла сюрприз на стыке AGI и NLP — даже название доклада пока засекречено!
✅ Круглый стол со звездами:
Нонна Шахова, Эмели Драль, Ирина Голощапова и Анастасия Никулина обсудят, как женщины меняют правила в DS — от старта в карьере до управления ML-революцией.
✅ После партии науки — рок-н-ролл!
Ваши мозги перегреются? Отдохнём под «Rock Data Band» — они сыграют кавер-хиты (это нужно слышать!). Плюс активности, нетворкинг и море энергии.
🎯 ВЫ ПОПАДЁТЕ:
— В футуристический зал Sber.
— На доклады, которые даже на конференциях уровня AAA не всегда услышишь.
— В сообщество тех, кто уже сегодня решает, куда повернёт AI.
📌 ДЕТАЛИ:
🗓 7 марта | ⏰ 15:30 сбор гостей, 16:00 старт
📍 Sber Hall (СПб, Уральская 1, лит. Ч)
🎟 Регистрация — места ограничены!
P.S. Спешите: скоро откроем названия ещё двух секретных докладов. Это будет жарко, как GPU при тренировке LLM!
#WiDS #ODS_SPB #WomenInTech #DataScienceIsFemale 💻👩🔬🎸
Вы готовы увидеть, на что способны женщины в Data Science? Тогда жмите на ссылку — пока места не кончились! 🔥
🔥24😐9👍6🍾4👨💻1
Полезные книги по машинному обучению 📚
1) Машинное обучение с PyTorch и Scikit-Learn, Себастьян Рашка
2) PyTorch. Освещая глубокое обучение, Лука Антига, Томас Виман, Эли Стивенс
3) Грокаем машинное обучение, Луис Серрано
4) Data Science. Наука о данных с нуля, Джоэл Грас
5)Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев, Никита Сергеев
1) Машинное обучение с PyTorch и Scikit-Learn, Себастьян Рашка
2) PyTorch. Освещая глубокое обучение, Лука Антига, Томас Виман, Эли Стивенс
3) Грокаем машинное обучение, Луис Серрано
4) Data Science. Наука о данных с нуля, Джоэл Грас
5)Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев, Никита Сергеев
❤38👍5
Мы на канале не раз разбирали книги по машинному обучению. Чтож, я предлагаю не останавливаться на этом и разобрать еще несколько интересных источников информации для вашего серого вещества 🧠
- Базовые знания
- Практические задание
- Глубина изложения
- Актуальность
Спойлер, данный перечень подойдет для начинающих, либо для специалистов с базой в мл (классические алгоритмы).
Честно говоря, найти прям крутые книги для опытных специалистов очень и очень тяжело, скорее это симбиоз из выступлений на конференциях, статей.
https://www.youtube.com/watch?v=ABIB9BNyYV0
Выше список из рассмотренных книг из видео ☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Я прочитала 100 книг по Дата Сайнс и вот ТОП 5
Название книг из ролика в группе https://t.iss.one/pymagic
В этом видео я делюсь своим опытом чтения 100 книг по Data Science и представляю вам ТОП 3 лучших из них. Узнайте, какие книги стали для меня настоящими находками и как они могут помочь вам в изучении…
В этом видео я делюсь своим опытом чтения 100 книг по Data Science и представляю вам ТОП 3 лучших из них. Узнайте, какие книги стали для меня настоящими находками и как они могут помочь вам в изучении…
👍29🔥16❤2⚡1😁1
В феврале нам удалось встретиться с Марком Паненко (Chief DS Ozon Fintech) в Москве и записать для вас целых две части подкаста Data Breakfast 🥰
В первой части мы обсудили тему личного бренда в Data Science: зачем и для кого он нужен, какие инструменты для этого существуют и многое другое.
За несколько лет на ютубе, большого количества разных экспериментов на разных площадках, анализа других специалистов, собственных успех и неудач, в том числе опыта с продвижением наших DS из WB, мне есть что рассказать!
Краткое саммери:
- Личный бренд, зачем строить, если ты не инфлюенсер?
- YouTube, блог или LinkedIn — где стартовать новичку?
- Как преодолеть страх критики и нехватку времени?
- Главный миф о личном бренде в DS. Spoiler: «Идеальность» — это иллюзия.
- Реальные кейсы из Wildberries: как экспертиза превращается в доверие.
Ссылка на сообщение в группе ODS Piter, где размещен подкаст. Присоединяйтесь и слушайте!
Ставьте ❤️ и мы выпустим 2ую часть подкаста, но уже на другую тему 😉
Инвайт в группу https://t.iss.one/+R7S2T7UvxVoxYTdi
В первой части мы обсудили тему личного бренда в Data Science: зачем и для кого он нужен, какие инструменты для этого существуют и многое другое.
За несколько лет на ютубе, большого количества разных экспериментов на разных площадках, анализа других специалистов, собственных успех и неудач, в том числе опыта с продвижением наших DS из WB, мне есть что рассказать!
Краткое саммери:
- Личный бренд, зачем строить, если ты не инфлюенсер?
- YouTube, блог или LinkedIn — где стартовать новичку?
- Как преодолеть страх критики и нехватку времени?
- Главный миф о личном бренде в DS. Spoiler: «Идеальность» — это иллюзия.
- Реальные кейсы из Wildberries: как экспертиза превращается в доверие.
Ссылка на сообщение в группе ODS Piter, где размещен подкаст. Присоединяйтесь и слушайте!
Ставьте ❤️ и мы выпустим 2ую часть подкаста, но уже на другую тему 😉
Инвайт в группу https://t.iss.one/+R7S2T7UvxVoxYTdi
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25😭3👍1
Forwarded from WB Space
#мнение_эксперта
В конце февраля DeepSeek устроили неделю опенсорса и 5 дней публиковали репозитории с кодом их проектов⚙️
◼ FlashMLA — механизм декодирования для больших языковых моделей.
◼ DeepEP — коммуникационная библиотека, специально разработанная для MoE и EP.
◼ DeepGEMM — библиотека для эффективных вычислений General Matrix Multiplications.
◼ DualPipe — инновационный алгоритм двунаправленного конвейерного параллелизма.
◼ Fire-Flyer File System (3FS) — высокопроизводительная распределенная файловая система.
Остальные подробности про каждый проект читайте на карточках!
———
Спасибо за разбор Павлу Дмитриеву, Machine Learning Engineer в CoreCV✅
🌟 @wb_space
📹 @wb_tech
В конце февраля DeepSeek устроили неделю опенсорса и 5 дней публиковали репозитории с кодом их проектов
◼ FlashMLA — механизм декодирования для больших языковых моделей.
◼ DeepEP — коммуникационная библиотека, специально разработанная для MoE и EP.
◼ DeepGEMM — библиотека для эффективных вычислений General Matrix Multiplications.
◼ DualPipe — инновационный алгоритм двунаправленного конвейерного параллелизма.
◼ Fire-Flyer File System (3FS) — высокопроизводительная распределенная файловая система.
Остальные подробности про каждый проект читайте на карточках!
———
Спасибо за разбор Павлу Дмитриеву, Machine Learning Engineer в CoreCV
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍2