В этом году все места на тарифе Grandmaster были раскуплены, ведь именно там дополнительно к основной части мы подробно рассматриваем направления NLP и RecSys:
Теперь ответ – почти да! Мы разработали отдельный курс по Data Science для аналитиков данных. Чтобы проверить, достаточно ли у вас знаний для прохождения этой программы, можно пройти тест на базовые знания
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Курс Data Science для начинающих
Реальные задачи и проекты, разбор алгоритмов и методов машинного обучения, пробное собеседование
👍9🔥3
Единственный момент, мне не очень нравится, когда начинают писать, вот раньше трава была зеленее, а нас сейчас заставляют чуть ли не степень доктора наук получать, чтоб работать стажером… Давайте не будем преувеличивать.
Без минимального интереса в какой либо профессии очень сложно. Либо она для вас временная для заработка денег, либо вообще не ваша.
https://youtu.be/yvbEd1YWQ7Q?si=i-1BI_gzG-r8ifm8
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Этот проект для резюме на Python даст тебе ПРЕИМУЩЕСТВО!
Этот проект на Python для резюме даст тебе ПРЕИМУЩЕСТВО при трудоустройстве! В этом видео я расскажу о крутой идее проекта, который продемонстрирует твои навыки программирования и выделит тебя среди других кандидатов. Узнай, как этот проект поможет показать…
👍23👌4🔥2
Друзья, приготовили для вас скидки на курсы PyMagic!
- Что такое NLP? Как делать предобработку текста (токенизация, стемминг и т.д.)
- Напишите свой чат бот на регулярках и запустите его в телеграмм
- Разберете лексический анализ. WordNet, TF-IDF, LSA
- Напишите и обучите нейросеть для перевода с одного языка на другой
- Разберете огромнейшую тему Transformers в теории и на практике: BERT, ChatGPT, T5 и т.д.
- Не обойдете стороной и практику с Hugging Face
- Разберете примеры из реальной работы на Python с обучением моделей, а также как грамотно деплоить такие модели в прод
- Паттерны ML-инференса
- Как перейти от Jupyter Notebook к промышленному коду
- Тесты для ML-моделей
- Воспроизводимость моделей и развертывание сервиса при помощи FAST API
- Airflow для обучения ML-модели при помощи пайплайна задач
- Docker Compose
- Мониторинг при помощи Grafana
- CI в GitHub Actions
- Инфраструктура как код
- Работа с Terraform
- Основы Kubernetes для DS
- Кластер Kubernetes для REST- сервиса
- Apache Kafka
- Confluent Cloud
- CI/CD в GitHub Actions
- ArgoCD
Более подробная информация на сайте PyMagic
Мы также принимаем платежи из за рубежа
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Easy Natural Language Processing — курс для начинающих
Уровень junior-middle
🔥11😱2👍1
Хейтеры скажут, что сгенерировала нейросеть) Не будем их переубеждать, пусть спят спокойно
Мне стало интересно, как сейчас обстоят дела на рынке вакансий для начинающих. Я проходила это давно, но решила проверить на себе.
Сразу прошу прощения у коллег по цеху за потраченное время
https://youtu.be/WEMBiBUEZOM?si=BTDXx5VuJtUF7j8S
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Притворилась новичком в Data Science и устраиваюсь на работу С НУЛЯ
В этом видео я притворяюсь новичком в Data Science и устраиваюсь на работу с нуля! Делюсь своим опытом прохождения собеседований, подготовки резюме и тем, как на практике показывать знания и навыки, даже если вы начинающий. Узнайте, как попасть в сферу Data…
👍25🔥15❤4🤔3😢3🤯2⚡1
Самый залайканный коммент под последним видео - про то, что это всё была ПОСТАНОВА с собесом 🙈 Скажу больше: таких комментов — каждый второй. Зато когда парни делают подобного рода контент, мы не сомневаемся, и пишем какие они офигенные! Ох уж эти двойные стандарты 😉
Для меня было бы полнейшей дикостью сделать такую «постанову», это противоречит и моим принципам, и здравому смыслу, и такое вранье - ппц какой удар по бизнесу. Для меня уже было оч нервно идти и притворяться на собесе кем то другим, за что я извинилась перед коллегами в прошлых сообщениях тут))
Кто меня лично хорошо знает, у тех вообще не было сомнений, что все это было реальным экспериментом) Далее доказывать что ты не индюк, только дурак будет)
Но я понимаю, почему так писали. Признать, что не получается найти работу из-за собственных пробелов, тяжело. Кто-то не доучил материал, не разобрался, не приложил максимум усилий, а может, вообще не хочет идти в эту сферу. Тогда и начинаются попытки подогнать реальность под себя. Это большая ошибка, которая мешает достичь цели.
Знаете, как начинается выздоровление у зависимых? С признания проблемы. Без этого двигаться дальше невозможно. Тут то же самое — только вместо болезни это честный взгляд на свои знания и навыки.
Очень много комментов было по поводу того, что вопросы на Junior были слишком сложные. Я в шоке🙈 Теперь понятно, почему некоторые годами не могут устроиться. Они хотят делать только fit-predict и получать за это 300к в месяц. Друзья, так бывает 1 на 1млн, не обольщайтесь, вы в этот 1 млн не попадете.
У нас 4-5 лет назад были ТЕ ЖЕ вопросы + гномики, но сейчас гномиков для части направлений заменили на базовые вопросы по архитектуре Transformer. КАКОЙ КОШМАР 🥲
В общем, пересматривайте и пишите еще больше комментов 🤗🤗🤗 Мне наоборот нравится, когда горят 🍑🔥 есть потом фактура и вдохновение))
P.S.: странно, что никто не заметил ошибку в моем рассказе про Transformer на собесе 🤔 Я ее специально не стала убирать)
Для меня было бы полнейшей дикостью сделать такую «постанову», это противоречит и моим принципам, и здравому смыслу, и такое вранье - ппц какой удар по бизнесу. Для меня уже было оч нервно идти и притворяться на собесе кем то другим, за что я извинилась перед коллегами в прошлых сообщениях тут))
Кто меня лично хорошо знает, у тех вообще не было сомнений, что все это было реальным экспериментом) Далее доказывать что ты не индюк, только дурак будет)
Но я понимаю, почему так писали. Признать, что не получается найти работу из-за собственных пробелов, тяжело. Кто-то не доучил материал, не разобрался, не приложил максимум усилий, а может, вообще не хочет идти в эту сферу. Тогда и начинаются попытки подогнать реальность под себя. Это большая ошибка, которая мешает достичь цели.
Знаете, как начинается выздоровление у зависимых? С признания проблемы. Без этого двигаться дальше невозможно. Тут то же самое — только вместо болезни это честный взгляд на свои знания и навыки.
Очень много комментов было по поводу того, что вопросы на Junior были слишком сложные. Я в шоке🙈 Теперь понятно, почему некоторые годами не могут устроиться. Они хотят делать только fit-predict и получать за это 300к в месяц. Друзья, так бывает 1 на 1млн, не обольщайтесь, вы в этот 1 млн не попадете.
У нас 4-5 лет назад были ТЕ ЖЕ вопросы + гномики, но сейчас гномиков для части направлений заменили на базовые вопросы по архитектуре Transformer. КАКОЙ КОШМАР 🥲
В общем, пересматривайте и пишите еще больше комментов 🤗🤗🤗 Мне наоборот нравится, когда горят 🍑🔥 есть потом фактура и вдохновение))
P.S.: странно, что никто не заметил ошибку в моем рассказе про Transformer на собесе 🤔 Я ее специально не стала убирать)
👍42😁10🔥1🤯1😱1
Если ты думал, что достаточно будет пройти live-coding и ответить на теоретические вопросы, то ты очень сильно ошибался…
🔎 Иногда по самым простым вопросам можно понять твой уровень. Для этого не обязательно гонять тебя по всей программе машинного обучения.
➡️ Разберём, как лучше всего на них отвечать, какие ответы станут красными флагами для работодателя, а также рассмотрим теоретические вопросы по Data Science, которые встречаются в 99% случаев!
Поехали!🚀
https://youtu.be/WMWCFgHHvuE
Поехали!
https://youtu.be/WMWCFgHHvuE
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
ТОП вопросов на собеседовании. И ПРАВИЛЬНЫЕ ОТВЕТЫ
В этом видео я собрала топ вопросов, которые чаще всего задают на собеседованиях по Data Science, и рассказываю, как на них правильно отвечать. Узнайте, как подготовиться к техническим и поведенческим вопросам, чтобы произвести впечатление на работодателей.…
🔥18❤3👏1😱1
Тема актуальная не только для тех, кто занимается классическим машинным обучением, но и Deep Learning. Давайте начнем с основ, которые обычно проходят в начале обучения, это поможет вам понять саму концепцию регуляризации.
Глобально модель может находиться в трех состояниях: недообучение, нормальное обучение и переобучение. Существует несколько способов борьбы с переобучением, и регуляризация — один из таких методов.
- L2-регуляризация — сумма квадратов весов модели
- L1-регуляризация — сумма модулей весов
- ElasticNet — комбинация L1 и L2 регуляризаций, которая позволяет контролировать оба аспекта
Ставь 🔥, чтобы узнать о способах регуляризации в деревьях решений
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥79😁3
Forwarded from WB Space
Перезапускаем рубрику #дайджест_wbs: теперь больше деталей к каждому из инфоповодов!
Читайте пилотный выпуск и оставляйте реакции на новый формат🔥 💜 👍
➡️ Pixtral-Large-Instruct-2411 — новая модель от Mistral
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).
Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).
➡️ Релиз Stability AI : модели ControlNet для Stable Diffusion 3.5 Large
Теперь можно точно контролировать генерацию изображений:
▪ Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
▪ Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
▪ Blur: обеспечивает качественное увеличение изображений через обработку фрагментов.
Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.
➡️ Nvidia Labs представили SANA
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).
Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.
Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.
➡️ Smol course — практический курс от Huggingface
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.
➿ ➿ ➿ ➿ ➿
Комментарии подготовили ML- и DS-специалисты Wildberries💘
Подписывайтесь, чтобы быть в курсе новостей:
🌟 @wb_space
📹 @wb_tech
Читайте пилотный выпуск и оставляйте реакции на новый формат
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).
Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).
Теперь можно точно контролировать генерацию изображений:
▪ Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
▪ Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
▪ Blur: обеспечивает качественное увеличение изображений через обработку фрагментов.
Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).
Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.
Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.
Комментарии подготовили ML- и DS-специалисты Wildberries
Подписывайтесь, чтобы быть в курсе новостей:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍2
В привычном смысле регуляризации, как штрафов на веса (например, в линейных моделях, разбирали в этом посте), в деревьях решений нет. Однако ограничения на структуру дерева выполняют ту же роль, помогая предотвратить переобучение и сделать модель более устойчивой на новых данных.
Напомню, что узлы — точки в дереве, где данные делятся на основе условий (предикат), а листья — конечные узлы дерева, где находятся итоговые предсказания или решения.
Проще сразу рассматривать их в контексте наименований гиперпараметров из sklearn:
- max_depth — ограничивает глубину дерева. Один из важнейших параметров, предотвращающих избыточное подстраивание под обучающую выборку
- ccp_alpha — используется для постобработки дерева, удаляет узлы с низкой важностью, уменьшая сложность модели. Чем выше значение, тем больше узлов будет удалено
- min_samples_split — минимальное количество объектов для разделения узла, предотвращает деление узлов с малым количеством данных, предотвращает излишнюю детализацию
- min_samples_leaf и min_weight_fraction_leaf — задают минимальный размер листьев (кол-во и доля)
- max_leaf_nodes — ограничение на количество листьев
Часть из этих параметров используется и в градиентном бустинге. Я, кстати, очень люблю спрашивать на собеседованиях про его гиперпараметры. Всегда выглядит забавно, когда человек рассказывает про свой опыт в 100500 лет, про суперпроекты, которые он делал с помощью бустинга, а потом впадает в ступор после простого вопроса о гиперпараметрах. Казалось бы, ты же их тюнишь постоянно 🤔
Хотите пост про гиперпараметры бустинга? Ставьте 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46❤1
🤖Как сделать собственного ассистента при помощи RAG
Про то, что такое RAG мы уже писали в этом посте 🤗 А теперь давайте попробуем потренироваться и написать такого ассистента на Python!
Задача — создать виртуального помощника куратора для студентов онлайн-школы. Такой куратор сможет не только отвечать на вопросы студентов, но и предоставлять ответы по лекциям, коду из семинаров и видео-лекциям.
Как в данном случае задействовать образовательный материал и LLM, смотрите в новом видео!
https://youtu.be/QtDTUyw8qSk
Про то, что такое RAG мы уже писали в этом посте 🤗 А теперь давайте попробуем потренироваться и написать такого ассистента на Python!
Задача — создать виртуального помощника куратора для студентов онлайн-школы. Такой куратор сможет не только отвечать на вопросы студентов, но и предоставлять ответы по лекциям, коду из семинаров и видео-лекциям.
Как в данном случае задействовать образовательный материал и LLM, смотрите в новом видео!
https://youtu.be/QtDTUyw8qSk
YouTube
Начните автоматизировать свою жизнь с помощью AI!
Хотите начать автоматизировать свою жизнь с помощью Python? В этом видео я покажу, как с помощью простых скриптов можно автоматизировать рутинные задачи: от сортировки файлов до отправки уведомлений и сбора данных. Это отличное введение в мир Python, даже…
👍18👌5🤩3❤1
https://youtu.be/Wzg3zqndJBU
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Как бы я изучала структуры данных и алгоритмы в 2025 году (если бы начинала с НУЛЯ)
Как бы я изучала структуры данных и алгоритмы в 2024 году, если бы начинала с нуля? В этом видео я поделюсь эффективными стратегиями и ресурсами для освоения ключевых понятий структур данных и алгоритмов, которые помогут вам успешно подготовиться к техническим…
👍22🔥3❤🔥1
Теория:
- Сайт по обучению Python, блок про структуры данных в Python
- Handbook структуры данных (более полная версия)
- Книга «Алгоритмы и структуры данных на Python»
- Книга «Грокаем алгоритмы»
- Handbook от Яндекса, раздел «Основы алгоритмов»
- Статья Сложность алгоритмов и операций на примере Python
- Таблица со сложностями Алгоритмов и Структуры данных
Практика:
- LeetCode
- Codewars
- CodeRun
- Leetcode Top Interview Questions (на структуры данных)
- HackerRank Data Structures
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32❤4🔥4⚡3
✉️ Запуск 8-го потока курса по Data Science для начинающих!
🚀 Друзья, рады сообщить, что стартует 8-й поток курса по Data Science для начинающих! Обучение начнется 10 февраля.
Мы оставили два тарифа:
➖ Expert — для тех, кто хочет освоить только классический ML и дальше самостоятельно искать работу
➖ Grandmaster — включает не только классический ML, но и углубленное!! изучение NLP и RecSys, а также помощь с трудоустройством в карьерном центре
Часто задаваемый вопрос:
Мы понимаем, что на рынке много курсов/программ, и каждый разработан для своей аудитории и определённых целей. Некоторые программы ориентированы на обучение ради удовольствия — увлекательное времяпрепровождение для тех, кто любит учиться, но без акцента на трудоустройство. Другие же предлагают глубокие, интенсивные программы, где придется приложить усилия, чтобы получить знания и выйти на работу в новой сфере.
➡️ Наш курс относится ко второму типу. У нас актуальная статистика трудоустройства (основанная на результатах 6 потоков) доступна на нашем сайте. При этом доходимость курса сопоставима с более простыми образовательными программами 🥰
➡️ Если сравнивать с ТОП ВУЗами, то наша программа имеет аналогичный уровень сложности, но отличается более доступной подачей и интенсивным темпом обучения. Это позволяет освоить материал быстрее без потери качества. Кстати, наши преподаватели также работают в топовых вузах!)
🎁 Для тех, кто хочет приобрести тариф Grandmaster, действует скидка 5% по промокоду PYMAGICTG до 10 января.
➡️ Вся подробная информация о кол-ве теоретического и практического материала, преподавателях, кураторах на сайте PyMagic
Если остались вопросы, пишите в наш бот @pymagicinfo_bot или [email protected] — будем рады помочь! ❤️ В следующих постах подробно расскажем о программе курса 🙌
Мы оставили два тарифа:
Часто задаваемый вопрос:
«Чем ваш курс отличается от других?»
Мы понимаем, что на рынке много курсов/программ, и каждый разработан для своей аудитории и определённых целей. Некоторые программы ориентированы на обучение ради удовольствия — увлекательное времяпрепровождение для тех, кто любит учиться, но без акцента на трудоустройство. Другие же предлагают глубокие, интенсивные программы, где придется приложить усилия, чтобы получить знания и выйти на работу в новой сфере.
Если остались вопросы, пишите в наш бот @pymagicinfo_bot или [email protected] — будем рады помочь! ❤️ В следующих постах подробно расскажем о программе курса 🙌
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Курс Data Science для начинающих
Реальные задачи и проекты, разбор алгоритмов и методов машинного обучения, пробное собеседование
👍9❤3
Как на самом деле зарабатывать с помощью программирования?
В этом видео я расскажу о реальных трудностях, с которыми сталкиваются программисты, как избежать распространённых ошибок и на что обратить внимание, если вы хотите сделать программирование источником дохода. Узнайте, какие подводные камни могут вас ждать и как на самом деле выглядит путь к успешной карьере в IT.
https://youtu.be/AwPV3pzhAX8
В этом видео я расскажу о реальных трудностях, с которыми сталкиваются программисты, как избежать распространённых ошибок и на что обратить внимание, если вы хотите сделать программирование источником дохода. Узнайте, какие подводные камни могут вас ждать и как на самом деле выглядит путь к успешной карьере в IT.
https://youtu.be/AwPV3pzhAX8
YouTube
Зарабатывайте деньги с помощью программирования. Чего вам НЕ ГОВОРЯТ!
Зарабатывайте деньги с помощью программирования, но есть вещи, о которых вам НЕ ГОВОРЯТ! В этом видео я расскажу о реальных трудностях, с которыми сталкиваются программисты, как избежать распространённых ошибок и на что обратить внимание, если вы хотите сделать…
👍7🔥6
Друзья, поздравляю вас всех с наступающим Новым годом! 🎄🎉❄️
А у кого то уже и с самим праздником! 🎇
Очень здорово, что тут собралось так много людей, которые интересуются машинным обучением! Желаю вам не терять этот запал в новом году, больше классных и интересных проектов, карьерного и денежного роста, ну и обязательно счастья и здоровья!
В Новом году будет еще больше новых роликов, полезных постов, а также сюрпризов! 😉
❤️❤️❤️
А у кого то уже и с самим праздником! 🎇
Очень здорово, что тут собралось так много людей, которые интересуются машинным обучением! Желаю вам не терять этот запал в новом году, больше классных и интересных проектов, карьерного и денежного роста, ну и обязательно счастья и здоровья!
В Новом году будет еще больше новых роликов, полезных постов, а также сюрпризов! 😉
❤️❤️❤️
🥰36❤27🔥16👍13🤯1🎉1
🚀Как устроен блок NLP на курсе по Data Science?
Друзья, поздравляю с наступившим Новым годом и приближающимся Рождеством! 🎄
Сегодня мы разберем блок по обработке естественного языка (NLP) на курсе Data Science для начинающих. Этот блок проработан настолько детально, что вы сможете сразу использовать полученные знания для реальных задач.
Блок составлен Айдаром Валеевым, аспирантом Иннополиса, который сейчас работает NLP-специалистом в GigaCode и ранее занимался разработкой NLP-решений в Digital Habits и EORA.
➡️ Основы NLP
Вы начнете со знакомства с NLP и изучения ключевых задач: классификации текстов, анализа тональности, распознавания именованных сущностей (NER) и определения частей речи (POS-tagging).
Затем погрузитесь в обработку текста: токенизацию (разделение на слова), лемматизацию (приведение слова к нормальной форме), стемминг (выделение основы слова) и удаление стоп-слов. Также изучите современные подходы, такие как Byte-Pair Encoding (BPE), который используется в языковых моделях (LLM).
➡️ Инструменты анализа текста
Изучите регулярные выражения, теорию формальных языков, а также лексический анализ. Рассмотрите такие методы, как TF-IDF, LSA, LDA, и словари вроде WordNet.
Также блок охватывает основы информационного поиска: построение инвертированных индексов, методы ранжирования и поиск релевантных документов в больших текстовых массивах.
➡️ Языковое моделирование
Познакомитесь с Part-of-Speech Tagging, скрытыми марковскими моделями (HMM), а также нейросетевыми подходами для предсказания текста.
Для представления слов в числовом виде изучите популярные методики: Word2Vec, FastText и GloVe.
Далее переходите к нейросетевым архитектурам для обработки последовательностей: RNN, LSTM и GRU. Узнаете, как механизм Attention улучшает качество моделей.
➡️ Современные подходы: Transformer и LLM
Изучите архитектуру Transformer, лежащую в основе BERT и GPT. Разберете Self-Attention, Multi-Head Attention и Positional Encoding.
На практике создадите простую модель Transformer для перевода текста.
После этого углубитесь в BERT, GPT и Transfer Learning.
Используя библиотеку Hugging Face, вы дообучите готовые модели под конкретные задачи.
➡️ Применение и практика
Куда ведь без реальных практических примеров, да еще и на Python? Ловите! На практике решите задачи классификации намерений, анализа диалогов и расшифровок звонков. Также познакомитесь с моделями для анализа кода: GraphCodeBERT, UniXcoder, CodeT5 и StarCoder.
В завершении курса изучите, как сохранить NLP-модель в формате ONNX, оптимизировать с помощью TensorRT и развернуть её в реальных приложениях с использованием Docker и Triton Inference Server.
💪 У вас будут тестовые задания после каждого урока в блоке, а также 3 крупных практических задания! Отличная возможность не только закрепить теорию, но и попрактиковаться.
Вы могли заметить, что информации действительно много! Да, это так! Поэтому перечитайте 3-е предложение этого поста 😉 Но несмотря на это, всё объяснено максимально доступным языком. Главное — не лениться и с интересом подходить к процессу обучения!
❗️ Старт обучения 8-го потока начинася 10 февраля! Для тех, кто хочет приобрести тариф Grandmaster, действует скидка 5% по промокоду PYMAGICTG до 10 января.
Вся подробная информация о кол-ве теоретического и практического материала, преподавателях, кураторах на сайте PyMagic
Друзья, поздравляю с наступившим Новым годом и приближающимся Рождеством! 🎄
Сегодня мы разберем блок по обработке естественного языка (NLP) на курсе Data Science для начинающих. Этот блок проработан настолько детально, что вы сможете сразу использовать полученные знания для реальных задач.
Блок составлен Айдаром Валеевым, аспирантом Иннополиса, который сейчас работает NLP-специалистом в GigaCode и ранее занимался разработкой NLP-решений в Digital Habits и EORA.
Вы начнете со знакомства с NLP и изучения ключевых задач: классификации текстов, анализа тональности, распознавания именованных сущностей (NER) и определения частей речи (POS-tagging).
Затем погрузитесь в обработку текста: токенизацию (разделение на слова), лемматизацию (приведение слова к нормальной форме), стемминг (выделение основы слова) и удаление стоп-слов. Также изучите современные подходы, такие как Byte-Pair Encoding (BPE), который используется в языковых моделях (LLM).
Изучите регулярные выражения, теорию формальных языков, а также лексический анализ. Рассмотрите такие методы, как TF-IDF, LSA, LDA, и словари вроде WordNet.
Также блок охватывает основы информационного поиска: построение инвертированных индексов, методы ранжирования и поиск релевантных документов в больших текстовых массивах.
Познакомитесь с Part-of-Speech Tagging, скрытыми марковскими моделями (HMM), а также нейросетевыми подходами для предсказания текста.
Для представления слов в числовом виде изучите популярные методики: Word2Vec, FastText и GloVe.
Далее переходите к нейросетевым архитектурам для обработки последовательностей: RNN, LSTM и GRU. Узнаете, как механизм Attention улучшает качество моделей.
Изучите архитектуру Transformer, лежащую в основе BERT и GPT. Разберете Self-Attention, Multi-Head Attention и Positional Encoding.
На практике создадите простую модель Transformer для перевода текста.
После этого углубитесь в BERT, GPT и Transfer Learning.
Используя библиотеку Hugging Face, вы дообучите готовые модели под конкретные задачи.
Куда ведь без реальных практических примеров, да еще и на Python? Ловите! На практике решите задачи классификации намерений, анализа диалогов и расшифровок звонков. Также познакомитесь с моделями для анализа кода: GraphCodeBERT, UniXcoder, CodeT5 и StarCoder.
В завершении курса изучите, как сохранить NLP-модель в формате ONNX, оптимизировать с помощью TensorRT и развернуть её в реальных приложениях с использованием Docker и Triton Inference Server.
💪 У вас будут тестовые задания после каждого урока в блоке, а также 3 крупных практических задания! Отличная возможность не только закрепить теорию, но и попрактиковаться.
Вы могли заметить, что информации действительно много! Да, это так! Поэтому перечитайте 3-е предложение этого поста 😉 Но несмотря на это, всё объяснено максимально доступным языком. Главное — не лениться и с интересом подходить к процессу обучения!
Вся подробная информация о кол-ве теоретического и практического материала, преподавателях, кураторах на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Курс Data Science для начинающих
Реальные задачи и проекты, разбор алгоритмов и методов машинного обучения, пробное собеседование
👍11🔥6🤩1
➡️В новом ролике я рассказала о том, как начала работать в Data Science. Поделилась своими ошибками, которые возникали как в процессе обучения, так и в период профессионального роста. Ошибок было много, но самые частые оказались связанными с базовыми вещами.
Я случайно забыла отключить комментарии под последним роликом. К своему удивлению, получила много позитивных откликов. Спасибо вам, ребята! ❤️
Однако, как обычно, нашлось место и для гадких комментов)) Значит дождь зимой не пойдет))
И да, у некоторых людей обычное выражение лица связано с индивидуальными особенностями, а не с высокомерием.
https://www.youtube.com/watch?v=OS7vANT0YPQ
Я случайно забыла отключить комментарии под последним роликом. К своему удивлению, получила много позитивных откликов. Спасибо вам, ребята! ❤️
Однако, как обычно, нашлось место и для гадких комментов)) Значит дождь зимой не пойдет))
И да, у некоторых людей обычное выражение лица связано с индивидуальными особенностями, а не с высокомерием.
https://www.youtube.com/watch?v=OS7vANT0YPQ
YouTube
Что я поняла за 8 лет в сфере ML. Моя история
В этом видео я делюсь своим опытом работы в сфере машинного обучения за последние 8 лет. Мы обсудим ключевые моменты, которые я узнала на своем пути, а также вызовы и достижения, с которыми столкнулась. Если вы интересуетесь карьерой в области Data Science…
👍39🔥1🤣1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Forwarded from WB Space
#дайджест_wbs
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег👇
➡️ Релиз Deepseek-V3
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.
Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).
DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.
➡️ VLM с ризонингом от Qwen
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).
Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.
➡️ HuggingFace выпустили smolagents
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.
Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.
➿ ➿ ➿ ➿ ➿
Комментарии подготовили ML- и DS-специалисты Wildberries💘
🌟 @wb_space
📹 @wb_tech
Какие новости в мире DS удивили за прошедшие пару недель? Узнали у коллег
Модель, содержащая 671 млрд параметров, демонстрирует возможности, сравнимые с проприетарными системами (GPT-4, Claude), но при этом остается открытой для сообщества.
Баланс инновационной архитектуры внимания и умной системы балансировки нагрузки позволяет модели работать быстрее и эффективнее предшественников.
Впечатляет способность модели предсказывать несколько токенов одновременно, что существенно ускоряет обработку информации.
Обучение модели экономично: было затрачено ~5.6 млн долларов, что значительно меньше, чем для аналогичных систем (за счет использования современных методов оптимизации и 8-битной точности вычислений).
DeepSeek-V3 в решении мат. задач и программировании превосходит другие открытые модели. Она отлично работает с китайским языком и может обрабатывать тексты до 128 тыс. токенов.
QVQ-72B-Preview продолжает успех Qwen в области reasoning-моделей. Новая модель является VLM (в отличие от QwQ, которая работала только с текстом), достигает 70.3 баллов в тесте MMMU и превосходит большинство открытых моделей в математических и физических задачах (MathVista, MathVision, OlympiadBench).
Основными проблемами QVQ-72B являются неожиданное переключение между языками, склонность к излишне подробным ответам и потерю внимания к визуальному контенту при длительном анализе.
Это компактные интеллектуальные агенты для решения сложных задач через взаимодействие ИИ с внешними инструментами. Агенты отличаются простотой, гибкостью и минимальными вычислительными затратами, идеально подходя для задач вроде обработки текстов, анализа данных и интеграции с API.
Smol Agents легко настраиваются, позволяют быстро прототипировать решения и экономить ресурсы. Открытый код делает их доступными для всех, от исследователей до разработчиков.
Комментарии подготовили ML- и DS-специалисты Wildberries
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3❤1