Аддитивная регуляризация тематических моделей
Тематическое моделирование – это построение модели текстового корпуса, которая разделяет содержимое каждого текста по темам.
📊 Один из самых популярных алгоритмов для тематического моделирования – Латентное размещение Дирихле (Latent Dirichlet allocation). Его основная идея состоит в моделировании документа как смеси тем, где каждая тема представляется распределением вероятностей над словами.
📝 К результатам тематического моделирования можно предъявить достаточно много требований: хочется, чтобы полученные темы были разнообразны, поддавались интерпретации, а фоновые слова, относящиеся к общей лексике, были обособлены. Можно использовать несколько различных моделей, и учесть все эти требования по отдельности, однако комбинировать их в одной модели уже сильно сложнее. В этот момент аддитивная регуляризация тематических моделей приходит на помощь и позволяет реализовать все вышеперечисленное. В частности, для этого каждое ограничение формализуется в виде регуляризатора – определеного оптимизационного критерия, каждый из которых учитывается во время обучения модели.
⚙️ Программная реализация этого подхода представлена в библиотеке BigARTM. Она позволяет строить мультиязычные модели, иерархии тем, использовать данные о совстречаемости слов в предложениях, обрабатывать документы, содержащие не только слова, но и токены других модальностей: авторы, время, рубрики, и т.д. Кроме того, помимо моделирвания текстовых корпусов, в BigARTM можно работать со сложными транзацкионными данными, например, транзакция (u,b,p) в рекламной сети – «пользователь u кликнул баннер b, расположенный на странице p».
🥇 Богатые функциональные возможности наряду с быстродействием делают эту библиотеку незаменимым инструментом при построении и тонкой настройке тематических моделей.
Тематическое моделирование – это построение модели текстового корпуса, которая разделяет содержимое каждого текста по темам.
📊 Один из самых популярных алгоритмов для тематического моделирования – Латентное размещение Дирихле (Latent Dirichlet allocation). Его основная идея состоит в моделировании документа как смеси тем, где каждая тема представляется распределением вероятностей над словами.
📝 К результатам тематического моделирования можно предъявить достаточно много требований: хочется, чтобы полученные темы были разнообразны, поддавались интерпретации, а фоновые слова, относящиеся к общей лексике, были обособлены. Можно использовать несколько различных моделей, и учесть все эти требования по отдельности, однако комбинировать их в одной модели уже сильно сложнее. В этот момент аддитивная регуляризация тематических моделей приходит на помощь и позволяет реализовать все вышеперечисленное. В частности, для этого каждое ограничение формализуется в виде регуляризатора – определеного оптимизационного критерия, каждый из которых учитывается во время обучения модели.
⚙️ Программная реализация этого подхода представлена в библиотеке BigARTM. Она позволяет строить мультиязычные модели, иерархии тем, использовать данные о совстречаемости слов в предложениях, обрабатывать документы, содержащие не только слова, но и токены других модальностей: авторы, время, рубрики, и т.д. Кроме того, помимо моделирвания текстовых корпусов, в BigARTM можно работать со сложными транзацкионными данными, например, транзакция (u,b,p) в рекламной сети – «пользователь u кликнул баннер b, расположенный на странице p».
🥇 Богатые функциональные возможности наряду с быстродействием делают эту библиотеку незаменимым инструментом при построении и тонкой настройке тематических моделей.
👍13
Друзья, всем привет!
🎯 Мы сейчас проводим небольшой опрос, который поможет нам лучше понять ваши предпочтения и интересы в области машинного обучения и системного проектирования.
Были бы очень благодарны, если уделите 1-2 минуты. По окончании опроса вы получите приятное вознаграждение! 🤗
Для того, чтобы пройти опрос, просто перейдите по ссылке
🎯 Мы сейчас проводим небольшой опрос, который поможет нам лучше понять ваши предпочтения и интересы в области машинного обучения и системного проектирования.
Были бы очень благодарны, если уделите 1-2 минуты. По окончании опроса вы получите приятное вознаграждение! 🤗
Для того, чтобы пройти опрос, просто перейдите по ссылке
🔥8👍5⚡4😱3❤1
💪СИЛЬНАЯ КОМАНДА
Друзья, сегодня порассуждаем с вами на тему развития кросс-компетенций в рамках команды.
⚠️Сфера Data Science стремительно развивается, требования, которые предъявляли к начинающим специалистам два года назад, не равны сегодняшним требованиям. В настоящее время, к сожалению, мало уметь проводить разведочный анализ данных и запускать коробочные модели в Jupiter notebook…
😎Более того, сейчас работодатели ждут «командных игроков», которые обладают широкой экспертизой. Если вы data scientist, то должны разбираться в алгоритмах машинного обучения, писать работающий чистый код, иметь опыт в своей области (банковская сфера, компьютерное зрение, рекомендательные системы и так далее), уметь запускать и проводить АБ-тесты, пользоваться инструментами Big Data…
✅Конечно же, опыт приходит только с практикой. Поэтому, если вы уже работаете в компании, призываю вас не только фокусироваться на своих задачах, но и интересоваться задачами ваших коллег.
👍Для чего? Во-первых, это развивает вас как специалиста и повышает вашу ценность на рынке. Во-вторых, вы становитесь сильным командным игроком.
✍️Существует человеческий фактор, нужно быть готовым брать на себя задачи коллег. В нестабильное время, многие команды модифицируются, и сейчас как никогда важно развивать новые навыки.
✅Как? Приоритизируйте задачи, выделите вместе с менеджером команды время для погружения в новые направления. Найдите более опытного коллегу в новой для вас сфере, поработайте под его руководством.
P.S. Если вы никогда не анализировали АБ-тест, обязательно найдите опытного аналитика, и подведите итоги эксперимента под его руководством. Если вы никогда не строили новые витрины, ищите опытного дата-инженера и поработайте под его руководством.
Друзья, сегодня порассуждаем с вами на тему развития кросс-компетенций в рамках команды.
⚠️Сфера Data Science стремительно развивается, требования, которые предъявляли к начинающим специалистам два года назад, не равны сегодняшним требованиям. В настоящее время, к сожалению, мало уметь проводить разведочный анализ данных и запускать коробочные модели в Jupiter notebook…
😎Более того, сейчас работодатели ждут «командных игроков», которые обладают широкой экспертизой. Если вы data scientist, то должны разбираться в алгоритмах машинного обучения, писать работающий чистый код, иметь опыт в своей области (банковская сфера, компьютерное зрение, рекомендательные системы и так далее), уметь запускать и проводить АБ-тесты, пользоваться инструментами Big Data…
✅Конечно же, опыт приходит только с практикой. Поэтому, если вы уже работаете в компании, призываю вас не только фокусироваться на своих задачах, но и интересоваться задачами ваших коллег.
👍Для чего? Во-первых, это развивает вас как специалиста и повышает вашу ценность на рынке. Во-вторых, вы становитесь сильным командным игроком.
✍️Существует человеческий фактор, нужно быть готовым брать на себя задачи коллег. В нестабильное время, многие команды модифицируются, и сейчас как никогда важно развивать новые навыки.
✅Как? Приоритизируйте задачи, выделите вместе с менеджером команды время для погружения в новые направления. Найдите более опытного коллегу в новой для вас сфере, поработайте под его руководством.
P.S. Если вы никогда не анализировали АБ-тест, обязательно найдите опытного аналитика, и подведите итоги эксперимента под его руководством. Если вы никогда не строили новые витрины, ищите опытного дата-инженера и поработайте под его руководством.
❤13👍5👏3⚡1
Вот уже потихоньку ребята с 3го потока курса по Data Science один за другим проходят собесы и получают работу. Такие сообщения стоят дороже отзыва о курсе, выпускник кстати уже устроился работать в крупную компанию 💪
Если раньше рекомендовали накручивать опыт, то похоже теперь придется накручивать образование в PyMagic 😁 Это конечно все шуточки, но по запросу на всякий случай для работодателей сообщаю, что могу подтвердить прохождение курса того или иного студента/выпускника.
У нас нелегко, мы не пьем коктейли у бассейна во время обучения (но если успеваете, то можно), а учимся, не делаем шаблонные проекты, мы нарабатываем даже часть навыков и проходим инструменты, которые пригодятся для вывода моделей в прод, знаем как устроены алгоритмы изнутри и когда какой применять.
Дата открытия продаж курса по Data Science запланирована примерно на август, если вы хотите предварительно записаться, то пишите в наш чат-бот (меню предзапись), мы напомним вам о старте 🔔
👩🏻💻 Также у нас есть замечательный курс по NLP, он стартовал еще в июне. В нем мы собрали все необходимые знания, начиная с того, как удалять запятые, заканчивая применением и обучением трансформеров. Благодаря такому обилию информации, вы сможете потом уверенно работать в данном направлении. Также вы сможете ознакомиться с практическими примерами из области NLP (разбор бизнес задачи и кода). Промокод на скидку 15% EASYCVTG
Если раньше рекомендовали накручивать опыт, то похоже теперь придется накручивать образование в PyMagic 😁 Это конечно все шуточки, но по запросу на всякий случай для работодателей сообщаю, что могу подтвердить прохождение курса того или иного студента/выпускника.
У нас нелегко, мы не пьем коктейли у бассейна во время обучения (но если успеваете, то можно), а учимся, не делаем шаблонные проекты, мы нарабатываем даже часть навыков и проходим инструменты, которые пригодятся для вывода моделей в прод, знаем как устроены алгоритмы изнутри и когда какой применять.
Дата открытия продаж курса по Data Science запланирована примерно на август, если вы хотите предварительно записаться, то пишите в наш чат-бот (меню предзапись), мы напомним вам о старте 🔔
👩🏻💻 Также у нас есть замечательный курс по NLP, он стартовал еще в июне. В нем мы собрали все необходимые знания, начиная с того, как удалять запятые, заканчивая применением и обучением трансформеров. Благодаря такому обилию информации, вы сможете потом уверенно работать в данном направлении. Также вы сможете ознакомиться с практическими примерами из области NLP (разбор бизнес задачи и кода). Промокод на скидку 15% EASYCVTG
👍14❤3😁1🤯1
СМЕНА РАБОТЫ 🔜
👩💻Достаточно часто ко мне обращаются уже опытные специалисты, которые хотят сменить текущее место работы. Как правило, это ребята уровня junior+/middle-.
🤔Заметила некоторую тенденцию: обычно такие специалисты уже достаточно хорошо погружены в свою сферу, грамотно пишут код, готовы предлагать новые идеи бизнесу. Однако, почему-то при смене работы забывают (или пренебрегают) шагом, который в текущих условиях имеет немалый вес.
🥸Речь идет именно о подготовке «личного бренда». Сейчас объясню, что имею в виду. Когда вы «предлагаете себя» в новом месте, важно еще и уметь себя представить. Обновить и отредактировать резюме, возможно дать посмотреть его эксперту. Подготовить рассказ о задачах и проектах, которые вы делали на предыдущем месте работы. Здесь важно грамотно построить рассказ, не упустив технических деталей, а также понятно объяснить ценность ваших действий для бизнеса.
🍀Вообще самым лучшим решением будет обратиться к эксперту в области управления человеческими ресурсами. Однако вы всегда можете найти необходимую информацию бесплатно в интернете. Мы с вами не раз уже обсуждали данную тему на разных площадках.
🧐Не нужно заблуждаться, что новый работодатель готов пристально рассматривать вас и задавать много вопросов, когда на ваше место претендуют еще несколько человек. Выделенное вам время нужно использовать по максимуму!
🧩Мы с вами уже говорили, что перед собеседованием в новую компанию рекомендуется ознакомиться с ее деятельностью и проектами. У большого числа компаний есть лекции или митапы в общем доступе, где эксперты делятся опытом и рассказывают, чем занимаются, делятся ресурсами и личными статьями.
✅Подведем итог. Не пренебрегаем:
1. Качественным обновленным резюме.
2. Подготовленным рассказом о реализованных проектах на текущем месте и об их ценностях для компании (очень желательно подкрепить все цифрами).
3. Интересуемся деятельностью компании, смотрим лекционные материалы в открытом доступе.
P.S. Если собеседование проходили давно, советую записать аудио, где рассказываете о себе и проектах. Поверьте, даже опытные специалисты часто начинают волноваться и забывать освятить информацию, которая потенциально могла бы понравиться будущему работодателю.
👩💻Достаточно часто ко мне обращаются уже опытные специалисты, которые хотят сменить текущее место работы. Как правило, это ребята уровня junior+/middle-.
🤔Заметила некоторую тенденцию: обычно такие специалисты уже достаточно хорошо погружены в свою сферу, грамотно пишут код, готовы предлагать новые идеи бизнесу. Однако, почему-то при смене работы забывают (или пренебрегают) шагом, который в текущих условиях имеет немалый вес.
🥸Речь идет именно о подготовке «личного бренда». Сейчас объясню, что имею в виду. Когда вы «предлагаете себя» в новом месте, важно еще и уметь себя представить. Обновить и отредактировать резюме, возможно дать посмотреть его эксперту. Подготовить рассказ о задачах и проектах, которые вы делали на предыдущем месте работы. Здесь важно грамотно построить рассказ, не упустив технических деталей, а также понятно объяснить ценность ваших действий для бизнеса.
🍀Вообще самым лучшим решением будет обратиться к эксперту в области управления человеческими ресурсами. Однако вы всегда можете найти необходимую информацию бесплатно в интернете. Мы с вами не раз уже обсуждали данную тему на разных площадках.
🧐Не нужно заблуждаться, что новый работодатель готов пристально рассматривать вас и задавать много вопросов, когда на ваше место претендуют еще несколько человек. Выделенное вам время нужно использовать по максимуму!
🧩Мы с вами уже говорили, что перед собеседованием в новую компанию рекомендуется ознакомиться с ее деятельностью и проектами. У большого числа компаний есть лекции или митапы в общем доступе, где эксперты делятся опытом и рассказывают, чем занимаются, делятся ресурсами и личными статьями.
✅Подведем итог. Не пренебрегаем:
1. Качественным обновленным резюме.
2. Подготовленным рассказом о реализованных проектах на текущем месте и об их ценностях для компании (очень желательно подкрепить все цифрами).
3. Интересуемся деятельностью компании, смотрим лекционные материалы в открытом доступе.
P.S. Если собеседование проходили давно, советую записать аудио, где рассказываете о себе и проектах. Поверьте, даже опытные специалисты часто начинают волноваться и забывать освятить информацию, которая потенциально могла бы понравиться будущему работодателю.
👍23❤5
Рекомендательные системы в проде 🏭
Вышла замечательная статья на Tproger об устройстве рекомендательной системы в МТС в продукте «Строки».
Замечательный обзор на то, какие бывают рекомендательные системы, а также какие конкретно используют в компании.
Затронута важная на мой взгляд тема про метрики, потому что использовать метрики как ROC-AUC, F1 и так далее - недостаточно😁 Да да, не одними DS метриками обходятся, плюс еще разработчик должен понимать какие ему необходимо учитывать прокси-метрики и бизнес-метрики в своем проекте.
В конце также описан подход к тестированию подобных моделей, мало ее написать, необходимо, чтобы ее результат был статистически значимым.
https://tproger.ru/articles/kak-stroki-podbirayut-kontent-kotoryj-ponravitsya-chitatelyam/
Вышла замечательная статья на Tproger об устройстве рекомендательной системы в МТС в продукте «Строки».
Замечательный обзор на то, какие бывают рекомендательные системы, а также какие конкретно используют в компании.
Затронута важная на мой взгляд тема про метрики, потому что использовать метрики как ROC-AUC, F1 и так далее - недостаточно😁 Да да, не одними DS метриками обходятся, плюс еще разработчик должен понимать какие ему необходимо учитывать прокси-метрики и бизнес-метрики в своем проекте.
В конце также описан подход к тестированию подобных моделей, мало ее написать, необходимо, чтобы ее результат был статистически значимым.
https://tproger.ru/articles/kak-stroki-podbirayut-kontent-kotoryj-ponravitsya-chitatelyam/
Tproger
Как «Строки» подбирают контент, который понравится читателям
Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС.
❤12🔥2👍1🤔1
Многорукие бандиты - это интересная и увлекательная концепция, которая находит широкое применение в решении различных задач. В этой статье мы расскажем о многоруких бандитах, о том, как они работают, и о том, как Data Scientist может использовать эти методы для оптимизации результатов.
Что такое многорукие бандиты?
Многорукие бандиты - это класс алгоритмов, который возник в контексте задачи о распределении ограниченных ресурсов для достижения наилучшего возможного результата. Название "многорукие бандиты" происходит от аналогии с игрой в казино, где игрок стоит перед рядом игровых автоматов с ручками ("руками") и должен выбрать, на какой автомат поставить деньги, чтобы максимизировать свой выигрыш.
В контексте Data Science, "руками" могут быть различные варианты или стратегии. Каждая из этих стратегий может давать различные результаты, и цель заключается в том, чтобы найти оптимальную стратегию или комбинацию стратегий, чтобы максимизировать ожидаемый выигрыш.
Часто многорукие бандиты применяются в качестве замены А/Б тестирования в рекомендательных системах. Но при провединии таких тестов мы сталкиваемся с главной проблемой бизнеса - упущенная выгода за время проведения А/Б теста (когда используем неэффективный вариант, который показываем группам).
Способы оптимизации и максимизации выгоды
1. Epsilon-Greedy. Это простой и эффективный подход, который случайным образом выбирает жадную стратегию с вероятностью «epsilon». Например, если eps=0.02, то алгоритм 98% времени выбирает лучший вариант, а в оставшиеся 2% времени выбирает случайные варианты
2. UCB1. Идея заключается в выборе стратегии, которая максимизирует верхнюю границу доверительного интервала для ожидаемой награды
3. Thompson Sampling. Этот метод использует вероятностный подход, сэмплируя стратегии из их апостериорных распределений и выбирая наилучший вариант.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤1
🤖 Сегодня большие языковые модели (Large Language Models) поражают своими возможностями и кейсами использования. Кажется, что можно задать им почти любой вопрос, и получить адекватный ответ.
📚 Однако данные для обучения моделей были обрезаны до определенных дат, например, GPT-4 обучалась на срезе до сентября 2021 года, и это существенно ограничивает доступную актуальную информацию. Кроме того, в LLM не будет каких-то специфичных личных или корпоративных данных, не попавших в общий доступ, но как было бы здорово, если бы мы могли дообучить ChatGPT на собственном более свежем наборе текстов! Например, построить вопросно-ответную систему по внутренней базе знаний вашей компании?
📝 Есть ли способ как-то "научить" ChatGPT работать с отдельными наборами текстов? Да, общий алгоритм выглядел бы так:
⁃ Пользователь вводит запрос.
⁃ Система с помощью семантического поиска ищет наиболее релевантный запросу текст, содержащий ответ.
⁃ В LLM отправляется подсказка с соответствующим текстом документа, таким образом модель получает контекст для генерации ответа.
⁃ Пользователь получает ответ.
⚙️ Один из инструментов для реализации подобной логики - LangChain.
LangChain — это фреймворк для работы с языковыми моделями OpenAI, HuggingFace, Cohere, позволяющий гибко работать с промптами, подключать внешние источники информации, создавать индексы с текстами для QA-систем, а также удобно хранить состояния диалога с моделью в "цепочках" для реализации чат-ботов. Интерфейс фреймворка выполнен в виде модульных компонентов, из которых можно гибко собирать пайплайны под свои задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13
🐙 Как деплоить ML модели в production?
Мы проанализировали множество вакансий Data Scientist, сейчас одно из самых частых требований - опыт вывода моделей в прод.
🤔 Где можно получить такой опыт/навыки, если на текущем месте вы занимаетесь только исследованиями? Или как добавить элементы MLOps в свой pet-project будущему Junior?
Мы разработали мини-курс по промышленному ML, где рассмотрим с вами основные этапы MLOps и инструменты на практике:
✅ Рассмотрите основные паттерны ML архитектур, различие между online и batch
✅ Узнаете как перейти от Jupyter Notebook к промышленному коду
✅ Напишите unittest для ML моделей
✅ Научитесь сохранять результаты экспериментов в MLFlow и использовать их в дальнейшем
✅ Развернете REST сервис применительно к ML задаче при помощи FAST API
✅ Используете Airflow для обучения ML модели при помощи пайплайна задач
✅ Скомпонуете все вместе и развернете итоговый проект при помощи Docker Compose
✅ Настроите мониторинг вашего сервера при помощи Grafana
🔔 Обязательно рассмотрите CI (Continuous Integration) с использованием GitHub Actions
Курс будем полезен начинающим Data Analyst/Scientist, тем кто хочет работать как ML Engineer, а также тем, кто хочет сделать крутой pet-project! Не страшно, если с каким-то инструментом Вы не знакомы, каждый мы будем разбирать с нуля.
🚀 Сейчас мы открыли предзапись. Старт курса в сентябре!
Если будет много желающих, то будем повышать цены, но для тех, кто записался заранее, цена останется прежней 1890 рублей.
https://pymagic.ru/mlops
Мы проанализировали множество вакансий Data Scientist, сейчас одно из самых частых требований - опыт вывода моделей в прод.
🤔 Где можно получить такой опыт/навыки, если на текущем месте вы занимаетесь только исследованиями? Или как добавить элементы MLOps в свой pet-project будущему Junior?
Мы разработали мини-курс по промышленному ML, где рассмотрим с вами основные этапы MLOps и инструменты на практике:
✅ Рассмотрите основные паттерны ML архитектур, различие между online и batch
✅ Узнаете как перейти от Jupyter Notebook к промышленному коду
✅ Напишите unittest для ML моделей
✅ Научитесь сохранять результаты экспериментов в MLFlow и использовать их в дальнейшем
✅ Развернете REST сервис применительно к ML задаче при помощи FAST API
✅ Используете Airflow для обучения ML модели при помощи пайплайна задач
✅ Скомпонуете все вместе и развернете итоговый проект при помощи Docker Compose
✅ Настроите мониторинг вашего сервера при помощи Grafana
🔔 Обязательно рассмотрите CI (Continuous Integration) с использованием GitHub Actions
Курс будем полезен начинающим Data Analyst/Scientist, тем кто хочет работать как ML Engineer, а также тем, кто хочет сделать крутой pet-project! Не страшно, если с каким-то инструментом Вы не знакомы, каждый мы будем разбирать с нуля.
🚀 Сейчас мы открыли предзапись. Старт курса в сентябре!
Если будет много желающих, то будем повышать цены, но для тех, кто записался заранее, цена останется прежней 1890 рублей.
https://pymagic.ru/mlops
pymagic.ru
Мини-курс по MLOps (Промышленный ML)
Уровень junior-middle
🔥17👍9❤🔥2❤2
Зарплаты в Data Science 🤑
Вышло новое замечательное видео про то:
💸 Сколько зарабатывают Data Scientist
🤑Может ли Junior получать от 150к?
👼Сложно ли сейчас найти работу
🧑🏭Какие навыки особенно важны для специалистов с опытом
https://youtu.be/mQmasyIPNLA
Вышло новое замечательное видео про то:
💸 Сколько зарабатывают Data Scientist
🤑Может ли Junior получать от 150к?
👼Сложно ли сейчас найти работу
🧑🏭Какие навыки особенно важны для специалистов с опытом
https://youtu.be/mQmasyIPNLA
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Зарплаты в Data Science / Трудоустройство и поиск работы / Кто такой Data Scientist?
Предзапись на курс по MLOps https://pymagic.ru/mlops
Старт набора на 5ый поток по Data Science https://pymagic.ru/data-science
Курс по NLP https://pymagic.ru/easy-nlp
Таймкоды
00:00 Кто такой Data Scientist
00:38 Что такое production
01:06 Зарплаты Junior…
Старт набора на 5ый поток по Data Science https://pymagic.ru/data-science
Курс по NLP https://pymagic.ru/easy-nlp
Таймкоды
00:00 Кто такой Data Scientist
00:38 Что такое production
01:06 Зарплаты Junior…
👍31🔥5❤1
⚡️Старт набора на 5ый поток курса по Data Science
- Возможно, ваша профессиональная деятельность ранее не имела отношения к анализу данных…
- Или вы учитесь в университете, но ваша текущая специализация — не ваше призвание...
- Или вам уже давно за 30 и планируете сменить сферу деятельности…
- А может быть, вы уже занимаетесь анализом данных как дата-аналитик…
… Однако, вы бы хотели работать в Data Science?👨💻
✅ Данные поинты основаны на реальных историях наших выпускников и студентов, которые успешно трудоустроились, с удовольствием теперь обучают ML-модельки и продвигаются вперед по карьерной лестнице 🪜
Давайте поговорим о том, чему вы сможете научиться:
⁃ Освоите навыки программирования на Python и написания сложных запросов на SQL
⁃ Повторите всю необходимую математику для Data Science
⁃ Разберетесь подробно со всеми ML-алгоритмами: что под капотом, как их обучать, когда и какую модель применять
⁃ Научитесь оценивать ML-модели и улучшать их качество
⁃ Освоите навыки написания production кода
⁃ Сделаете свой собственный сервис при помощи MLOps инструментов
⁃ Погрузитесь в Deep Learning и изучите базу по нейросетям
⁃ Разберете NLP: классические подходы, Transformers
Дополнительно вы получите доступ к материалам по темам:
⁃ Временные ряды
⁃ Асинхронность, многопоточность и мультипроцессинг
⁃ MLFlow, Airflow, Tableau, Git, Superset
⁃ Примеры реальных проектов в Computer Vision с кодом на python
🚀 Старт 5го потока 25 сентября! Количество мест ограничено, так как мы стараемся индивидуально подходить к обучению. По передзаписи выкуплена почти уже половина мест. 😲
Более подробную информацию вы сможете найти на сайте PyMagic
- Возможно, ваша профессиональная деятельность ранее не имела отношения к анализу данных…
- Или вы учитесь в университете, но ваша текущая специализация — не ваше призвание...
- Или вам уже давно за 30 и планируете сменить сферу деятельности…
- А может быть, вы уже занимаетесь анализом данных как дата-аналитик…
… Однако, вы бы хотели работать в Data Science?
✅ Данные поинты основаны на реальных историях наших выпускников и студентов, которые успешно трудоустроились, с удовольствием теперь обучают ML-модельки и продвигаются вперед по карьерной лестнице 🪜
Давайте поговорим о том, чему вы сможете научиться:
⁃ Освоите навыки программирования на Python и написания сложных запросов на SQL
⁃ Повторите всю необходимую математику для Data Science
⁃ Разберетесь подробно со всеми ML-алгоритмами: что под капотом, как их обучать, когда и какую модель применять
⁃ Научитесь оценивать ML-модели и улучшать их качество
⁃ Освоите навыки написания production кода
⁃ Сделаете свой собственный сервис при помощи MLOps инструментов
⁃ Погрузитесь в Deep Learning и изучите базу по нейросетям
⁃ Разберете NLP: классические подходы, Transformers
Дополнительно вы получите доступ к материалам по темам:
⁃ Временные ряды
⁃ Асинхронность, многопоточность и мультипроцессинг
⁃ MLFlow, Airflow, Tableau, Git, Superset
⁃ Примеры реальных проектов в Computer Vision с кодом на python
🚀 Старт 5го потока 25 сентября! Количество мест ограничено, так как мы стараемся индивидуально подходить к обучению. По передзаписи выкуплена почти уже половина мест. 😲
Более подробную информацию вы сможете найти на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Курс Data Science для начинающих
Реальные задачи и проекты, разбор алгоритмов и методов машинного обучения, пробное собеседование
👍8🔥5
Сегодня хочу поделиться с вами интересным инструментом для работы с Python-проектами – Poetry 🐍🔗
Возможно, вы уже знакомы с файлом requirements.txt, который используется для перечисления зависимостей. Но давайте поговорим о том, как Poetry может сделать этот процесс более эффективным и структурированным.
🌟 Главное отличие Poetry от requirements.txt – это его способность автоматически создавать и управлять виртуальными окружениями. При установке зависимостей Poetry автоматически создает изолированное окружение, где эти зависимости будут работать. Это избавляет от путаницы с версиями и конфликтами между проектами.
📦 Еще одним полезным нюансом является возможность фиксации версий зависимостей с помощью файла poetry.lock (генерируется автоматически). Это обеспечивает консистентность окружения для всех членов команды и предотвращает неожиданные изменения в зависимостях.
🚀 Кроме того, Poetry предоставляет удобный способ публикации пакетов на PyPI и других популярных репозиториях, что делает процесс распространения проектов еще более удобным.
Туториал по устновке и использованию на оффициальном сайте Poetry
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2❤🔥1
Дизайн ML-систем 👩🏻💻
Для чего необходим дизайн ML-систем и что это из себя представляет?
▶️ Часто у начинающих специалистов есть достаточно линейное представление об обучении ML-модели: получение данных -> предобработка -> обучение -> тюнинг -> анализ метрик
❓Бизнес-задача? Цель? Откуда будем брать данные? Как часто нам нужно обновлять модель и как ее внедрить в реальные бизнес-процессы?
Если вы не задумывались как минимум над первым вопросом, то это уже грозит большими рисками уйти вашей ML-модели «в стол», а ведь вы потратили немало времени и усилий 🤔
В новом ролике поговорим об этапах разработки ML-системы. Понимание каждого этапа позволит не только предотварить будущие проблемы с неактуальностью вашей модели, но, возможно, и сделать более масштабный проект при удачных итоговых показателях.
https://youtu.be/wAfvS8toIxc
Для чего необходим дизайн ML-систем и что это из себя представляет?
▶️ Часто у начинающих специалистов есть достаточно линейное представление об обучении ML-модели: получение данных -> предобработка -> обучение -> тюнинг -> анализ метрик
❓Бизнес-задача? Цель? Откуда будем брать данные? Как часто нам нужно обновлять модель и как ее внедрить в реальные бизнес-процессы?
Если вы не задумывались как минимум над первым вопросом, то это уже грозит большими рисками уйти вашей ML-модели «в стол», а ведь вы потратили немало времени и усилий 🤔
В новом ролике поговорим об этапах разработки ML-системы. Понимание каждого этапа позволит не только предотварить будущие проблемы с неактуальностью вашей модели, но, возможно, и сделать более масштабный проект при удачных итоговых показателях.
https://youtu.be/wAfvS8toIxc
YouTube
Дизайн ML-системы / Разбор этапов создания ML-приложения / Data Science
Старт набора на 5ый поток по Data Science https://pymagic.ru/data-science
Курс по MLOps https://pymagic.ru/mlops
Курс NLP по LLM https://clck.ru/35QKEZ
Таймкоды:
00:00 Для чего нужен дизайн ML-системы
00:37 Пример DS задачи
01:06 Постановка задачи
04:39…
Курс по MLOps https://pymagic.ru/mlops
Курс NLP по LLM https://clck.ru/35QKEZ
Таймкоды:
00:00 Для чего нужен дизайн ML-системы
00:37 Пример DS задачи
01:06 Постановка задачи
04:39…
👍20🔥4❤1❤🔥1
Метрики в задаче регрессии. SMAPE 🔮
Друзья, думаю многие из вас уже поняли, что требования к специалистам в сфере Data Science растут с каждым годом. Поэтому действительно важно максимально разбираться в сфере, в которой хочешь работать или уже работаешь.
📌Подобных кейсов можно привести множество, однако не перестаешь удивляться людям, которые идут на собеседование в конкретную команду (NLP/RecSys ...), и даже не решаются прочитать перед разговором небольшую обзорную статью. Согласитесь, выглядит странным, когда специалист «жаждет» строить рекомендательные системы, при этом на вопрос об известных ему метриках качества рекомендаций отвечает accuracy…
📌Как минимум (из моего видео про ML-дизайн) вы уже знаете, что метрики в RecSys обычно делятся на офлайн и онлайн метрики…
Это было небольшое отступление. Давайте мы с вами сегодня вспомним тоже про важную метрику MAPE. Это некая «относительная ошибка», которая часто применяется в задачах прогнозирования и позволяет работать с разными масштабами данных.
🤔Представим, что мы используем линейную регрессию и решаем задачу прогнозирования спроса на товары в супермаркете. Нам важно предсказать количество разных товаров, которые необходимо поставить в магазин. Понимаем, что питьевая вода или молоко, является достаточно популярными товарами, поэтому скорее всего придется поставить в магазин несколько десятков упаковок таких товаров. В то время как маленькая упаковка холодного дорогого кофе вряд ли пользуется таким же спросом…
Чтобы при усреднении ошибок более популярные товары не оказывали большее влияние на результат, следует использовать функции потерь, не зависящие от масштаба. И средняя абсолютная процентная ошибка (а точнее функционал качества, основанный на средней абсолютной ошибке) нам в этом может помочь.
Кстати, не стоит забывать о том, что средняя абсолютная процентная ошибка не ограничена сверху при завышении прогноза. Но это исправляется, если использовать ее симметричную форму – SMAPE (symmetric mean absolute percentage error).
Друзья, думаю многие из вас уже поняли, что требования к специалистам в сфере Data Science растут с каждым годом. Поэтому действительно важно максимально разбираться в сфере, в которой хочешь работать или уже работаешь.
📌Подобных кейсов можно привести множество, однако не перестаешь удивляться людям, которые идут на собеседование в конкретную команду (NLP/RecSys ...), и даже не решаются прочитать перед разговором небольшую обзорную статью. Согласитесь, выглядит странным, когда специалист «жаждет» строить рекомендательные системы, при этом на вопрос об известных ему метриках качества рекомендаций отвечает accuracy…
📌Как минимум (из моего видео про ML-дизайн) вы уже знаете, что метрики в RecSys обычно делятся на офлайн и онлайн метрики…
Это было небольшое отступление. Давайте мы с вами сегодня вспомним тоже про важную метрику MAPE. Это некая «относительная ошибка», которая часто применяется в задачах прогнозирования и позволяет работать с разными масштабами данных.
🤔Представим, что мы используем линейную регрессию и решаем задачу прогнозирования спроса на товары в супермаркете. Нам важно предсказать количество разных товаров, которые необходимо поставить в магазин. Понимаем, что питьевая вода или молоко, является достаточно популярными товарами, поэтому скорее всего придется поставить в магазин несколько десятков упаковок таких товаров. В то время как маленькая упаковка холодного дорогого кофе вряд ли пользуется таким же спросом…
Чтобы при усреднении ошибок более популярные товары не оказывали большее влияние на результат, следует использовать функции потерь, не зависящие от масштаба. И средняя абсолютная процентная ошибка (а точнее функционал качества, основанный на средней абсолютной ошибке) нам в этом может помочь.
Кстати, не стоит забывать о том, что средняя абсолютная процентная ошибка не ограничена сверху при завышении прогноза. Но это исправляется, если использовать ее симметричную форму – SMAPE (symmetric mean absolute percentage error).
❤16👍13
Еще немного о Large Language Models ... 🧠
🤖 Сегодня большие языковые модели (Large Language Models) поражают своими возможностями и кейсами использования. Кажется, что можно задать им почти любой вопрос, и получить адекватный ответ.
📚 Однако данные для обучения моделей были обрезаны до определенных дат, например, GPT-4 обучалась на срезе до сентября 2021 года, и это существенно ограничивает доступную актуальную информацию. Кроме того, в LLM не будет каких-то специфичных личных или корпоративных данных, не попавших в общий доступ, но как было бы здорово, если бы мы могли дообучить ChatGPT на собственном более свежем наборе текстов! Например, построить вопросно-ответную систему по внутренней базе знаний вашей компании?
📝 Есть ли способ как-то "научить" ChatGPT работать с отдельными наборами текстов? Да, общий алгоритм выглядел бы так:
⁃ Пользователь вводит запрос.
⁃ Система с помощью семантического поиска ищет наиболее релевантный запросу текст, содержащий ответ.
⁃ В LLM отправляется подсказка с соответствующим текстом документа, таким образом модель получает контекст для генерации ответа.
⁃ Пользователь получает ответ.
⚙️ Один из инструментов для реализации подобной логики - LangChain. LangChain — это фреймворк для работы с языковыми моделями OpenAI, HuggingFace, Cohere, позволяющий гибко работать с промптами, подключать внешние источники информации, создавать индексы с текстами для QA-систем, а также удобно хранить состояния диалога с моделью в "цепочках" для реализации чат-ботов. Интерфейс фреймворка выполнен в виде модульных компонентов, из которых можно гибко собирать пайплайны под свои задачи.
🤖 Сегодня большие языковые модели (Large Language Models) поражают своими возможностями и кейсами использования. Кажется, что можно задать им почти любой вопрос, и получить адекватный ответ.
📚 Однако данные для обучения моделей были обрезаны до определенных дат, например, GPT-4 обучалась на срезе до сентября 2021 года, и это существенно ограничивает доступную актуальную информацию. Кроме того, в LLM не будет каких-то специфичных личных или корпоративных данных, не попавших в общий доступ, но как было бы здорово, если бы мы могли дообучить ChatGPT на собственном более свежем наборе текстов! Например, построить вопросно-ответную систему по внутренней базе знаний вашей компании?
📝 Есть ли способ как-то "научить" ChatGPT работать с отдельными наборами текстов? Да, общий алгоритм выглядел бы так:
⁃ Пользователь вводит запрос.
⁃ Система с помощью семантического поиска ищет наиболее релевантный запросу текст, содержащий ответ.
⁃ В LLM отправляется подсказка с соответствующим текстом документа, таким образом модель получает контекст для генерации ответа.
⁃ Пользователь получает ответ.
⚙️ Один из инструментов для реализации подобной логики - LangChain. LangChain — это фреймворк для работы с языковыми моделями OpenAI, HuggingFace, Cohere, позволяющий гибко работать с промптами, подключать внешние источники информации, создавать индексы с текстами для QA-систем, а также удобно хранить состояния диалога с моделью в "цепочках" для реализации чат-ботов. Интерфейс фреймворка выполнен в виде модульных компонентов, из которых можно гибко собирать пайплайны под свои задачи.
👍14
🍁 С 1 сентября! 🍁
Друзья, поздравляю с первым Днём знаний! Возможно, у кого-то в школу первый раз пошли дети, братья, сестры. Их ждет интересный и местами непростой, но очень нужный путь. Школа - это не только про знания, как минимум еще и про социальную адаптацию, а еще это то место, где можно найти единомышленников и друзей.
В нашей школе PyMagic по Data Science мы стараемся придерживаться тех же принципов. Знания - это только один из кирпичиков, грамотный подход, поддержка, местами даже и строгость (там, где она необходимо) помогают человеку добиться намеченных целей. Учеба это всегда непросто, а когда тебя заряжают на результат, готовы в непредвиденных ситуациях пойти на встречу, то у тебя появляется опора, благодаря которой можно устоять, даже если сейчас материал дается нелегко.
Также у нас есть истории, когда ребята после курса объединялись в команды, поэтому вы сможете найти близких по духу людей и как минимум получить помощь.
В карусели вы можете посмотреть отзывы выпускников и студентов с последних потоков, кстати все они нашли работу💪 Частично решили вставить скриншоты, потому что иногда оффер говорит сам за себя 😉
До начала курса осталось меньше месяца, мы стартуем с 25 сентября 🚀
Более подробная информация на сайте PyMagic
Друзья, поздравляю с первым Днём знаний! Возможно, у кого-то в школу первый раз пошли дети, братья, сестры. Их ждет интересный и местами непростой, но очень нужный путь. Школа - это не только про знания, как минимум еще и про социальную адаптацию, а еще это то место, где можно найти единомышленников и друзей.
В нашей школе PyMagic по Data Science мы стараемся придерживаться тех же принципов. Знания - это только один из кирпичиков, грамотный подход, поддержка, местами даже и строгость (там, где она необходимо) помогают человеку добиться намеченных целей. Учеба это всегда непросто, а когда тебя заряжают на результат, готовы в непредвиденных ситуациях пойти на встречу, то у тебя появляется опора, благодаря которой можно устоять, даже если сейчас материал дается нелегко.
Также у нас есть истории, когда ребята после курса объединялись в команды, поэтому вы сможете найти близких по духу людей и как минимум получить помощь.
В карусели вы можете посмотреть отзывы выпускников и студентов с последних потоков, кстати все они нашли работу💪 Частично решили вставить скриншоты, потому что иногда оффер говорит сам за себя 😉
До начала курса осталось меньше месяца, мы стартуем с 25 сентября 🚀
Более подробная информация на сайте PyMagic
👍16❤4👌1
Обучение Data Science для начинающих 🚀
Недавно стартовал набор на 5ый поток курса по обучению Data Science! Осталось меньше месяца до начала обучения 🔜
В программе заложена как основная база по ML: математика для Data Science, линейные алгоритмы, деревья решений, ансамбли, кластеризация
Так и дополнительные темы, которые позволят уже на курсе приблизиться к реальным задачам в компаниях: Docker, Fast API, production код, MLOps инструменты и так далее.
В видео рассказала о результатах прошлого потока, а также ответила на самые часто встречаемые вопросы 📺
Таймкоды:
00:00 Результаты прошлых потоков
00:48 Сколько мест на курсе / Индивидуальный подход
01:28 Какие проекты на курсе сделаете
03:06 Тестовые собеседования
03:52 Отзывы
04:10 Сильная и структурированная программа
05:08 Почему курс длится 8-9 месяцев?
07:39 Как проходит обучение?
09:15 Что посмотреть перед поступлением?
09:25 Дополнительный материал по MLFlow, Airflow, Computer Vision ...
09:47 Про преподавателей
11:48 Налоговый вычет и оплата зарубежными картами
12:37 Куда писать, если остались вопросы
https://youtu.be/3lcgIcnyBQI
Недавно стартовал набор на 5ый поток курса по обучению Data Science! Осталось меньше месяца до начала обучения 🔜
В программе заложена как основная база по ML: математика для Data Science, линейные алгоритмы, деревья решений, ансамбли, кластеризация
Так и дополнительные темы, которые позволят уже на курсе приблизиться к реальным задачам в компаниях: Docker, Fast API, production код, MLOps инструменты и так далее.
В видео рассказала о результатах прошлого потока, а также ответила на самые часто встречаемые вопросы 📺
Таймкоды:
00:00 Результаты прошлых потоков
00:48 Сколько мест на курсе / Индивидуальный подход
01:28 Какие проекты на курсе сделаете
03:06 Тестовые собеседования
03:52 Отзывы
04:10 Сильная и структурированная программа
05:08 Почему курс длится 8-9 месяцев?
07:39 Как проходит обучение?
09:15 Что посмотреть перед поступлением?
09:25 Дополнительный материал по MLFlow, Airflow, Computer Vision ...
09:47 Про преподавателей
11:48 Налоговый вычет и оплата зарубежными картами
12:37 Куда писать, если остались вопросы
https://youtu.be/3lcgIcnyBQI
YouTube
Обучение Data Science для начинающих / Полный курс с нуля
Курс по Data Science 5 поток старт 25 сентября https://clck.ru/35bBv7
Оплата зарубежными картами https://clck.ru/35bBvg
Почта для вопросов [email protected]
Видео по математическому анализу для Data Science https://youtu.be/Nrq74MRHHJs
Python для начинающих…
Оплата зарубежными картами https://clck.ru/35bBvg
Почта для вопросов [email protected]
Видео по математическому анализу для Data Science https://youtu.be/Nrq74MRHHJs
Python для начинающих…
👍14❤3