PyMagic
6.09K subscribers
232 photos
4 videos
10 files
251 links
Data Science / ML / Deep Learning
VK group https://vk.com/club211095898
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎞 Text-to-video модели

Всего несколько лет назад появились первые модели генерации изображений по текстовому описанию, и вот теперь мы наблюдаем невероятные арты и реалистичные картинки от Midjourney и подобных моделей. Однако, можно вспомнить о еще более амбициозной задаче - генерации видео по тексту.
Современные модели генерации видео чаще всего основаны на диффузии, но, несмотря на потрясающие достижения диффузионных моделей с изображениями, создание видеоряда все еще остается трудоемким занятием.

🕒 Во-первых, хотя отдельные кадры и являются изображениями, во время их генерации необходимо учесть последовательность, временную согласованность происходящего. Это увеличивает вычислительные затраты модели как во время обучения, так и во время инференса. Фактически необходимо двигаться по последовательности кадров скользящим окном, что значительно замедляет работу и увеличивает вычислительную сложность.

📚 Во-вторых, затрудняет обучение нехватка хорошо аннотированных датасетов. Мультимодальные наборы данных для преобразования текста в видео немногочисленны и часто плохо размечены, что затрудняет выявление паттернов сложной семантики движений.

📝 При наличии набора данных, часто одного предложения или заголовка видео недостаточно, чтобы дать модели всеобъемлющее понимание контекста и динамики сцены. В идеале видео должно быть аннотировано целым набором текстовых описаний сюжета.

🚀 Тем не менее, даже с учетом этих сложностей уже есть модели, успешно генерирующие видео небольшой длины, например, Gen-1 от компании Runway Research. Эта модель синтезирует результат из существующего видео и текстового промпта, сочетая выходы двух диффузионных моделей, одна из которых генерирует общую структуру видео, а другая - изображения по текстовому описанию. А ModelScope text2video напрямую генерирует видео только по тексту, поданному на вход.

Полезные ссылки:
https://modelscope.cn/models/damo/text-to-video-synthesis/summary
https://research.runwayml.com/gen1
👍15🔥21🤯1
🧐 ПОЧЕМУ НЕЙРОСЕТИ ТАКИЕ МОЩНЫЕ?

…Или сколько нужно полносвязных слоёв в нейронной сети, чтобы она могла восстанавливать более сложные закономерности, чем линейная модель?

👁️‍🗨️ Друзья, помните мы с вами обсуждали зачем нужны нелинейности в нейросетях. Мы говорили, что без использования «нелинейностей» набор линейных слоев не улучшит нашу модель (читаем так: обладает таким же эффектом, как и один линейный слой), поэтому после каждого линейного слоя важно применять нелинейность.

☝️ НО! двуслойная нейронная сеть, в которой есть два полносвязных слоя и одна нелинейность между ними, способна приблизить любую непрерывную функцию с заданной точностью.

 Такое утверждение следует из теоремы Цыбенко.

✏️ Эта теорема крайне важна, так как обеспечивает теоретическую основу для эффективности нейронных сетей в моделировании сложных функций и закономерностей в данных.
🔥23👍9
🎨 ВИЗУАЛИЗАЦИЯ В АНАЛИТИКЕ: ключевые принципы и лучшие практики

Эффективное визуальное представление результатов позволяет увидеть скрытые закономерности, раскрыть информацию и представить ее понятным образом. Ниже представлены основные ключевые принципы, которые позволят вам сделать графики понятными и читабельными:

1. Обязательно учитывайте цели визуализации. Определите, какую информацию вы хотите объяснить и кому она будет предназначена. Визуализация должна быть нацелена на достижение конкретных целей, будь то исследование данных, представление результатов или принятие решений.

2. Выбирайте правильные типы графиков. Разные типы графиков подходят для разных типов данных и задач. Например, столбчатые диаграммы хорошо подходят для сравнения значений, линейные графики показывают тренды во времени, точечные диаграммы помогают выявить корреляции, ящики с усами оценить средние и выявить выбросы.

3. Понятность графиков - один из ключевых аспектов визуализации данных. Используйте понятные подписи осей, заголовки и легенды, чтобы помочь читателям правильно интерпретировать данные.

4. Используйте цветовую схему с умом. Цвета в визуализации данных играют важную роль в привлечении внимания и выделении ключевой информации. Однако, неконтролируемое использование ярких и разнообразных цветов может привести к путанице и затруднить интерпретацию. Если в вашей компании используют определенную цветовую схему, то старайтесь придерживаться ее.

Выше вы можете увидеть примеры удачных (первые 2 графика) и неудачной (3ий график) визуализаций на одних и тех же данных.

⛔️ На 3-ем графике тяжело оценить абсолютные значения в каждом из месяцев (круги пересекаются, цвета очень схожи). Наличие большого кол-ва значений в легенде увеличивает время анализа.

👌 Два первых графика позволяют посмотреть не только на абсолютные значения, но и провести достаточно быстрое сравнение значений, где видно, например, что с апреля по май в 2022 году было самое наибольшое кол-во просмотров, а в эти же периоды в 2020 году - наименьшее.
👍382
Как стать специалистом в области NLP?

Друзья, уже 19 июня стартует курс по Natural Language Processing 🚀

Программа составлялась с учетом того, чтобы вы смогли применять полученные знания и навыки в различных задачах, будь то это тематическое моделирование, NER, классификация текстов, разработка чат-ботов и многое другое.

Не пройдём стороной и Deep Learning: познакомимся с DL фреймворками, разберемся в архитектурах нейросетей для NLP задач (RNN, Transformers…), SOTA решениях, как обучать BERT.

Мы подготовили множество примеров из реальной практики из разных доменов с разбором кода на Python, а не просто презентации с текстом 😉

👨‍💻Курс будет полезен как тем, кто только изучил классический ML (возможно, уже успел даже познакомиться с NLP), так и опытным специалистам, кто хочет начать профессионально специализироваться на обработке текста.

Программа курса соответствуют требованиям более 90% вакансий DS на позиции, где требуются знания NLP (по соответствующим разделам).

Более подробная информация о курсе на сайте PyMagic
По промокоду EASYNLPTG вы сможете получить доп скидку в 15% при полной оплате
Также мы принимаем платежи из-за рубежа 🌎
🔥14👍2🤯2
Какой ты зверь в Data Science? 🐅

В мире существует целый зоопарк профессий. Каждая профессия играет важную роль в Data Science, Big Data и других смежных областях. Узнай, какое животное символизирует твою специальность и как его уникальные качества помогут тебе достичь новых высот 🚀

🦉 Data Scientist - Сова. Является символом мудрости и интеллекта, что отражает ключевые качества DS. Совы достаточно сообразительны, особенно, что касается ловли добычи, а в случае Data Scientist - «ловля закономерностей». Большие глаза замечают почти все, что творится вокруг, так же как и Data Scientist работает с большими объемами данных

🦫 Data Engineer - Бобр. Умеют строить и создавать сложные конструкции. Аналогично бобру, Data Engineer создает и также поддерживает инфраструктуру для обработки и хранения данных

🐝 Machine Learning Engineer - Пчела. Как и пчела, ML Engineer в production-среде работает в команде и выполняет свою роль с четкой организацией и сотрудничеством с другими специалистами. Он работает над созданием стабильной и надежной инфраструктуры ML, чтобы ML модели могли успешно работать и принимать важные решения в реальном времени

🐬 Data Analyst - Дельфин. Известен своим интеллектом, аналитическими способностями. Data Analyst, подобно дельфину, занимается анализом данных, проводит исследования и извлекает ценные информации. Как и дельфин, Data Analyst также обладает коммуникативными навыками. Они не только проводят анализ данных, но и способны понятно представлять результаты своей работы, а также коммуницировать с другими участниками проекта

🐜 Big Data Architect - Муравей. Муравьи могут создавать сложные и большие муравейники, которые в разы больше их самих. Архитектор больших данных подобен муравью, который занимается проектированием детального слоя Big Data, он создает эффективную инфраструктуру для обработки и хранения больших объемов данных

🦁 Product Manager - Лев. Лев является символом лидерства и управления. Product Manager управляет разработкой и реализацией продуктов на основе данных и принимает важные решения.

При написании этого поста ни одно животное не пострадало 🐱
😁387👍6🤔2👌1
Аддитивная регуляризация тематических моделей

Тематическое моделирование – это построение модели текстового корпуса, которая разделяет содержимое каждого текста по темам.

📊 Один из самых популярных алгоритмов для тематического моделирования – Латентное размещение Дирихле (Latent Dirichlet allocation). Его основная идея состоит в моделировании документа как смеси тем, где каждая тема представляется распределением вероятностей над словами.

📝 К результатам тематического моделирования можно предъявить достаточно много требований: хочется, чтобы полученные темы были разнообразны, поддавались интерпретации, а фоновые слова, относящиеся к общей лексике, были обособлены. Можно использовать несколько различных моделей, и учесть все эти требования по отдельности, однако комбинировать их в одной модели уже сильно сложнее. В этот момент аддитивная регуляризация тематических моделей приходит на помощь и позволяет реализовать все вышеперечисленное. В частности, для этого каждое ограничение формализуется в виде регуляризатора – определеного оптимизационного критерия, каждый из которых учитывается во время обучения модели.

⚙️ Программная реализация этого подхода представлена в библиотеке BigARTM. Она позволяет строить мультиязычные модели, иерархии тем, использовать данные о совстречаемости слов в предложениях, обрабатывать документы, содержащие не только слова, но и токены других модальностей: авторы, время, рубрики, и т.д. Кроме того, помимо моделирвания текстовых корпусов, в BigARTM можно работать со сложными транзацкионными данными, например, транзакция (u,b,p) в рекламной сети – «пользователь u кликнул баннер b, расположенный на странице p».

🥇 Богатые функциональные возможности наряду с быстродействием делают эту библиотеку незаменимым инструментом при построении и тонкой настройке тематических моделей.
👍13
Друзья, всем привет!

🎯 Мы сейчас проводим небольшой опрос, который поможет нам лучше понять ваши предпочтения и интересы в области машинного обучения и системного проектирования.

Были бы очень благодарны, если уделите 1-2 минуты. По окончании опроса вы получите приятное вознаграждение! 🤗

Для того, чтобы пройти опрос, просто перейдите по ссылке
🔥8👍54😱31
💪СИЛЬНАЯ КОМАНДА

Друзья, сегодня порассуждаем с вами на тему развития кросс-компетенций в рамках команды.

⚠️Сфера Data Science стремительно развивается, требования, которые предъявляли к начинающим специалистам два года назад, не равны сегодняшним требованиям. В настоящее время, к сожалению, мало уметь проводить разведочный анализ данных и запускать коробочные модели в Jupiter notebook… 

😎Более того, сейчас работодатели ждут «командных игроков», которые обладают широкой экспертизой. Если вы data scientist, то должны разбираться в алгоритмах машинного обучения, писать работающий чистый код, иметь опыт в своей области (банковская сфера, компьютерное зрение, рекомендательные системы и так далее), уметь запускать и проводить АБ-тесты, пользоваться инструментами Big Data… 

Конечно же, опыт приходит только с практикой. Поэтому, если вы уже работаете в компании, призываю вас не только фокусироваться на своих задачах, но и интересоваться задачами ваших коллег.  

👍Для чего? Во-первых, это развивает вас как специалиста и повышает вашу ценность на рынке. Во-вторых, вы становитесь сильным командным игроком.  

✍️Существует человеческий фактор, нужно быть готовым брать на себя задачи коллег. В нестабильное время, многие команды модифицируются, и сейчас как никогда важно развивать новые навыки. 

Как? Приоритизируйте задачи, выделите вместе с менеджером команды время для погружения в новые направления. Найдите более опытного коллегу в новой для вас сфере, поработайте под его руководством.  

P.S. Если вы никогда не анализировали АБ-тест, обязательно найдите опытного аналитика, и подведите итоги эксперимента под его руководством. Если вы никогда не строили новые витрины, ищите опытного дата-инженера и поработайте под его руководством.
13👍5👏31
Вот уже потихоньку ребята с 3го потока курса по Data Science один за другим проходят собесы и получают работу. Такие сообщения стоят дороже отзыва о курсе, выпускник кстати уже устроился работать в крупную компанию 💪

Если раньше рекомендовали накручивать опыт, то похоже теперь придется накручивать образование в PyMagic 😁 Это конечно все шуточки, но по запросу на всякий случай для работодателей сообщаю, что могу подтвердить прохождение курса того или иного студента/выпускника.

У нас нелегко, мы не пьем коктейли у бассейна во время обучения (но если успеваете, то можно), а учимся, не делаем шаблонные проекты, мы нарабатываем даже часть навыков и проходим инструменты, которые пригодятся для вывода моделей в прод, знаем как устроены алгоритмы изнутри и когда какой применять.

Дата открытия продаж курса по Data Science запланирована примерно на август, если вы хотите предварительно записаться, то пишите в наш чат-бот (меню предзапись), мы напомним вам о старте 🔔

👩🏻‍💻 Также у нас есть замечательный курс по NLP, он стартовал еще в июне. В нем мы собрали все необходимые знания, начиная с того, как удалять запятые, заканчивая применением и обучением трансформеров. Благодаря такому обилию информации, вы сможете потом уверенно работать в данном направлении. Также вы сможете ознакомиться с практическими примерами из области NLP (разбор бизнес задачи и кода). Промокод на скидку 15% EASYCVTG
👍143😁1🤯1
СМЕНА РАБОТЫ 🔜

👩‍💻Достаточно часто ко мне обращаются уже опытные специалисты, которые хотят сменить текущее место работы. Как правило, это ребята уровня junior+/middle-.

🤔Заметила некоторую тенденцию: обычно такие специалисты уже достаточно хорошо погружены в свою сферу, грамотно пишут код, готовы предлагать новые идеи бизнесу. Однако, почему-то при смене работы забывают (или пренебрегают) шагом, который в текущих условиях имеет немалый вес.

🥸Речь идет именно о подготовке «личного бренда». Сейчас объясню, что имею в виду. Когда вы «предлагаете себя» в новом месте, важно еще и уметь себя представить. Обновить и отредактировать резюме, возможно дать посмотреть его эксперту. Подготовить рассказ о задачах и проектах, которые вы делали на предыдущем месте работы. Здесь важно грамотно построить рассказ, не упустив технических деталей, а также понятно объяснить ценность ваших действий для бизнеса.

🍀Вообще самым лучшим решением будет обратиться к эксперту в области управления человеческими ресурсами. Однако вы всегда можете найти необходимую информацию бесплатно в интернете. Мы с вами не раз уже обсуждали данную тему на разных площадках.

🧐Не нужно заблуждаться, что новый работодатель готов пристально рассматривать вас и задавать много вопросов, когда на ваше место претендуют еще несколько человек. Выделенное вам время нужно использовать по максимуму!

🧩Мы с вами уже говорили, что перед собеседованием в новую компанию рекомендуется ознакомиться с ее деятельностью и проектами. У большого числа компаний есть лекции или митапы в общем доступе, где эксперты делятся опытом и рассказывают, чем занимаются, делятся ресурсами и личными статьями.

Подведем итог. Не пренебрегаем:
1. Качественным обновленным резюме.
2. Подготовленным рассказом о реализованных проектах на текущем месте и об их ценностях для компании (очень желательно подкрепить все цифрами).
3. Интересуемся деятельностью компании, смотрим лекционные материалы в открытом доступе.

P.S. Если собеседование проходили давно, советую записать аудио, где рассказываете о себе и проектах. Поверьте, даже опытные специалисты часто начинают волноваться и забывать освятить информацию, которая потенциально могла бы понравиться будущему работодателю.
👍235
Рекомендательные системы в проде 🏭

Вышла замечательная статья на Tproger об устройстве рекомендательной системы в МТС в продукте «Строки».

Замечательный обзор на то, какие бывают рекомендательные системы, а также какие конкретно используют в компании.

Затронута важная на мой взгляд тема про метрики, потому что использовать метрики как ROC-AUC, F1 и так далее - недостаточно😁 Да да, не одними DS метриками обходятся, плюс еще разработчик должен понимать какие ему необходимо учитывать прокси-метрики и бизнес-метрики в своем проекте.

В конце также описан подход к тестированию подобных моделей, мало ее написать, необходимо, чтобы ее результат был статистически значимым.

https://tproger.ru/articles/kak-stroki-podbirayut-kontent-kotoryj-ponravitsya-chitatelyam/
12🔥2👍1🤔1
👋 Многорукие бандиты в Data Science

Многорукие бандиты - это интересная и увлекательная концепция, которая находит широкое применение в решении различных задач. В этой статье мы расскажем о многоруких бандитах, о том, как они работают, и о том, как Data Scientist может использовать эти методы для оптимизации результатов.

Что такое многорукие бандиты?

Многорукие бандиты - это класс алгоритмов, который возник в контексте задачи о распределении ограниченных ресурсов для достижения наилучшего возможного результата. Название "многорукие бандиты" происходит от аналогии с игрой в казино, где игрок стоит перед рядом игровых автоматов с ручками ("руками") и должен выбрать, на какой автомат поставить деньги, чтобы максимизировать свой выигрыш.

В контексте Data Science, "руками" могут быть различные варианты или стратегии. Каждая из этих стратегий может давать различные результаты, и цель заключается в том, чтобы найти оптимальную стратегию или комбинацию стратегий, чтобы максимизировать ожидаемый выигрыш.

Часто многорукие бандиты применяются в качестве замены А/Б тестирования в рекомендательных системах. Но при провединии таких тестов мы сталкиваемся с главной проблемой бизнеса - упущенная выгода за время проведения А/Б теста (когда используем неэффективный вариант, который показываем группам).

Способы оптимизации и максимизации выгоды

1. Epsilon-Greedy. Это простой и эффективный подход, который случайным образом выбирает жадную стратегию с вероятностью «epsilon». Например, если eps=0.02, то алгоритм 98% времени выбирает лучший вариант, а в оставшиеся 2% времени выбирает случайные варианты

2. UCB1. Идея заключается в выборе стратегии, которая максимизирует верхнюю границу доверительного интервала для ожидаемой награды

3. Thompson Sampling. Этот метод использует вероятностный подход, сэмплируя стратегии из их апостериорных распределений и выбирая наилучший вариант.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍161
🛟 Фреймворк для работы с LLM

🤖 Сегодня большие языковые модели (Large Language Models) поражают своими возможностями и кейсами использования. Кажется, что можно задать им почти любой вопрос, и получить адекватный ответ.

📚 Однако данные для обучения моделей были обрезаны до определенных дат, например, GPT-4 обучалась на срезе до сентября 2021 года, и это существенно ограничивает доступную актуальную информацию. Кроме того, в LLM не будет каких-то специфичных личных или корпоративных данных, не попавших в общий доступ, но как было бы здорово, если бы мы могли дообучить ChatGPT на собственном более свежем наборе текстов! Например, построить вопросно-ответную систему по внутренней базе знаний вашей компании?

📝 Есть ли способ как-то "научить" ChatGPT работать с отдельными наборами текстов? Да, общий алгоритм выглядел бы так:
⁃ Пользователь вводит запрос.
⁃ Система с помощью семантического поиска ищет наиболее релевантный запросу текст, содержащий ответ.
⁃ В LLM отправляется подсказка с соответствующим текстом документа, таким образом модель получает контекст для генерации ответа.
⁃ Пользователь получает ответ.

⚙️ Один из инструментов для реализации подобной логики - LangChain.

LangChain — это фреймворк для работы с языковыми моделями OpenAI, HuggingFace, Cohere, позволяющий гибко работать с промптами, подключать внешние источники информации, создавать индексы с текстами для QA-систем, а также удобно хранить состояния диалога с моделью в "цепочках" для реализации чат-ботов. Интерфейс фреймворка выполнен в виде модульных компонентов, из которых можно гибко собирать пайплайны под свои задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13
🐙 Как деплоить ML модели в production?

Мы проанализировали множество вакансий Data Scientist, сейчас одно из самых частых требований - опыт вывода моделей в прод.

🤔 Где можно получить такой опыт/навыки, если на текущем месте вы занимаетесь только исследованиями? Или как добавить элементы MLOps в свой pet-project будущему Junior?

Мы разработали мини-курс по промышленному ML, где рассмотрим с вами основные этапы MLOps и инструменты на практике:

Рассмотрите основные паттерны ML архитектур, различие между online и batch
Узнаете как перейти от Jupyter Notebook к промышленному коду
Напишите unittest для ML моделей
Научитесь сохранять результаты экспериментов в MLFlow и использовать их в дальнейшем
Развернете REST сервис применительно к ML задаче при помощи FAST API
Используете Airflow для обучения ML модели при помощи пайплайна задач
Скомпонуете все вместе и развернете итоговый проект при помощи Docker Compose
Настроите мониторинг вашего сервера при помощи Grafana
🔔 Обязательно рассмотрите CI (Continuous Integration) с использованием GitHub Actions

Курс будем полезен начинающим Data Analyst/Scientist, тем кто хочет работать как ML Engineer, а также тем, кто хочет сделать крутой pet-project! Не страшно, если с каким-то инструментом Вы не знакомы, каждый мы будем разбирать с нуля.

🚀 Сейчас мы открыли предзапись. Старт курса в сентябре!
Если будет много желающих, то будем повышать цены, но для тех, кто записался заранее, цена останется прежней 1890 рублей.

https://pymagic.ru/mlops
🔥17👍9❤‍🔥22
Зарплаты в Data Science 🤑

Вышло новое замечательное видео про то:

💸 Сколько зарабатывают Data Scientist
🤑Может ли Junior получать от 150к?
👼Сложно ли сейчас найти работу
🧑‍🏭Какие навыки особенно важны для специалистов с опытом

https://youtu.be/mQmasyIPNLA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥51
⚡️Старт набора на 5ый поток курса по Data Science

- Возможно, ваша профессиональная деятельность ранее не имела отношения к анализу данных…
- Или вы учитесь в университете, но ваша текущая специализация — не ваше призвание...
- Или вам уже давно за 30 и планируете сменить сферу деятельности…
- А может быть, вы уже занимаетесь анализом данных как дата-аналитик…

… Однако, вы бы хотели работать в Data Science? 👨‍💻

Данные поинты основаны на реальных историях наших выпускников и студентов, которые успешно трудоустроились, с удовольствием теперь обучают ML-модельки и продвигаются вперед по карьерной лестнице 🪜

Давайте поговорим о том, чему вы сможете научиться:
⁃ Освоите навыки программирования на Python и написания сложных запросов на SQL
⁃ Повторите всю необходимую математику для Data Science
⁃ Разберетесь подробно со всеми ML-алгоритмами: что под капотом, как их обучать, когда и какую модель применять
⁃ Научитесь оценивать ML-модели и улучшать их качество
⁃ Освоите навыки написания production кода
⁃ Сделаете свой собственный сервис при помощи MLOps инструментов
⁃ Погрузитесь в Deep Learning и изучите базу по нейросетям
⁃ Разберете NLP: классические подходы, Transformers

Дополнительно вы получите доступ к материалам по темам:
⁃ Временные ряды
⁃ Асинхронность, многопоточность и мультипроцессинг
⁃ MLFlow, Airflow, Tableau, Git, Superset
⁃ Примеры реальных проектов в Computer Vision с кодом на python

🚀 Старт 5го потока 25 сентября! Количество мест ограничено, так как мы стараемся индивидуально подходить к обучению. По передзаписи выкуплена почти уже половина мест. 😲

Более подробную информацию вы сможете найти на сайте PyMagic
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5
👨‍💻 Что КРОМЕ requirements.txt?

Сегодня хочу поделиться с вами интересным инструментом для работы с Python-проектами – Poetry 🐍🔗

Возможно, вы уже знакомы с файлом requirements.txt, который используется для перечисления зависимостей. Но давайте поговорим о том, как Poetry может сделать этот процесс более эффективным и структурированным.

🌟 Главное отличие Poetry от requirements.txt – это его способность автоматически создавать и управлять виртуальными окружениями. При установке зависимостей Poetry автоматически создает изолированное окружение, где эти зависимости будут работать. Это избавляет от путаницы с версиями и конфликтами между проектами.

📦 Еще одним полезным нюансом является возможность фиксации версий зависимостей с помощью файла poetry.lock (генерируется автоматически). Это обеспечивает консистентность окружения для всех членов команды и предотвращает неожиданные изменения в зависимостях.

🚀 Кроме того, Poetry предоставляет удобный способ публикации пакетов на PyPI и других популярных репозиториях, что делает процесс распространения проектов еще более удобным.

Туториал по устновке и использованию на оффициальном сайте Poetry
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122❤‍🔥1
Дизайн ML-систем 👩🏻‍💻

Для чего необходим дизайн ML-систем и что это из себя представляет?

▶️ Часто у начинающих специалистов есть достаточно линейное представление об обучении ML-модели: получение данных -> предобработка -> обучение -> тюнинг -> анализ метрик

Бизнес-задача? Цель? Откуда будем брать данные? Как часто нам нужно обновлять модель и как ее внедрить в реальные бизнес-процессы?

Если вы не задумывались как минимум над первым вопросом, то это уже грозит большими рисками уйти вашей ML-модели «в стол», а ведь вы потратили немало времени и усилий 🤔

В новом ролике поговорим об этапах разработки ML-системы. Понимание каждого этапа позволит не только предотварить будущие проблемы с неактуальностью вашей модели, но, возможно, и сделать более масштабный проект при удачных итоговых показателях.

https://youtu.be/wAfvS8toIxc
👍20🔥41❤‍🔥1
Метрики в задаче регрессии. SMAPE 🔮

Друзья, думаю многие из вас уже поняли, что требования к специалистам в сфере Data Science растут с каждым годом. Поэтому действительно важно максимально разбираться в сфере, в которой хочешь работать или уже работаешь.

📌Подобных кейсов можно привести множество, однако не перестаешь удивляться людям, которые идут на собеседование в конкретную команду (NLP/RecSys ...), и даже не решаются прочитать перед разговором небольшую обзорную статью. Согласитесь, выглядит странным, когда специалист «жаждет» строить рекомендательные системы, при этом на вопрос об известных ему метриках качества рекомендаций отвечает accuracy…

📌Как минимум (из моего видео про ML-дизайн) вы уже знаете, что метрики в RecSys обычно делятся на офлайн и онлайн метрики…
Это было небольшое отступление. Давайте мы с вами сегодня вспомним тоже про важную метрику MAPE. Это некая «относительная ошибка», которая часто применяется в задачах прогнозирования и позволяет работать с разными масштабами данных.

🤔Представим, что мы используем линейную регрессию и решаем задачу прогнозирования спроса на товары в супермаркете. Нам важно предсказать количество разных товаров, которые необходимо поставить в магазин. Понимаем, что питьевая вода или молоко, является достаточно популярными товарами, поэтому скорее всего придется поставить в магазин несколько десятков упаковок таких товаров. В то время как маленькая упаковка холодного дорогого кофе вряд ли пользуется таким же спросом…

Чтобы при усреднении ошибок более популярные товары не оказывали большее влияние на результат, следует использовать функции потерь, не зависящие от масштаба. И средняя абсолютная процентная ошибка (а точнее функционал качества, основанный на средней абсолютной ошибке) нам в этом может помочь.

Кстати, не стоит забывать о том, что средняя абсолютная процентная ошибка не ограничена сверху при завышении прогноза. Но это исправляется, если использовать ее симметричную форму – SMAPE (symmetric mean absolute percentage error).
16👍13