PyMagic

3.24K views11:07

Преподавательский состав курса PyMagic 👨‍🏫

❗️Безусловно вы можете учиться самостоятельно и добиваться без чьей-то помощи высот в области машинного обучения, либо в какой-то другой. Но когда у вас нет понимания изначально где искать, что искать, встает вопрос уже о времени обучения, дальнейшей мотивации, так как просто может не хватит поддержки. Да, вы можете дергать своих друзей из DS задавая им по 100 вопросов на день, но они уже по сути будут являться вашими менторами, и грубо говоря преподавателями, только нужно понимать, что у человека есть еще и свои дела, жизненные проблемы.

⏱ Также, если говорить про машинное обучение, материала много, он не везде в полном объеме, не везде структурирован. Встает вопрос об обновлении, так как требования меняются, подходы меняются, инструменты тоже. И нужно понимать, бесплатные курсы - это от 10 до 30% информации, на то они и бесплатные, где-то есть теория, но нет практики, либо теория наполовину рассмотрена, практика на игрушечных примерах. Никто не отменял личный опыт и набитые шишки, а также множество других нюансов.

💪 В PyMagic мы подобрали сильный преподавательский состав, который имеет опыт не только реальной работы, но и опыт преподавания, потому что мало быть просто специалистом, нужно уметь доносить информацию так, чтобы другой понял. Это двойная и очень сложная задача.

Давайте знакомиться с полным составом, подробную информацию смотрите в карусели 👉

https://pymagic.ru

👍17🤔2

3.61K viewsedited 11:07

PyMagic

Оптимизируем размер памяти DataFrame в 3 раза 🚀

🚀 Поговорим про эффективное использование памяти в библиотеке Pandas. Опережая вопросы, скажу, что в большинстве компаний, где используется Big Data, код обычно написан на PySpark, но это уже совсем другая история 😅

Сегодня мы рассмотрим методы, позволяющие сократить расход памяти при использовании Pandas. Это помогает не только оптимизировать память, но и также ускорить работу с таблицами в Pandas.

Давайте представим, что вам необходимо загрузить огромный датасет для его исследования и построения модели машинного обучения в дальнейшем. Вы столкнулись с ошибкой Memory Error, ведь датасет был действительно внушительных размеров.

Раскидать датасет по разным файлам (и обрабатывать фрагменты) или сжать данные вы не можете. Что делать?

📌 Первое, о чем вы должны вспомнить, что при загрузке данных в pandas DataFrame значения не всегда получают наиболее подходящие типы данных. Например, вместо int8 назначается тип int64 из-за чего объем используемой памяти существенно возрастает.

🔨 int64 – это целые числа в диапазоне от -9223372036854775808 по 9223372036854775807, (числа размером 8 байт). И если у вас таблица размером миллион объектов, то каждый столбец типа int64 будет занимать 8 миллионов байт!!

✅ Если наши значения в столбце имеют небольшой диапазон, например min=-10000, а max=20000, то лучше использовать тип int16. Целые числа в диапазоне от -32768 по 32767 (2 байта).
И если вы переведете подобные столбцы из int64 в int16, то заметите значительное сокращение потребления памяти.

✅ Думаю, мы достаточно поговорили про числовые типы данных. Давайте подумаем, как можно сократить память в столбцах типа object. Категории в этих столбцах конечны (диапазон возможных значений фиксирован), более того, в столбцах много повторений, поэтому можно (и нужно) привести тип object к типу category. И вы снова можете заметить сокращение памяти!

Чтобы посмотреть, как это все сработало на большой таблице в миллион строк, читайте полную статью с примерами кода 😎

https://vk.com/@pymagic-optimiziruem-razmer-pamyati-dataframe-v-3-raza

Оптимизируем размер памяти DataFrame в 3 раза 🚀

Привет, друзья! Сегодня мы с вами обсудим очень важную тему, над которой чаще всего начинающие специалисты не задумываются. Поговорим про..

👍36🔥2

3.61K views08:40

PyMagic

Основы GIT 📌

Друзья, сегодня поговорим немного о Git. А точнее сформируем вместе с вами список, где будет зафиксирован минимальный набор команд, который потребуется начинающему специалисту на работе (и не только).

👽Git — распределённая система управления версиями. Любая команда активно пользуется гитом, когда разрабатывает модели машинного обучения и готовит их к вывод в продуктовую среду.

⚠️Друзья, если вы сейчас первый раз услышали о Git-е, не пугайтесь, переходите по ссылке, знакомьтесь, практикуйтесь, а затем возвращайтесь к нашему посту и задавайте вопросы, если что-то осталось непонятно: https://www.atlassian.com/ru/git/tutorials/what-is-git

✅ Начнем. Первая необходимая команда git status
Команда git status показывает состояния файлов в рабочем каталоге: какие файлы были вами изменены, но не добавлены в индекс (то есть не добавлены для последующего сохранения), какие файлы добавлены в индекс, но еще не сохранены. Плюс, при помощи этой команды вы можете увидеть подсказки о том, как изменить состояние файлов.

✅ Далее очень полезная команда git branch
С помощью данной команды, добавляя различные флаги (подробнее здесь: https://www.atlassian.com/ru/git/tutorials/using-branches), вы можете просматривать локальные и удаленные ветки, удалять их, переименовывать… Вообще перед началом разработки всегда используйте команду git branch, чтобы убедиться, что вы находитесь в нужной вам ветке.

✅ Следующая важная команда git add
Команда git add добавляет изменение из рабочего каталога в раздел проиндексированных файлов. Она сообщает Git, что вы хотите включить изменения в конкретном файле в следующий коммит. То есть готовите к сохранению внесенные изменения. Команда git add не является «опасной для репозитория», так как только готовит файлы к сохранению (коммиту), а изменения регистрируются в нем только после выполнения команды git commit.

✅ Логично, что еще одна важнейшая команда это git commit
Перед выполнением команды git commit необходимо использовать команду git add, чтобы добавить в проект («проиндексировать») изменения, которые будут сохранены. Далее следует выполнить команду git commit, которая сделает для проекта снимок текущего состояния изменений, добавленных в раздел проиндексированных файлов. То есть сохранит изменения, которые вы внесли в файлы. Советую использовать команду git commit -m "commit message", таким образом вы сохраняете изменения с определенным комментарием и помогаете другим разработчикам (и себе) ориентироваться в истории ваших изменений.

✅ Очень полезная команда git stash
Представим, что вы параллельно делаете две разные задачи, следовательно, ведете разработку в двух ветках. Чтобы не потерять изменения в одной из веток (в тот момент, когда нужно срочно переключиться на другую) используйте команду git stash save "add feature to model", такая команда сохраняет неподтвержденные изменения в отдельном хранилище, чтобы вы могли вернуться к ним позже. Затем происходит откат до исходной рабочей копии. Подробнее читаем тут: https://www.atlassian.com/ru/git/tutorials/saving-changes/git-stash

✅ Последняя команда в сегодняшнем списке git push
Применяется для того, чтобы отправить сохраненные изменения из локального репозитория в удаленный.
Друзья, я знаю, что многие начинающие специалисты немного бояться гита, когда первый раз с ним сталкиваются. Поверьте, здесь нет ничего страшного. Огромное количество информации есть в интернете. Все, что от вас требуется – это ознакомиться, постараться разобраться, применить и много практиковаться. Все получится 💚

Atlassian

Что такое Git? | Atlassian Git Tutorial

Git — это развитая система контроля версий с активной поддержкой и открытым исходным кодом, которую используют тысячи разработчиков из разных точек мира. С помощью этого руководства вы станете профессиональным пользователем системы Git.

👍23🔥3🤩1

3.61K views17:29

PyMagic

НЕ ПОЛУЧАЕТСЯ РЕШИТЬ ЗАДАЧУ 🤔

😭 Часто от начинающих специалистов слышу: «Не могу решить задачу уже больше недели… Перепробовал все. Я зашел в тупик». На что я спрашиваю: «Что конкретно ты успел попробовать, и как думаешь, в чем же главная проблема?..»

💭 Друзья, сегодня обсудим с вами несколько подсказок, про которые полезно будет вспомнить, если ваша задача действительно «зашла в тупик». Обязательно делитесь своими лайфхаками в комментариях.

✅ Первое, что мы должны запомнить: «Не загоняйте себя и задачу до предобморочного состояния». Паника и обесценивание - наши главные враги.

✅ Если вы явно чувствуете, что в коде есть коварная ошибка, которую никак не удается найти, отлаживайте код. При работе с данными помните про то, что промежуточные результаты (датафреймы, серии, списки и прочее) можно сохранять в pickle файлы и отслеживать их содержимое. Не пытайтесь додуматься, что же будет лежать в той или иной переменной – запоминайте ваши данные в pickle файлы и анализируйте их содержимое после каждого шага программы. Мы с вами разбирали формат pickle, пост можно найти выше.

✅ Еще один рабочий совет особенно для тех, кто работает с Big Data. Представим, что вам нужно написать новый функционал. Ориентироваться в огромных таблицах действительно сложно, более того, трудно понять, все ли возможные варианты событий вы учли при разработке. Поэтому, вычленяем (или создаем) «игрушечные данные», то есть данные небольшого размера, содержащие такой набор признаков, который поможет вам убедиться при тестировании функционала, что все кейсы успешно решены.

✅ Наведите порядок в рабочем пространстве, почистите ненужные файлы в ваших директориях, удалите неиспользуемые ячейки в ноутбуке. Пропишите задачу «от и до», а затем по пунктам опишите маленькие шаги, которые будут направлять вас к решению.

✅ И еще, перед тем как убедить себя, что задача нерешаемая, объясните ее кому-нибудь вслух. Добейтесь, чтобы собеседник понял, о чем ваша задача и какие варианты решений вы уже попробовали… Метод действительно рабочий, невольно ты сам себе указываешь на неочевидные моменты, о которых раньше даже и не думал…

👍26

2.65K views12:16

PyMagic

@staskazakovcom Утверждает, что я меркантильная и собстна исключает мое желание сделать доброе дело для людей (просто посмотрите мой ютуб, вам сразу станет ясно, с душой я делаю или нет).

Либо черное, либо белое, серого нет. И если это был как инструмент маркетинга, это разве исключает то, что мне хотелось сделать что то полезное? Мне как бы ПРОЩЕ было рекламу запустить, я бы БОЛЬШЕ с этого поимела, чем тратить столько времени, чтоб получать потом маты в комментах бесплатного курса и вот такие вот сообщения.

Я настолько меркантильна, что стольким людям проверяла код бесплатно, отвечала бесплатно на вопросы, а сколько резюме я бесплатно проверила и помогла устроиться… Честно, я себя чувствую сейчас дурой и идиоткой, потому что отдаю больше, чем получаю.

Все ради «продажи своего курса». К слову ОДНО из его отличий, это то, что мы массово не обучаем и стараемся индивидуально подходить к каждому студенту, сколько потерянного бабла. Хотя надо было сделать его массовым, заработать наконец большие денежки.

Не делай добра, не получишь и зла. Вот она ваша истинная благодарность 👍

Ах, да, не забудьте меня обсудить в своих чатах других курсов, камерных ds чатах, вы же очень любите мне там переламывать кости и писать сексисткие комменты, ФАС!)

Каждый мыслит своими шаблонами и так, как он поступает сам, отсюда и непонимание другого и чувств другого.

😢46❤17👍13🤯11🔥3

3.02K views19:25

PyMagic

Давайте дружно скажем спасибо спонсору этого видео компании Selectel. Если б не Selectel, не знаю, выложила бы вообще этот выпуск.

Честно, я за эти 2.5 года сильно посадила свое здоровье, что отдыхать могу только не вставая с кровати, у меня больше нет сил, добро пожаловать выгорание. Моей ошибкой было вкладывать душу во все, что я делаю, что повлекло за собой эмоциональное вовлечение в процесс и дальнейшие реакции.

К сожалению, огромной любви я не получила, лишь малая доля людей поддерживала меня все это время, за что им огромное спасибо. Но очень многие писали гадости, обсуждали в кулуарах senior я или junior прости Господи… что я вообще не достойна вести на ютубе канал, курсы, советовали мне подучить русский язык, да и просто гореть в аду. А люди со стороны, видя все своими глазами, охеревали и говорили: «Как ты до сих пор держишься, столько негатива!!»

Ощущение, что хорошие слова о себе можно прочитать только, когда тебе становится уже совсем хреново. Столько людей мне написало почему закрыла курс на степике, верните, какой курс хороший, но к сожалению, я этого же соотношения не увидела ни в отзывах, ни в комментариях к курсу, именно соотношения. Больше было негатива, придирок, матов и из разряда «ничего не понятно», не поставила запятую - курс говно. А ведь он не создавался с целью вас научить DS, одна из главных задач была, чтобы вы поняли DS ваше это или нет, не тратили овердофига денег на какие-либо курсы, в том числе и мой, чтоб это ПОНЯТЬ.

Поэтому в ближайшие месяцы, если я смогу пересмотреть свое отношение ко всему, то смогу продолжить свою деятельность, но честно, больше помогать всем даже за спасибо я не хочу. Просьба не писать слова поддержки, также я терпеть не могу проявление жалости. Вы могли проявить свою поддержку, когда меня засирали в других чатах ни за что, но молча решили постоять в сторонке в этот момент.

Спасибо малому кол-ву людей, которые просто так могли спросить как у меня дела, это очень было приятно, либо сказать простое спасибо, когда их никто этого делать не просил. Если б не вы, я бы все это бросила еще в первые месяцы.

Если где-то не хватило запятых, расставьте сами.

https://youtu.be/DMjCQwUIoTk

YouTube

Как ускорить работу с DataFrame в Pandas / Data Science

Регистрируйтесь и арендуйте выделенный сервер с GPU для задач по ML на срок от 1 дня в Selectel: https://slc.tl/zz15w

Токен: ООО «Селектел», ИНН 7842393933
Erid: 2VtzqwQS1ws

Курс по Data Science старт 4 потока https://pymagic.ru

Как сократить потребление…

❤94👍17😢5🤯2🤔1

3.4K views10:40

PyMagic

Курс по Data Science 🚀

Друзья, у нас стартовал набор на 4 поток еще пару недель назад, специально сделала отдельное видео как многие и просили меня, где разобрала самые популярные вопросы, а также подробнее рассказала как все устроено изнутри.

По поводу кол-ва мест: у нас больше половины мест уже раскуплено. Поэтому, если вы хотите попасть на обучение, получить качественные знания, которые помогут вам в дальнейшем при устройстве на работу даже в текущих реалиях, то welcome.

И вообще, кому даже не до курса, просто зацените качество картинки в видео в 4К 💣Это просто две огромные разницы что было и что стало.

https://youtu.be/BzL66Y6akhs

YouTube

Курс по Data Science с нуля старт 4 потока

Курс по Data Science набор на 4 поток https://clck.ru/33eQhk

Оплата зарубежными картами https://pymagic-courses.ru/public/course/255dced9-a09c-4250-a48f-5850b30a8746

Почта для вопросов [email protected]

Видео про математический анализ для Data Science h…

❤38🔥8❤‍🔥3👍1

4.63K views12:00

PyMagic

Spectral Clustering 🧠

🤔 Многие из вас знают скорее такие алгоритмы как KMeans, DBSCAN, Иерархическую кластеризацию, поэтому, давайте пополним наши знания об алгоритмах таким алгоритмом как Spectral Clustering, и кстати, еще затронем KMeans, позже узнаете почему.
На одном из реальных проектов на работе мы довольно часто использовали Spectral Clustering, для наших данных он подходил великолепно и также великолепно разделял на кластеры.

Spectral Clustering - это алгоритм кластеризации, основанный на использовании спектральных методов. В отличие от K-means и других популярных методов кластеризации, может разделять данные на кластеры произвольной формы (не только сферической).

Алгоритм Spectral Clustering:
1. На основе матрицы A (матрица объект-признаки) формируется матрица смежности (как пример графа), где индексы строк и столбцов представляют узлы, а записи представляют отсутствие или наличие ребра между узлами
2. Следующим действием вычисляется матрица степеней. Степень узла - это количество ребер, соединяющихся с ним. Стоит также заметить, что у нас неориентированный граф. Матрица степени - это диагональная матрица, где значение по диагонали - это степень узла
3. Вычисляется нормальный Лапласиан – это еще одно матричное представление графа, чтобы его вычислить, вычитаем матрицу смежности из матрицы степени. Диагональ Лапласиана - это степень узлов, а диагональ вне - отрицательные веса ребер
4. Вычисляются собственные значения и векторы Лапласиана, сортируются собственные значения и далее по ним сортируются собственные векторы
5. Отсортированные собственные векторы кластеризуют при помощи KMeans

Основными преимуществами Spectral Clustering являются:
✅ Возможность обнаруживать кластеры произвольной формы
✅ Устойчивость к шумам и выбросам в данных
✅ Теоретическая обоснованность метода, основанного на свойствах спектра графа

Недостатками Spectral Clustering можно считать:
➖Высокая вычислительную сложность (увеличение времени)
➖Чувствительность к выбору параметров
➖Неэффективность на больших данных (память)

👍26🔥11❤‍🔥2🤯2❤1

3.34K views11:04

PyMagic

Курс на Stepik открыт ❤️

Открыла курс на stepik, уже сейчас вы можете получить сертификат, а кто-то уже его получил. Для новых пользователей он будет платным, чтобы фильтровать входящий поток студентов.

Для тех, кто уже на курсе и прошел 80%, либо скоро пройдет, друзья, для вас он и остается бесплатным. Просьба, замолвьте за курс в отзывах пару добрых слов, для этого нужно выделить всего то 1 минуту в вашем бешенном графике, чтобы написать хотя бы "спасибо".

Кто хочет поддержать не словом, а делом, то на бусти вы можете задонатить 100 рублей за уже разработанный курс, либо просто отправить донат с любой суммой, которую вам не жалко.

❤80👍15🔥5❤‍🔥3😍1

3.07K views17:15

PyMagic

КАК УСПЕШНО ПРОХОДИТЬ СОБЕСЕДОВАНИЯ ☝️

Привет, друзья! Многие из вас сейчас находятся в поиске первой работы, а кто-то, возможно, хочет сменить прежнюю. За последние несколько лет я провела не мало собеседований, и обращала внимания не только на технические навыки кандидата: например, на лайв коддинг, знание теории алгоритмом машинного обучения, статистики и прочее. Но и на заинтересованность кандидата в деятельности компании, в которую он стремиться попасть…

🙃 Очень грустно наблюдать, когда кандидат ничего не знает об области, в которой хочет работать. Чаще всего это касается начинающих специалистов. Не будем скрывать, что конкуренция на рынке высокая, и при подготовке к собеседованию стоит обращать внимание на многие вещи.

💭 Приведу пример. Кандидат проходит собеседование в медицинскую компанию. И на вопрос: «Какие задачи были бы вам интересны в данной области?», ответить: «Ну мне просто интересна медицина» - кажется, будет не совсем корректно.

📚 Перед собеседованием было бы неплохо изучить задачи, которые сейчас решаются с помощью машинного обучения в выбранной компании. Вам необязательно знать про эту область «от и до».

😎 «Мне известны несколько видов задач в данной области. На курсе по deep learning мы подробно разбирали, как работают сверточные нейронные сети, поэтому мне было бы интересно поработать над задачей диагностики заболеваний по результатам рентгенологических исследований – классифицировать изображения в зависимости от диагноза. Также мне была бы интересна задача предсказания молекулярных свойств: предсказания некоторых свойств молекул, которые точно определяют, может ли молекула быть использована как лекарство» - такой ответ звучит в десятки раз лучше предыдущего. Очень важно, что он позволяет продолжить с вами разговор, расспросить подробнее о ваших знаниях и желаниях.

🙄 Также мне встречались кандидаты, которые утверждали, что им бесконечно интересна деятельность компании, в которую они старались попасть. Однако, на типичные вопросы (например, про метрики качества или тестирование новых моделей) кандидат ничего не мог ответить, и даже отказывался рассуждать. Это еще хуже, так как рассуждая, вы даете возможность интервьюеру направить вас в нужную сторону.

Подведем итог. Перед собеседованием:

✅ Интересуемся деятельностью компании. Узнаем какие задачи решаются внутри компании.
✅ Читаем несколько статей про применения машинного обучения в этой деятельности.
✅ Выписываем несколько алгоритмов машинного обучения, которые применяются в данной области. Например, если хотите в медицинскую сферу, немного углубитесь в deep learning: почитайте про молекулярные графы, генеративные состязательные сети, сверточные нейронные сети и т.п. Если идете на собеседование в компанию, занимающуюся разработкой рекомендательных систем, почитайте про коллаборативную фильтрацию, фильтрацию, основанную на контенте, изучите подходы оценки качества рекомендаций…
✅ Формируем четкий ответ на вопрос «Чем бы вы хотели заниматься в нашей компании?
✅ *Если вы очень хотите попасть в какую-либо конкретную область, попробуйте сделать небольшой проект по данной тематике. Изучите самые популярные библиотеки, которые используются в данной области. Можно попробовать найти бесплатные курсы и пройти их.

🔥36👍14

3.18K views08:59

PyMagic

📑Тематическое моделирование / Tutorial

Тематическое моделирование - это метод, используемый для идентификации скрытых тем в коллекции документов.

https://youtu.be/o1I0Y7upBVs

📌Алгоритмы тематического моделирования позволяют автоматически найти скрытые темы в текстовых данных, выявляя слова и фразы, которые часто встречаются вместе. Например, в коллекции документов, связанных с путешествиями, слова "отпуск", "пляж" и "гостиница" могут часто встречаться вместе, указывая на наличие темы связанной с отдыхом.

🧠 Одним из распространенных алгоритмов тематического моделирования является LDA (Latent Dirichlet Allocation). LDA изначально был предложен в 2003 году Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом. Алгоритм основан на моделировании документа как смеси тем, а каждая тема представляется распределением вероятностей над словами.

💻 В новом видео мы попробуем протестировать работу LDA на примере спарсенных отзывов с сайта М.Видео, а точнее используем позитивные отзывы на компьютерные мониторы разных брендов. Мы проведем предварительную обработку теста, посмотрим какие метрики можем использовать для оценки разбиения на темы, а также попробуем найти оптимальное кол-во тематик.

Если вы хотите подробнее узнать про тематическое моделирование и в целом про ML, то регистрируйтесь на курс по Data Science для начинающих старт 27 марта.

YouTube

Data Science Tutorial / Тематическое моделирование LDA на примере отзывов М.Видео

Соревнование Data Fusion Contest 2023 с призовым фондом 2 млн рублей и возможностью трудоустройства https://ods.ai/tracks/data-fusion-2023-competitions?utm_source=youtube&utm_medium=video&utm_campaign=dfs_q1_2023&utm_content=video&utm_term=miracl6
Erid: 2VtzqxZ6TpH…

🔥24👍2

3.16K viewsedited 12:03

PyMagic

Новая версия - GPT-4 🧠

Microsoft (совместно с OpenAI) хочет запустить ChatGPT-4 уже на следующей неделе (но это не точно).

✅ Сейчас ChatGPT-3 может отвечать только в текстовом формате, но как раз отличие 4 версии от 3 в том, что новая версия будет мультимодальной: перевод текста в изображение, генерация музыки на основании текста и видео.

Разработчики утверждают, что не будет танцев с бубнами именно с точки зрения использования различных языков: можно задать вопрос на немецком и получить ответ на английском, а можно и на том, котором задал.

Что интересно, в качестве запроса можно будет подавать не только текст, но и аудио, видео, изображения.

⚠️Но мы помним на опыте GPT-3, что не всегда ответы модели являются полностью достоверными и требуется валидация. Но насколько поняла, компания как раз сейчас занимается этой проблемой, такая задача в принципе является довольно сложной.

👍26

2.84K views12:00

PyMagic

MLFlow для чего и зачем он Data Scientist?

Иногда довольно тяжело отслеживать результаты переобучения модели, помнить все метрики, которые вы получили по предыдущей версии модели и еще куда-то записывать текущие. Дополнительно ведь нужно сохранять саму версию модели. Представьте, что подобных моделей становится 5, 10, 20 и может больше. И возникает уже проблема в контроле. Но, к счастью, есть специальные для этого библиотеки, которые позволяют вам управлять полным жизненным циклом моделей машинного обучения.

Сегодня мы рассмотрим MLFlow — это популярный Open Source-фреймворк, предназначен для решения MLOps-задач, с замечательным UI, а также довольно удобен в использовании.

Его основные преимущества:

✅ Отслеживание экспериментов: MLFlow сохраняет все метрики, параметры и файлы, связанные с вашими экспериментами по обучению моделей. Это позволяет легко воспроизвести, оптимизировать и сравнивать разные эксперименты
✅ Регистрация моделей: вы можете регистрировать обученные модели в MLFlow, чтобы отслеживать их производительность и версии
✅ Упаковка моделей: MLFlow упрощает перенос обученных моделей в продакшн
✅ Оптимизация гиперпараметров: MLFlow интегрирован с инструментами для оптимизации гиперпараметров, такими как Optuna
✅ Совместимость: MLFlow совместим со многими библиотеками машинного обучения, такими как scikit-learn, TensorFlow, PyTorch, LightGBM, Keras, и др.

MLFlow состоит из четырех основных компонентов:

📌Tracking: позволяет логировать параметры, метрики и файлы, связанные с экспериментами по обучению моделей. Это помогает воспроизводить, оптимизировать и сравнивать эксперименты
📌Projects: способ организации и описания кода, позволяет воспроизводить эксперимент в другом окружении
📌Models: позволяет регистрировать обученные модели, отслеживать их производительность и версии
📌Model Registry: позволяет хранить, отслеживать, вызывать и восстанавливать модели. Это упрощает переход от экспериментов к продакшену

Также MLFlow поддерживает развертывания на локальных серверах, Kubernetes, Azure Machine Learning и др.

В целом, MLFlow предоставляет инструменты для управления полным жизненным циклом моделей машинного обучения от экспериментов до продакшна. Это помогает Data Scientist быть более продуктивными и сосредоточиться на разработке моделей.

👍32❤1🔥1

2.67K views11:30

PyMagic

🔁 MLOps. Внедрение моделей

Если вы думаете, что все заканчивается кодом в Jupyter для Data Scientist, то это не так. Если мы хотим использовать как-то в дальнейшем наши наработки в реальных проектах, ежемесячно, а может и для разных продуктов, нам важно обратить внимание на такую тему как MLOps.

MLOps - это методология, которая объединяет ML и DevOps. Она позволяет создавать, развертывать и поддерживать модели машинного обучения (МО) более эффективно и надежно.

MLOps включает в себя несколько этапов:
📌 Сбор данных - на этом этапе собираются данные, которые будут использоваться для обучения моделей МО. Важно убедиться, что данные соответствуют требованиям качества и полноты, и что они не содержат ошибок или искажений.
📌Подготовка данных - на этом этапе данные очищаются, обрабатываются и преобразуются в формат, пригодный для обучения модели.
📌Обучение модели - на этом этапе создается и обучается модель ML. Важно выбрать правильный алгоритм ML и настроить его параметры, чтобы достичь наилучших результатов.
📌Тестирование и оценка - модель тестируется на отложенных данных, чтобы убедиться, что она работает правильно. Это также включает оценку производительности модели и выбор метрик для ее измерения.
📌Развертывание - модель развертывается в производственной среде и интегрируется с другими системами.
📌Мониторинг - производится мониторинг работы модели в производственной среде и ее эффективности.
📌Обслуживание и сопровождение - модели ML должны регулярно обслуживаться и обновляться, чтобы сохранять высокую производительность. Это может включать в себя обновление данных, переобучение моделей и внесение изменений в алгоритмы МО.

Вы уже можете заметить, насколько непростой процесс, потому что помимо прочего, вам необходимо также налаживать связь между всеми этапами MLOps.

👍33🔥5

2.66K views13:20

PyMagic

Отзывы 💭

Давайте сегодня поговорим об отзывах с курса. Почему это важно, во-первых, конечно же это результаты нашей работы, не только моей, но и ребят. Я думаю, что им будет очень приятно также читать эти посты, так как они помнят свой путь и к чему они в итоге пришли.

Во-вторых, в отзыве также бывают и рекомендации к курсу, а это важно, ничего не может быть идеальным, мы берем это на заметку + конечно же обратная связь во время курса.

На картинках вы увидите только малую долю отзывов, которые пишут по итогу курса, очень много пишут мне лично и во время. Вы наверное уже видели, что писали ребята с прошлых потоков в чате в телеге.

📃 Я взяла только малую часть текста отзывов, чтобы на картинке это смотрелось лаконично и было довольно удобно читать тезисы ))

Это все реальные отзывы, реальных людей, кто устроился на работу.

Ваш труд + терпение + знания, которые мы даем, творят чудеса. Хотя с другой стороны это не совсем чудеса, так как все довольно логично: что делаешь, то и получаешь (устроился на работу, либо повысился в должности и так далее).

Также хочу сказать ребятам моим выпускникам, студентам, что вы большие молодцы, очень здорово, что вы трудитесь, не сдаетесь, а ведь обучение - это всегда стресс. Хочется вам пожелать больших высот на работе, интересных и крутых проектов, а также чтобы работа приносила вам удовольствие ❤️

Про сам курс:

⚠️ 4-ый поток начинается 27 марта, у нас осталось 5 мест, мы не берем много людей, чтобы каждому студенту уделить внимание.

Подробная информация по курсу на сайте PyMagic

👍20❤14🔥3

3.32K views12:40

About

Blog

Apps

Platform