Я закрыл все самые сложные предметы своей сессии. Новый этап - 1 июня.
Думаю, что лето, благодаря этому продукту, пройдет максимально продуктивно..
Подробности позже..
Думаю, что лето, благодаря этому продукту, пройдет максимально продуктивно..
Подробности позже..
🔥4😈2
На самом деле изначально этот канал создавался как блог - Прохождение Cимулятора ML от karpov.cources.
Действительно интересно, насколько сильно я поднимусь в своих скиллах за такую скромную сумму(21,000), занимаясь при этом 3 месяца и достаточно упорно.
Кто не знает:
Симулятор ML - сервис, в котором поднята своя инфраструктура, которая имеет схожесть с огромным количеством больших компаний. Задачи в этой инфре - как практика в крупной компании.
Есть теоретические вкладки, есть качественно подобные ресурсы(видел спойлеры от BOGDANA), с которых черпать. Есть все для практики.
В общем, эксперимент.
Что я умею сейчас -> что будет через 3 месяца?
🔥 Покупка курса запланирована на 1 июня.
Действительно интересно, насколько сильно я поднимусь в своих скиллах за такую скромную сумму(21,000), занимаясь при этом 3 месяца и достаточно упорно.
Кто не знает:
Симулятор ML - сервис, в котором поднята своя инфраструктура, которая имеет схожесть с огромным количеством больших компаний. Задачи в этой инфре - как практика в крупной компании.
Есть теоретические вкладки, есть качественно подобные ресурсы(видел спойлеры от BOGDANA), с которых черпать. Есть все для практики.
В общем, эксперимент.
Что я умею сейчас -> что будет через 3 месяца?
Please open Telegram to view this post
VIEW IN TELEGRAM
karpov.courses
Симулятор Data Science
Задачи для практики по анализу данных, машинному обучению и AI. Школа karpov.courses.
❤10😈4❤🔥2👍1
Кстати это первый курс, который я купил дороже 2,000₽
Самый дорогой - курс по Решению Параметров ЕГЭ. За 1800₽.
Самый дорогой - курс по Решению Параметров ЕГЭ. За 1800₽.
🤯5😈4
Первый день симулятора (1/90)
Про выгорание и пр. - классно. Думаю, так и стоит начинать различные курсы. Типа смотрите, как надо, а теперь делайте. Мне понравилось.
За сегодня выполнил 4 задачки уровня Intern.
- Сходил в БД, сделал запросы, вспомнил базу SQL.
- Узнал для себя новые метрики, посчитал их с помощью numpy. Я и не знал, что стандартное деление ‘/‘ - медленное, а есть np.divide(), где можно, например, сразу проверить на ненулевой знаменатель)
- Все нужно было разобраться с регулярными выражениями, время пришло. Надо было оптимизировать код в 2 раза… И тут тоже не знал, что нужно компилить регулярную строку, ибо так быстрее, а если мы этого не сделаем, то компилиться она будет каждый раз с нуля…Удивительные вещи.
- Была задача на Pandas. Суть такова, что нужно заполнить NaN пропусками по группам. Самая распространенная задача - тупо заполнить средними, а тут целый .groupby() добавить!!
Посмотрел для себя .transform() удобная вещь, все руки не доходили ее потрогать на практике.
Ну и меганеочевидное условие…Должны заполнить целыми числами NaN’ы, кто ж знал, что нужно использовать .round(), а не .astype(int).
- Вообще, много чего нового узнал. И про pytest, и про pylint, и про MLflow(раньше работал ток с ClearML) и про сведение стандартных задач к аномалиям.
Продуктивность зашкаливает, мне понравилось, на самом деле.
Ну, а еще наконец допилил офигенный DashBoard с авторизацией, красивыми Histogramms, Polar Bars, поиском по датафреймам, выгрузке красивой(!!) в эксель. ETL(Extract-Transfrom-Load) пайплайном(строил полностью с нуля) полностью налажен.
Осталось к DashBoard прикрутить ML модельки, чтобы предсказывалось численное значение в этих данных..Могу запилить отдельный пост с демо и огромной статьей о том, как это было
Про выгорание и пр. - классно. Думаю, так и стоит начинать различные курсы. Типа смотрите, как надо, а теперь делайте. Мне понравилось.
За сегодня выполнил 4 задачки уровня Intern.
- Сходил в БД, сделал запросы, вспомнил базу SQL.
- Узнал для себя новые метрики, посчитал их с помощью numpy. Я и не знал, что стандартное деление ‘/‘ - медленное, а есть np.divide(), где можно, например, сразу проверить на ненулевой знаменатель)
- Все нужно было разобраться с регулярными выражениями, время пришло. Надо было оптимизировать код в 2 раза… И тут тоже не знал, что нужно компилить регулярную строку, ибо так быстрее, а если мы этого не сделаем, то компилиться она будет каждый раз с нуля…Удивительные вещи.
- Была задача на Pandas. Суть такова, что нужно заполнить NaN пропусками по группам. Самая распространенная задача - тупо заполнить средними, а тут целый .groupby() добавить!!
Посмотрел для себя .transform() удобная вещь, все руки не доходили ее потрогать на практике.
Ну и меганеочевидное условие…Должны заполнить целыми числами NaN’ы, кто ж знал, что нужно использовать .round(), а не .astype(int).
- Вообще, много чего нового узнал. И про pytest, и про pylint, и про MLflow(раньше работал ток с ClearML) и про сведение стандартных задач к аномалиям.
Продуктивность зашкаливает, мне понравилось, на самом деле.
Ну, а еще наконец допилил офигенный DashBoard с авторизацией, красивыми Histogramms, Polar Bars, поиском по датафреймам, выгрузке красивой(!!) в эксель. ETL(Extract-Transfrom-Load) пайплайном(строил полностью с нуля) полностью налажен.
Осталось к DashBoard прикрутить ML модельки, чтобы предсказывалось численное значение в этих данных..
🔥11👍2😈2
Dimension AI | Dmitry Sirakov pinned «На самом деле изначально этот канал создавался как блог - Прохождение Cимулятора ML от karpov.cources. Действительно интересно, насколько сильно я поднимусь в своих скиллах за такую скромную сумму(21,000), занимаясь при этом 3 месяца и достаточно упорно.…»
Второй день симулятора (2/90)
⁃ Задача STOCKS. Нужно было посчитать метрику GMV, разумеется, производительно. Здесь начались пляски с .div() у Pandas, сравнения построчно, inplace и прочие. Можно было и сдать задачу на 0.9 и без этих плясок. Но я хочу 1. Я ее сделал. А еще я узнал, для чего нужны скидки... В общем, лет 5 назад отец вслух рассуждал: "Вот зачем они скидки настоящие делают, они же прибыль себе рубят. Дим, вот ты знаешь?". Сейчас решаю эту задачу и понимаю, зачем нужны скидки и какую метрику они апают.На самом деле апают метрику вовлеченност(Retention), число покупателей в день(DAU) и пр.
- Задача Average Check. Сходил в ClickHouse, узнал про точные квантили, а еще никогда не работал с ClickHouse. Нашел нужную табличку, сделал запросик и все прекрасно.
- Задача DOCSTRING. КТО-НИБУДЬ ЗНАЛ ЧТО ЕЩЕ И К ДОКАМ ЕСТЬ НЕСКОЛЬКО СТАНДАРТОВ?
И что это реально проблема, один пишет по одному доку, другой по другому. Пользовался инструментом pyment, а также почти вручную написал доку к функции в формате NumpyDoc.
Занимался Скрапингом с помощью Selenium сегодня. Никогда не работал, либо пользовался дырами бекендеров и кидал прямые запросы в их БД, либо BS4.
А в этот раз я зашел на сайтик, сам авторизировался и спарсил оттуда все данные для своего анализа(аж датафреймами. Можно было колхозно поячеечно, чего в Гугле навалом. А я сразу таблицу и всё). Буду пополнять свой DashBoard данными.
Решено 7/57 задач в симуляторе пока что.
⁃ Задача STOCKS. Нужно было посчитать метрику GMV, разумеется, производительно. Здесь начались пляски с .div() у Pandas, сравнения построчно, inplace и прочие. Можно было и сдать задачу на 0.9 и без этих плясок. Но я хочу 1. Я ее сделал. А еще я узнал, для чего нужны скидки... В общем, лет 5 назад отец вслух рассуждал: "Вот зачем они скидки настоящие делают, они же прибыль себе рубят. Дим, вот ты знаешь?". Сейчас решаю эту задачу и понимаю, зачем нужны скидки и какую метрику они апают.
- Задача Average Check. Сходил в ClickHouse, узнал про точные квантили, а еще никогда не работал с ClickHouse. Нашел нужную табличку, сделал запросик и все прекрасно.
- Задача DOCSTRING. КТО-НИБУДЬ ЗНАЛ ЧТО ЕЩЕ И К ДОКАМ ЕСТЬ НЕСКОЛЬКО СТАНДАРТОВ?
И что это реально проблема, один пишет по одному доку, другой по другому. Пользовался инструментом pyment, а также почти вручную написал доку к функции в формате NumpyDoc.
Занимался Скрапингом с помощью Selenium сегодня. Никогда не работал, либо пользовался дырами бекендеров и кидал прямые запросы в их БД, либо BS4.
А в этот раз я зашел на сайтик, сам авторизировался и спарсил оттуда все данные для своего анализа(аж датафреймами. Можно было колхозно поячеечно, чего в Гугле навалом. А я сразу таблицу и всё). Буду пополнять свой DashBoard данными.
Решено 7/57 задач в симуляторе пока что.
❤4🔥3😈2👀2
Третий день симулятора (3/90)
⁃ Задачи в ASYMMETRIC METRICS. А всегда ли мы должны наказывать за перепрогноз и недопрогноз одинаково? Я почти не задумывался об этом, а зря. Действительно прекрасна аналогия с такси. Если мы предсказали время ожидания такси побольше, а такси на самом деле приехало раньше - так для клиента это круто, а если мы предсказали поменьше, а клиент ждал больше - наоборот, скудно. А решается это все с помощью штрафов и их интепретации. Прочитал прекрасную статью по метрикам, на которую ссылались в курсе. Понимаю теперь их прикладной смысл, когда и в какой совокупности их использовать. Придумал две свои собственные функции потерь - одна для перепрогноза, другая для недопрогноза. Идеально. Одна линейная, вторая на экспонентах.
На самом деле с прохождением симулятора я стал понимать суть бизнеса. Что мл ради мл никому не нужен, что нужно думать о конечном потребителе, о деньгах. А модельки построить - каждый может. А понять потребность бизнеса, переформулировать задачу и сделать так, чтобы решение приносило деньги - не каждый. Я уж не говорю о том, чтобы правильно вообще спроектировать ML System. Я до сих пор не жалею потраченные средства на этот курс.
Немного лайф хистори. Прихожу на работу, говорят, смотри, есть график, нам его в статью, но он нам не нравится пушо некрасиво и не интерпретируемо, надо исправить. Сходил на GitLab, достал данные, ноутбук. Разобрался, отрефакторил, построил новые графики за 3 часа. Просто прекрасно.
Написал на Streamlit и задеплоил небольшое приложение, которое просто ChatGPT иллюстрирует. Без впн, быстро, удобно, с интерфейсом. Супер!
Решено 8/57 модулей в симуляторе. Оказывается, 1 модуль != 1 задача.
⁃ Задачи в ASYMMETRIC METRICS. А всегда ли мы должны наказывать за перепрогноз и недопрогноз одинаково? Я почти не задумывался об этом, а зря. Действительно прекрасна аналогия с такси. Если мы предсказали время ожидания такси побольше, а такси на самом деле приехало раньше - так для клиента это круто, а если мы предсказали поменьше, а клиент ждал больше - наоборот, скудно. А решается это все с помощью штрафов и их интепретации. Прочитал прекрасную статью по метрикам, на которую ссылались в курсе. Понимаю теперь их прикладной смысл, когда и в какой совокупности их использовать. Придумал две свои собственные функции потерь - одна для перепрогноза, другая для недопрогноза. Идеально. Одна линейная, вторая на экспонентах.
На самом деле с прохождением симулятора я стал понимать суть бизнеса. Что мл ради мл никому не нужен, что нужно думать о конечном потребителе, о деньгах. А модельки построить - каждый может. А понять потребность бизнеса, переформулировать задачу и сделать так, чтобы решение приносило деньги - не каждый. Я уж не говорю о том, чтобы правильно вообще спроектировать ML System. Я до сих пор не жалею потраченные средства на этот курс.
Немного лайф хистори. Прихожу на работу, говорят, смотри, есть график, нам его в статью, но он нам не нравится пушо некрасиво и не интерпретируемо, надо исправить. Сходил на GitLab, достал данные, ноутбук. Разобрался, отрефакторил, построил новые графики за 3 часа. Просто прекрасно.
Написал на Streamlit и задеплоил небольшое приложение, которое просто ChatGPT иллюстрирует. Без впн, быстро, удобно, с интерфейсом. Супер!
Решено 8/57 модулей в симуляторе. Оказывается, 1 модуль != 1 задача.
🔥7😈3
Четвертый день симулятора (4/90)
Сегодня нет симулятора. Пол дня я убил в больницу, в которую меня в итоге не пустили.
Пол дня я убил на лабы для автомата.
А оставшиеся часы я занимался кластеризацией студентов по командам. Достаточно эффективно.
Всем сладких снов ✨
Сегодня нет симулятора. Пол дня я убил в больницу, в которую меня в итоге не пустили.
Пол дня я убил на лабы для автомата.
А оставшиеся часы я занимался кластеризацией студентов по командам. Достаточно эффективно.
Всем сладких снов ✨
👍4😈3
Пятый день симулятора (5/90)
Наконец нормально съездил в больницу, конечно себя оч неважно чувствовал, но норм.
Целый день работа, целый. Данные, визуализация, парсить, selenium, студенты :(((
по симулятору решил одну задачу на ночь - DAU. Я с SQL вообще не дружу, поэтому задача решилась за 20 минут.
Сходил в ClickHouse, нашел табличку, сделал запрос, получил че хотел. Сдал - зашло со 2ой попытки, правда странная проверка. Задал вопрос, жду ответа-с.
Решено 9 уроков(ну так на сайте написано) из 22 уровня Intern. Задачи даются мегалегко, задачи на уровне Junior уже интереснее и занимательнее, а пока прям вводный-ввод, скучновато местами, но очень сильно дополняет мои знания и недостатки, поэтому зачет.
Наконец нормально съездил в больницу, конечно себя оч неважно чувствовал, но норм.
Целый день работа, целый. Данные, визуализация, парсить, selenium, студенты :(((
по симулятору решил одну задачу на ночь - DAU. Я с SQL вообще не дружу, поэтому задача решилась за 20 минут.
Сходил в ClickHouse, нашел табличку, сделал запрос, получил че хотел. Сдал - зашло со 2ой попытки, правда странная проверка. Задал вопрос, жду ответа-с.
Решено 9 уроков(ну так на сайте написано) из 22 уровня Intern. Задачи даются мегалегко, задачи на уровне Junior уже интереснее и занимательнее, а пока прям вводный-ввод, скучновато местами, но очень сильно дополняет мои знания и недостатки, поэтому зачет.
❤5👍2😈2
Dimension AI | Dmitry Sirakov
Пятый день симулятора (5/90) Наконец нормально съездил в больницу, конечно себя оч неважно чувствовал, но норм. Целый день работа, целый. Данные, визуализация, парсить, selenium, студенты :((( по симулятору решил одну задачу на ночь - DAU. Я с SQL вообще…
А да, с визуализацией ещё поигрался, забавно и быстро.
🤔3
Седьмой день симулятора (7/90)
3 задачи на TOP-10. Сходил уже в PostgreSQL, спокойненько сдал задачи с первого(или почти первого раза). На таком уровне мне SQL нравится. Максимально продуктивно, отработка самых частых сценариев. Прекрасно.
Почитал про матчинг, пространство эмбедингов и наконец узнал, что такое Metric Learning.
Посмотрел интервью с разбором Валерия Бабушкина, всё гораздо-гораздо сложнее, но мне нравится, что в интервью я бы себя показал очень хорошо :3
Сегодня целый день отвечал на вопросы по мл, чат гпт и прочим штукам, а за завтра мне нужно нагенерить 20 дипломов, каждый из которых на 200 страниц.
3 задачи на TOP-10. Сходил уже в PostgreSQL, спокойненько сдал задачи с первого(или почти первого раза). На таком уровне мне SQL нравится. Максимально продуктивно, отработка самых частых сценариев. Прекрасно.
Почитал про матчинг, пространство эмбедингов и наконец узнал, что такое Metric Learning.
Посмотрел интервью с разбором Валерия Бабушкина, всё гораздо-гораздо сложнее, но мне нравится, что в интервью я бы себя показал очень хорошо :3
Сегодня целый день отвечал на вопросы по мл, чат гпт и прочим штукам, а за завтра мне нужно нагенерить 20 дипломов, каждый из которых на 200 страниц.
👍6
Dimension AI | Dmitry Sirakov
Седьмой день симулятора (7/90) 3 задачи на TOP-10. Сходил уже в PostgreSQL, спокойненько сдал задачи с первого(или почти первого раза). На таком уровне мне SQL нравится. Максимально продуктивно, отработка самых частых сценариев. Прекрасно. Почитал про матчинг…
А зачем там три рации под столом?
Forwarded from BOGDAN
Я ищу лишь одного: покоя, умиротворения и вот этой гармонии, от слияния 0.9999.. скора в симуляторе с 1.0, от созерцания 20/20 зеленых тестов в задаче с полным баллом, от пустого трейсбека ошибки и пропуска на следующий степ
🥰3👍2
Словил простуду Иль ещё что, хз.
Голова сильно болит, а грудь разрывает от такого сильного кашля :(
Сегодня без симулятора :(
Голова сильно болит, а грудь разрывает от такого сильного кашля :(
Сегодня без симулятора :(
😢5