Бесплатный курс по анализу данных на Python
Небольшой курс, рассказывающий об основах анализа данных. Здесь вы познакомитесь с несколькими библиотеками Python, такими как NumPy, Pandas, а также изучите SQL и не только.
Посмотреть можно тут:
https://tprg.ru/rGBy
#видео #курс #datascience
Небольшой курс, рассказывающий об основах анализа данных. Здесь вы познакомитесь с несколькими библиотеками Python, такими как NumPy, Pandas, а также изучите SQL и не только.
Посмотреть можно тут:
https://tprg.ru/rGBy
#видео #курс #datascience
Как оптимизировать проект Data Science с помощью Prefect
При отсутствии оптимизации в Data Science проекте может получиться так, что один процесс будет тормозить остальные при возможности разделения их работы независимо друг от друга.
Prefect — это фреймворк с открытым исходным кодом для построения рабочих процессов на Python. Он позволяет легко создавать, запускать и контролировать конвейеры данных различного масштаба, в том числе и устраняя проблему выше.
https://tprg.ru/pYfO
#datascience
При отсутствии оптимизации в Data Science проекте может получиться так, что один процесс будет тормозить остальные при возможности разделения их работы независимо друг от друга.
Prefect — это фреймворк с открытым исходным кодом для построения рабочих процессов на Python. Он позволяет легко создавать, запускать и контролировать конвейеры данных различного масштаба, в том числе и устраняя проблему выше.
https://tprg.ru/pYfO
#datascience
5 грязных трюков в соревновательном Data Science, о которых тебе не расскажут в приличном обществе
Такому вас точно не научат в школе или универе, на курсах вам тоже вряд ли дадут памятку по использованию грязных приёмчиков. Но тем не менее, эти хитрости и уловки лучше знать. Даже не для личного использования, но для возможности выявить нечестного оппонента.
Если интересно, как можно сжульничать на соревновании по Data Science, то переходите по ссылке и скорее читайте статью:
https://habr.com/ru/post/600067/
#datascience
Такому вас точно не научат в школе или универе, на курсах вам тоже вряд ли дадут памятку по использованию грязных приёмчиков. Но тем не менее, эти хитрости и уловки лучше знать. Даже не для личного использования, но для возможности выявить нечестного оппонента.
Если интересно, как можно сжульничать на соревновании по Data Science, то переходите по ссылке и скорее читайте статью:
https://habr.com/ru/post/600067/
#datascience
Как метод подмены задачи борется с несовершенством данных
Для того, чтобы понять зачем использовать этот метод, можно взглянуть на соревнования по анализу данных. Там этот метод применяется для максимально быстрого прохождения всех необходимых тестов даже в условиях не репрезентативности обучающей выборке и её сильном отличии от выборки тестовой.
Расписывать здесь, как именно это делается, слишком долго, поэтому предлагаем вам сразу перейти в статью и почитать подробное объяснение от опытного ML разработчика:
https://habr.com/ru/company/ru_mts/blog/648063/
#datascience
Для того, чтобы понять зачем использовать этот метод, можно взглянуть на соревнования по анализу данных. Там этот метод применяется для максимально быстрого прохождения всех необходимых тестов даже в условиях не репрезентативности обучающей выборке и её сильном отличии от выборки тестовой.
Расписывать здесь, как именно это делается, слишком долго, поэтому предлагаем вам сразу перейти в статью и почитать подробное объяснение от опытного ML разработчика:
https://habr.com/ru/company/ru_mts/blog/648063/
#datascience
Работа с отсутствующими значениями в Pandas
Отсутствующее значение в наборе данных отображается как вопросительный знак, ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?
На самом деле есть много способов. В этой статье рассмотрены типичные варианты на примере набора данных «Titanic». Эти данные являются открытым набором данных Kaggle. Подробнее:
https://habr.com/ru/post/663414/
#pandas #datascience
Отсутствующее значение в наборе данных отображается как вопросительный знак, ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?
На самом деле есть много способов. В этой статье рассмотрены типичные варианты на примере набора данных «Titanic». Эти данные являются открытым набором данных Kaggle. Подробнее:
https://habr.com/ru/post/663414/
#pandas #datascience
Топовые пакеты Python для очистки данных
Специалисты по данным вынуждены тратить уйму времени на то, что привести эти данные в порядок и очистить их от лишнего. К счастью, для этого уже существует множество различных пакетов, помогающих быстрее избавиться от мусора. Подробнее о них в статье:
https://nuancesprog.ru/p/15768/
#datascience
Специалисты по данным вынуждены тратить уйму времени на то, что привести эти данные в порядок и очистить их от лишнего. К счастью, для этого уже существует множество различных пакетов, помогающих быстрее избавиться от мусора. Подробнее о них в статье:
https://nuancesprog.ru/p/15768/
#datascience
Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas
С большими наборами данных работать сложно, особенно при отсутствии необходимых ресурсов. Если вы не располагаете достаточно мощным компьютером, то решить проблему такой обработки можно с помощью фрагментации данных. Как это сделать можно узнать здесь:
https://nuancesprog.ru/p/15805/
#datascience #pandas
С большими наборами данных работать сложно, особенно при отсутствии необходимых ресурсов. Если вы не располагаете достаточно мощным компьютером, то решить проблему такой обработки можно с помощью фрагментации данных. Как это сделать можно узнать здесь:
https://nuancesprog.ru/p/15805/
#datascience #pandas
Быстрое прототипирование в проектах анализа данных
Быстрое протитипирование снижает риски затрат при неуспешном проекте, а также помогает проверить готовность процессорв к использованию модели машинного обучения.
В этой статье вы узнаете на что стоит обращать внимание при прототипировании:
https://tproger.ru/articles/bystroe-prototipirovanie-v-proektah-analiza-dannyh/
#datascience
Быстрое протитипирование снижает риски затрат при неуспешном проекте, а также помогает проверить готовность процессорв к использованию модели машинного обучения.
В этой статье вы узнаете на что стоит обращать внимание при прототипировании:
https://tproger.ru/articles/bystroe-prototipirovanie-v-proektah-analiza-dannyh/
#datascience
3 худших совета по осваиванию науки о данных
Изучать что-то новое очень сложно. В поисках необходимых знаний приходится перебирать различные способы обучения. К сожалению, узнать об эффективности способа или полезности ресурса зачастую довольно сложно.
В этой статье собраны плохие советы, которым точно не стоит следовать при изучении науки о данных:
https://nuancesprog.ru/p/15835/
#datascience
Изучать что-то новое очень сложно. В поисках необходимых знаний приходится перебирать различные способы обучения. К сожалению, узнать об эффективности способа или полезности ресурса зачастую довольно сложно.
В этой статье собраны плохие советы, которым точно не стоит следовать при изучении науки о данных:
https://nuancesprog.ru/p/15835/
#datascience
Что такое выпас данных и почему он необходим?
Плохие данные приводят к принятию некачественных решений. Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам. Тут на помощь приходит выпас данных. Он позволяет более тщательно преобразовать, переформатировать и подготовить данные, чем при простой очистке.
Подробнее о методе:
https://habr.com/ru/company/piter/blog/675796/
#datascience
Плохие данные приводят к принятию некачественных решений. Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам. Тут на помощь приходит выпас данных. Он позволяет более тщательно преобразовать, переформатировать и подготовить данные, чем при простой очистке.
Подробнее о методе:
https://habr.com/ru/company/piter/blog/675796/
#datascience
Машинный перевод с двухсот языков, генерация бесконечных изображений от Microsoft и рефлексия нейросети о самой себе.
Подробнее о ярких новостях из мира Data Science можно прочитать в дайджесте от МТС Диджитал:
https://tprg.ru/z5Em
#datascience
Подробнее о ярких новостях из мира Data Science можно прочитать в дайджесте от МТС Диджитал:
https://tprg.ru/z5Em
#datascience
JupyterHub, или как перестать бояться pip install
JupyterHub — это тот же Jupyter, который ставится он на отдельный сервер и работает как клиент-серверное веб-приложение, позволяя автоматизировать и изолировать рабочее окружение каждого пользователя. Благодаря этому вам не надо думать об установке Jupyter и тратить локальные ресурсы.
Подробнее:
https://habr.com/ru/company/rostelecom/blog/689596/
#jupyter #datascience
JupyterHub — это тот же Jupyter, который ставится он на отдельный сервер и работает как клиент-серверное веб-приложение, позволяя автоматизировать и изолировать рабочее окружение каждого пользователя. Благодаря этому вам не надо думать об установке Jupyter и тратить локальные ресурсы.
Подробнее:
https://habr.com/ru/company/rostelecom/blog/689596/
#jupyter #datascience
«Вам курицу или рыбу?» — как рекомендательная система понимает чего вы хотите
Сегодня столько разнообразной информации, что легко запутаться в попытках найти нужное. Разработчики платформы по продаже фермерских продуктов подумали о том, как помочь пользователям выбрать среди обилия фермеров и их товаров именно те, которые им точно нужны и понравятся.
Для этого они разработали рекомендательную систему, которая состоит из трёх этапов. А вот каких именно и как это всё работает, узнаете здесь:
https://habr.com/ru/company/rshb/blog/701278/
#ml #datascience
Сегодня столько разнообразной информации, что легко запутаться в попытках найти нужное. Разработчики платформы по продаже фермерских продуктов подумали о том, как помочь пользователям выбрать среди обилия фермеров и их товаров именно те, которые им точно нужны и понравятся.
Для этого они разработали рекомендательную систему, которая состоит из трёх этапов. А вот каких именно и как это всё работает, узнаете здесь:
https://habr.com/ru/company/rshb/blog/701278/
#ml #datascience
Как получить данные в нужном формате с помощью Pandas
Специалистам по данным постоянно приходится приводить данные в нужный им вид. Иногда, очищая от лишнего, в других случаях меняя формат данных. Чаще всего применяются два формата данных: длинный и широкий.
В этой статье вы рассмотрите несколько примеров, чтобы понять, как именно выглядит каждый формат данных, а затем посмотрите, как конвертировать один формат в другой с помощью Pandas:
https://nuancesprog.ru/p/16466/
#pandas #datascience
Специалистам по данным постоянно приходится приводить данные в нужный им вид. Иногда, очищая от лишнего, в других случаях меняя формат данных. Чаще всего применяются два формата данных: длинный и широкий.
В этой статье вы рассмотрите несколько примеров, чтобы понять, как именно выглядит каждый формат данных, а затем посмотрите, как конвертировать один формат в другой с помощью Pandas:
https://nuancesprog.ru/p/16466/
#pandas #datascience
Data Science на Python для начинающих
Это видео научит вас почти всему, что вам нужно знать для анализа данных и построения модели машинного обучения. Смотрите в оригинале, с субтитрами или переведите его с помощью Яндекс.
https://youtu.be/BqfM9eeD6KA?list=PL7mOFdpoBB6QiW3_n7aKn_eHTCCftPJLw
#видео #datascience
Это видео научит вас почти всему, что вам нужно знать для анализа данных и построения модели машинного обучения. Смотрите в оригинале, с субтитрами или переведите его с помощью Яндекс.
https://youtu.be/BqfM9eeD6KA?list=PL7mOFdpoBB6QiW3_n7aKn_eHTCCftPJLw
#видео #datascience
Как из данных узнавать о том, что в продукте что-то пошло не по плану
К сожалению, мониторинг не всегда может выявить аномалии в работе продукта, потому что они не всегда вызваны багами или техническими ошибками. Но зато их можно обнаружить при анализе данных. Например, когда пользователи начинают совершать нестандартные действия.
Подробнее об этом расскажет продуктовый аналитик — тот, кто лично находит такие аномалии:
https://habr.com/ru/post/704988/
#datascience
К сожалению, мониторинг не всегда может выявить аномалии в работе продукта, потому что они не всегда вызваны багами или техническими ошибками. Но зато их можно обнаружить при анализе данных. Например, когда пользователи начинают совершать нестандартные действия.
Подробнее об этом расскажет продуктовый аналитик — тот, кто лично находит такие аномалии:
https://habr.com/ru/post/704988/
#datascience
Шпаргалка по DataFrame
DataFrame — ключевая структура данных Python-библиотеки pandas. В шпаргалке есть всё про основные операции с DataFrame. Акцент сделан на Data Wrangling — этапе работы с данными, когда данные преобразовываются из «сырого» формата в пригодный для аналитики.
Если вы инженер данных, аналитик или датасаентист — эта шпаргалка точно для вас.
#datascience
DataFrame — ключевая структура данных Python-библиотеки pandas. В шпаргалке есть всё про основные операции с DataFrame. Акцент сделан на Data Wrangling — этапе работы с данными, когда данные преобразовываются из «сырого» формата в пригодный для аналитики.
Если вы инженер данных, аналитик или датасаентист — эта шпаргалка точно для вас.
#datascience
В чём разница между дата-аналитиком и ML-инженером?
Разбираем обязанности вместе с реальными специалистами: https://tprg.ru/F956
#datascience #ml
Разбираем обязанности вместе с реальными специалистами: https://tprg.ru/F956
#datascience #ml
Работаем с данными через GUI
Познакомившись с Bamboolib вы будете жалеть, что не узнали о ней раньше. Она позволяет работать с фреймами данных pandas через графический интерфейс, что сильно упрощает задачу.
Познакомиться с её возможностями подробнее и установить можно по ссылке:
https://pypi.org/project/bamboolib/#description
#библиотека #datascience #pandas
Познакомившись с Bamboolib вы будете жалеть, что не узнали о ней раньше. Она позволяет работать с фреймами данных pandas через графический интерфейс, что сильно упрощает задачу.
Познакомиться с её возможностями подробнее и установить можно по ссылке:
https://pypi.org/project/bamboolib/#description
#библиотека #datascience #pandas
Forwarded from Точка входа в программирование
Data Science и Big Data: одно и то же или есть различия?
Некоторые люди считают эти термины чуть ли не синонимами, но это не верно. Data Science — междисциплинарная область, которая охватывает практически всё, что связано с данными. А вот Big Data, как можно догадаться из названия, занимается работой исключительно с большими объёмами данных.
Это самое базовое различие, но далеко не единственное. Отличия есть в областях применения, необходимых навыках, задачах и так далее. Всё в один пост не влезет, поэтому рекомендую прочитать эту статью, там всё разложено по полочкам.
#datascience #bigdata
Некоторые люди считают эти термины чуть ли не синонимами, но это не верно. Data Science — междисциплинарная область, которая охватывает практически всё, что связано с данными. А вот Big Data, как можно догадаться из названия, занимается работой исключительно с большими объёмами данных.
Это самое базовое различие, но далеко не единственное. Отличия есть в областях применения, необходимых навыках, задачах и так далее. Всё в один пост не влезет, поэтому рекомендую прочитать эту статью, там всё разложено по полочкам.
#datascience #bigdata