Базовые команды Linux для улучшения рабочего процесса обработки данных. Это даст вам возможность автоматизировать задачи, создавать конвейеры, получать доступ к файловым системам и эффективно использовать команды для работы с данными.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2👎2🔥1
Как специалисты по анализу данных мы используем Jupyter Notebook практически каждый день – от загрузки данных до создания и развертывания моделей с его помощью.
Мне нравится Jupyter Notebook за её простой и удобный дизайн и при этом Jupyter незаменим для решения любых python-ориентированных задач. В частности, Jupyter поддерживает возможность запуска и тестирование скриптов с множеством датасетов.
Однако, при всей простоте этого инструмента, мы часто склонны совершать ошибки, которые приводят к потере времени и увеличению затрат мощности.
В этой статье мы расскажем о некоторых советах и хитростях, которые должен знать каждый специалист по работе с данными. Эти трюки помогут сэкономить время и увеличить продуктивность работы.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4❤1🥴1🏆1
Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.
Для специалиста Data Science важны следующие направления математики:
- статистика;
- теория вероятностей;
- математический анализ;
- линейная алгебра.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥2❤1🌚1
🗣 Делаем проект по анализу речи на Python
Представьте ситуацию: вас назначили спикером на мероприятии, и вы даже знаете, о чем хотите рассказать аудитории. Но будет ли публикой воспринят ваш доклад так, как вы себе это представляли? Давайте посмотрим, что может пойти не так, и как это исправить.
Как часто нам приходится выступать с докладом, презентацией, проводить обучение, быть спикером на конференции? Если деятельность напрямую не связана с человеческим общением, навык грамотно доносить свою точку зрения теряется естественным образом. Друзья и близкие зачастую воспринимают нас “как есть”, исключая обратную связь для сохранения отношений. Несмотря на лояльность друзей и коллег, практика публичных выступлений важна и необходима для поддержания способности передавать свои мысли и чувства.
Данное исследование поможет разобраться с нашими вербальными привычками и подсветит зоны роста. К его созданию меня подтолкнул спикер одного из youtube каналов it-направленности. Его речь, наполненная идиомами и вводными словами, мешала восприятию основного полезного контента. Впоследствии родилась идея перевести аудиозаписи роликов в текст и выяснить, какие выражения чаще других перегружают речь. Первой задачей стала транскрибация целевой аудиодорожки, второй – анализ текста, третьей — выводы и работа над ошибками.
✔️ Читать дальше
🖥 Код
@data_analysis_ml
Представьте ситуацию: вас назначили спикером на мероприятии, и вы даже знаете, о чем хотите рассказать аудитории. Но будет ли публикой воспринят ваш доклад так, как вы себе это представляли? Давайте посмотрим, что может пойти не так, и как это исправить.
Как часто нам приходится выступать с докладом, презентацией, проводить обучение, быть спикером на конференции? Если деятельность напрямую не связана с человеческим общением, навык грамотно доносить свою точку зрения теряется естественным образом. Друзья и близкие зачастую воспринимают нас “как есть”, исключая обратную связь для сохранения отношений. Несмотря на лояльность друзей и коллег, практика публичных выступлений важна и необходима для поддержания способности передавать свои мысли и чувства.
Данное исследование поможет разобраться с нашими вербальными привычками и подсветит зоны роста. К его созданию меня подтолкнул спикер одного из youtube каналов it-направленности. Его речь, наполненная идиомами и вводными словами, мешала восприятию основного полезного контента. Впоследствии родилась идея перевести аудиозаписи роликов в текст и выяснить, какие выражения чаще других перегружают речь. Первой задачей стала транскрибация целевой аудиодорожки, второй – анализ текста, третьей — выводы и работа над ошибками.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2🔥2
Отличная бесплатная книга на английском предназначена для специалистов по данным, для изучения статистики.
📚 Книга
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥5❤2
Пост содержит в себе все ключевые элементы SQL, которые должен знать каждый специалист по Data Science. Этой статьей мы начинаем цикла статей – SQL для анализа данных.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4🔥2
🐼 Pandas для анализа данных. 33 функции библиотеки Pandas полезные в работе.
В этой статье я перечислю 33 лучших функций, встроенных в библиотеку Pandas, которые обычно используются для анализа данных, и, возможно, этих функций будет достаточно для выполнения какой-либо вашей задачи.
➡ ️ Читать дальше
@data_analysis_ml
В этой статье я перечислю 33 лучших функций, встроенных в библиотеку Pandas, которые обычно используются для анализа данных, и, возможно, этих функций будет достаточно для выполнения какой-либо вашей задачи.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥2❤1
✔️ 38 лучших библиотек для Data Science, Data Visualization и Машинного Обучения
Мы решили, что будем группировать все библиотеки по общим признакам, будь то библиотеки для машинного обучения или библиотеки для математики. Тем не менее, все 38 из них будут полезны для разработки в области Data Science.
➡️ Смотреть
@data_analysis_ml
Мы решили, что будем группировать все библиотеки по общим признакам, будь то библиотеки для машинного обучения или библиотеки для математики. Тем не менее, все 38 из них будут полезны для разработки в области Data Science.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤1🔥1
🔥 Data Science Math Skills
Великолепный бесплатный курс для датасаентистов от Duke University. Data Science Math Skills знакомит с математикой, на которой строится наука о данных.
Учащиеся, завершившие этот курс, овладеют навыками, основными теоремами и концепциями, которые должны знать все специалисты по данным, прежде чем переходить к более сложному материалу.
▪ Курс
@data_analysis_ml
Великолепный бесплатный курс для датасаентистов от Duke University. Data Science Math Skills знакомит с математикой, на которой строится наука о данных.
Учащиеся, завершившие этот курс, овладеют навыками, основными теоремами и концепциями, которые должны знать все специалисты по данным, прежде чем переходить к более сложному материалу.
▪ Курс
@data_analysis_ml
👍9❤2🔥2
Forwarded from Big Data AI
📚 20 лучших бесплатных книг по Python для начинающих и продвинутых программистов
Настоящий новогодний подарок всем Python разработчикам.
✔️ Смотреть список
@bigdatai
Настоящий новогодний подарок всем Python разработчикам.
✔️ Смотреть список
@bigdatai
👍7🔥2❤1
🔥 Обучение с подкреплением для реальных задач
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.
📚 Книга
@data_analysis_ml
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.
📚 Книга
@data_analysis_ml
👍8🔥6❤3
Большая часть недавних работ с искусственным интеллектом, найденных в Интернете, создана с использованием модели стабильной диффузии. Поскольку это инструмент с открытым исходным кодом, любой человек может легко создавать фантастические художественные иллюстрации, используя всего лишь текстовую подсказку.
В этой статье я собираюсь объяснить, как работает данная модель машинного обучения с открытым кодом.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🔥1
Давайте посмотрим правде в глаза. Фреймворк Pandas медленный. Когда у вас есть миллионы строк в вашей структуре данных, становится очень неприятно ждать в течение минуты выполнения одной строки кода. В конечном итоге, вы потратите больше времени на ожидание, чем на реальную аналитику.
Для решения этой проблемы существует множество библиотек. PySpark, Vaex, Modin и Dask – вот некоторые из них.
Сегодня я предлагаю ознакомиться с фреймом Polars.
pip install polars
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤2🔥2🤔1
В этой статье я превратил некоторые из своих заметок в 20 вопросов для собеседований, которые охватывают структуры данных, основные концепции программирования и лучшие практики Python.
Интересно, что многие из этих вопросов также задаются на собеседованиях по Data Science.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍9❤1🏆1
Бесплатный курс математические основы анализа данных.
Курс начинается с теории вероятности и линейной алгебры и постепенно переходит к и решениям, используемым в современных исследовательских работах, уделяя особое внимание фундаментальным математическим методам, которые используются на практике аналитиками данных. Курс наполнен множеством простых примеров, сотнями иллюстраций и пояснениями.
✔️ Курс
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍6❤3👎1
Нередко я сталкиваюсь с большими объемами данных, которые требуют дополнительной обработки с помощью известной всем библиотеки Pandas. Однако, загружая или сохраняя огромные датасеты, неприятно столкнуться с ошибкой Memory error. В таких ситуациях применение таких методов, как .drop_duplicates() (удаление дубликатов) или .dropna() (удаление пустых строк) слабо влияет на сокращение занимаемого объема памяти.
Существует несколько способов эффективного решения проблем с памятью.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥2🥰1
В реальных наборах данных пропущенные значения создают проблему для дальнейшей обработки. Большую ценность имеет подстановка или заполнение отсутствующих значений. К сожалению, стандартные «ленивые» методы, такие как простое использование медианы столбца или среднего значения, не всегда работают должным образом.
В 2021-ом году ко мне пришла идея создания алгоритма на основе методов машинного обучения с прогнозированием по каждому столбцу с пропусками. Данную идею я воплотил сначала схематично на бумаге.
pip install nona
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥7❤2😐1
Вы готовитесь к собеседованию по SQL для анализ данных? Тогда вы пришли в нужное место!
Это руководство поможет вам усовершенствовать свои навыки работы с SQL, вернуть уверенность в себе и быть готовым к работе!
Здесь вы найдёте подборку реальных вопросов для собеседований, задаваемых в таких компаниях, как Google, Oracle, Amazon, Microsoft и т.д. К каждому вопросу прилагается идеально написанный ответ, что экономит ваше время на подготовку к собеседованию.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥4🥰2🤨2👎1🤣1