Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🧩 FILL-MASK моделирование!

Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение специфических проблем. Например, данные модели применяются для извлечения информации из узкоспециализированных источников, что в дальнейшем позволит исследовать данные по заданной теме, извлекать необходимые объекты или классифицировать их.

Fill-mask максимально полезен в том случае, когда необходимо получить статистическое понимание языка, на котором обучалась или будет обучаться модель.

Принцип работы MLM (маскированное языковое моделирование)

Для того, чтобы обучить модель определять и адекватно предлагать слова, которые можно будет вставить в пропуск, ей необходимо случайным образом маскировать 15% слов на входе до тех пор, пока она не сможет предсказать маскированные в предложении слова.

Этот принцип значительно отличается от традиционных рекуррентных нейронных сетей, которые видят слова одно за другим, или от авторегрессионых GPT-моделей, которые внутри себя маскируют будущие лексемы.

Fill-mask моделирование позволяет изучать двунаправленное представление предложения, иными словами, выражает объектные, определительные, обстоятельственные синтаксические отношения.

➡️ Читать дальше
⚙️ Модель


@data_analysis_ml
👍61🔥1
Как использовать MSE в науке о данных

В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь  —  это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции потерь. MSE может быть либо тем, либо другим, либо третьим  —  выбор за исследователем.

Чтобы было понятнее, что имеется в виду под оценкой производительности и оптимизацией, вместо отвлеченных рассуждений обратимся к конкретным примерам. Для демонстрации будем использовать среднеквадратичную ошибку (MSE), но имейте в виду: MSE  —  это полезная метрика, но не панацея. Итак, погрузимся в тему!

Что такое MSE?
Среднеквадратичная ошибка (MSE)  —  одна из множества метрик, которые используются для оценки эффективности модели. Для расчета MSE необходимо возвести в квадрат количество обнаруженных ошибок и найти среднее значение.

Зачем вычислять MSE?
Это можно сделать для 2 целей.

Оценка производительности  —  визуальное определение того, насколько хорошо работает модель. Другими словами, это возможность быстро понять, с чем предстоит работать.
Оптимизация модели позволяет выяснить, достигнуто ли наилучшее из возможных соответствий или же требуются улучшения. Другими словами, определить, какая модель максимально подходит для работы с выбранными точками данных.

➡️ Читать дальше
🎞 MSE

@data_analysis_ml
👍14🔥32👎1
✔️ PANDAS VS SQL для работы с данными.

Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и примерно в 2012 году стала стремительно набирать популярность Python-библиотека Pandas. И вот сегодня уже сложно представить работу Data Scientist’а без данного модуля.

Не буду подробно углубляться в то, что предоставляют из себя оба инструмента ввиду их популярности среди аналитиков и исследователей данных, но небольшую справку все-таки оставим:

Итак, SQL (язык структурированных запросов — от англ. Structed Query Language) — это декларативный язык программирования, применяемый для получения и обработки данных с помощью создания запросов внешне похожих по синтаксису на предложения, написанные на английском языке.

Pandas — это модуль для обработки и анализа данных в табличном формате и формате временн́ых рядов на языке Python. Библиотека работает поверх математического модуля более низкого уровня NumPy. Название модуля происходит от эконометрического понятия «панельные данные» (или как его еще называют «лонгитюдные данные» — это данные, которые состоят из повторяющихся наблюдений одних и тех же выбранных единиц, при этом наблюдения производятся в последовательные периоды времени).

➡️ Читать дальше

@data_analysis_ml
👍14🔥42
⚙️ 9 концепций, которые вы должны изучить для своих интервью по науке о данных

С появлением Интернета бесконечные ресурсы доступны всего одним щелчком мыши, и в результате мы можем получить доступ к любой логике и синтаксисам, которые мы ищем, но это может быть как благословением, так и проклятием. Если не использовать разумно, чрезмерная зависимость от Интернета может замедлить нас. Мы склонны чрезмерно полагаться на Интернет для простой логики и синтаксиса Python, и поэтому мы не тренируем свой мозг запоминать эти концепции. Итак, каждый раз, когда мы используем даже часто используемые синтаксисы, мы привыкаем их гуглить — это нас тормозит, и другие видят в нас дилетантов.

Итак, каково решение?

Вы ищете синтаксис/концепцию в Google первые 2-3 раза, когда вы ее используете, а затем пытаетесь реализовать ее самостоятельно на 4-й раз.

В этом блоге я познакомлю вас с некоторыми из наиболее эффективных концепций науки о данных, которые вам следует изучить, чтобы сэкономить время и стать более продуктивным специалистом по науке о данных. Если вы уже знакомы с этими концепциями, вы можете использовать этот блог, чтобы освежить свое понимание

➡️ Читать дальше

@data_analysis_ml
👍11👎32🔥2
📓 Алгоритмы обработки текста: 125 задач с решениями

Сопоставление строк - одна из самых старых тем в теории алгоритмов, но по-прежнему занимает важное место в информатике. За прошедшие 20 лет мы видели технологические прорывы в таких разных приложениях, как информационный поиск и сжатие информации. Эта книга, представляющая собой богатое собрание задач и упражнений по важнейшим вопросам алгоритмов обработки текстов и комбинаторных свойств слов, предлагает студентам и исследователям приятный и прямой путь к изучению и практическому освоению концепций повышенного уровня. Задачи взяты из многочисленных научных публикаций - как уже ставших классическими, так и сравнительно новых. Начав с основ, авторы рассматривают все более сложные задачи по комбинаторным свойствам слов (включая слова Фибоначчи и Туэ-Морса), поиску строк в тексте (включая алгоритмы Кнута-Морри-са-Пратта и Бойера-Мура), эффективным структурам данных для представления текстов (включая суффиксные деревья и суффиксные массивы) и сжатия текста (включая методы Хаффмана, Лемпеля-Зива и Барроуза-Уилера). Издание будет полезно в качестве пособия для подготовки к олимпиадам по информатике.

➡️ Книга

@data_analysis_ml
👍121🔥1
🧬 Основы биоинформатики. Работаем с биологическими данными.

Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование перестало быть чисто "техническим" инструментом.

Сегодня программирование позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Оно позволяет понять, как устроена биоинженерная машина внутри наших клеток, какие функции выполняет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов.

Языков программирования в современном мире довольно много. Однако, для аналитических и научных задач самым распространенным является Python. Я думаю, что сейчас каждый хотя бы примерно представляет, что такое Python. Поэтому, я не буду останавливаться здесь подробно на его определении, скажу лишь следующее.

Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администрировании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов.

Давайте посмотрим теперь, какие задачи биологии Python способен решить

➡️ Читать дальше

@data_analysis_ml
👍7🔥21
📊 Как создавать дашборды, которыми будут пользоваться

Зачем нужен дашборд?
Дашборды – экранные формы информационно-аналитических систем — это современные отчёты, позволяющие принять управленческое решение быстро и обосновано. Классический вариант – это бумажное сообщение в определенной форме, где изложены данные, характеризующие процессы и события. Сотрудники, принимающие решения, изучают материал – и решают, что делать или от чего воздержаться. Дашбордами пользуются в продажах, маркетинге, политике, производстве, охране природы, путешествиях и так далее. Современный цифровой дашборд работает быстрее своего бумажного аналога, может быть интерактивным и содержать данные для разных категорий пользователей.

На тактическом уровне причины создания дашбордов могут быть разными:

Оцифровка бумажных отчетных форм. Например, в компании для руководства регулярно готовилась презентация со вполне определенной информацией. Эту презентацию перевели в цифровой вид, автоматизировали сбор и обработку данных — и получили экранную форму в системе.
Осознанная необходимость мониторинга в ходе развития. Компания проанализировала бизнес, выработала ряд гипотез, нуждающихся в проверке цифрами; описала ряд ключевых процессов — и сформулировала для них важные метрики (KPI). Для их визуализации и отслеживания построили дашборд.
Обобщение или детализация информации. Дашборд по конкретному процессу уже был, но стало важно получить больше данных – или посмотреть на них под другим углом. Если появляются новые пользователи с новыми запросами – возможно, будет логичнее сделать для них новый дашборд на основе работающего, а не дополнять старый данными и функциями для управления их визуализацией.
Копирование работающих решений из другой области. Взяли дашборд одного отдела — и внедрили его для других (с изменениями или без таковых); или же — посмотрели на конкурентов или партнеров и т.п.

➡️ Читать дальше

@data_analysis_ml
👍121🔥1
✔️ Продвинутая работа с большими объемами данных

Как часто вы сталкиваетесь с необходимостью выгрузить в MS Excel более миллиона строк? Все фильтры на выгрузку уже были наложены ранее, но, увы, она до сих пор «не проходит по габаритам». Перед нами встает дилемма – делить, или … воспользоваться готовыми решениями для python, не изучая python!

Речь сегодня пойдет о трех библиотеках, которые позволяют писать код и при этом не писать его, а также оперировать внушительными объемами данных с минимальными знаниями английского языка или синтаксиса пресловутых «панд» (здесь и далее «панды»: pandas – open-source библиотека для python для работы с табличными данными – прим. автора). Для примера будем использовать объявления о продаже автомобилей Toyota с известного сайта.

Первая библиотека, с которой хотелось бы Вас познакомить – Bamboolib. Не секрет, что панды питаются бамбуком, и, как за всякое пропитание, за него нужно платить. Да, у Bamboolib есть платная версия, в которой реализована поддержка Apache Spark, а также есть возможность использовать свои внутренние библиотеки и нет ограничения по плагинам, в остальном же достаточно бесплатной версии.

➡️ Читать дальше

@data_analysis_ml
👍9🔥41
🧹 Как почистить данные, не удаляя лишние знаки

➡️ Читать дальше

@data_analysis_ml
👍7🔥21
🔍 Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект. Кроме того, статистические характеристики чувствительны к наличию выбросов.

Перед поиском выбросов следует помнить, что не существует формального определения выброса, и тот или иной алгоритм в силу своей жесткости или мягкости может удалять вместе с выбросами и часть нормальных данных или, наоборот, оставлять часть выбросов в данных.

Существуют различные подходы к решению этой проблемы. Разберем один из них — критерий Шовене.

➡️ Читать дальше

@data_analysis_ml
🔥9👍52👎1
🖥 Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.

Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

↪️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥21
🖥 Подробный Гайд по визуализации данных. Часть I

Информация окружает нас повсюду: сообщения в мессенджерах, посты в социальных сетях, видеоролики на YouTube, фотографии на телефоне, музыка по дороге на работу, ценники в магазинах и т.д.

В свое время журнал Science (журнал Американской ассоциации содействия развитию науки) подсчитал, что в период с 1986 по 2007 год в мире было накоплено 295 эксабайт (295 миллиардов гигабайт) информации. Если все это распечатать в книгах, то ими можно полностью покрыть территории США и Китая в 13 слоев. Каждый день современный среднестатистический человек получает столько же информации, сколько житель средневековья за всю свою жизнь.

Скорость обмена и доступ к информации значительно изменились. Научные открытии, технологические прорывы в различных отраслях, повышение уровня образованности населения – все это положительно сказывается на развитии общества в целом.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍152🔥2
🏓 Ошибки визуализации данных. Откуда слон на диаграмме Фонда социального страхования?

Бывает так, что важные вещи не воспринимаются всерьез лишь потому, что были не очень доступно объяснены или просто не отложились в памяти.

В данной статье, которая является первой из трех в цикле разбора диаграмм через яркие ассоциации, рассмотрим вот такую диаграмму c 3D эффектом.

Как у вас с воображением? Когда я смотрю на эту диаграмму, я не могу ничего с собой поделать – я дорисовываю мысленно сверху этих столбиков тушку слона… И получается слон с 8 конечностями, пасущийся на салатовом поле с эффектом деграде, огражденный с одной стороны забором..

Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥53
🔥 Полезнейшая Подборка каналов

🖥 Machine learning
@ai_machinelearning_big_data – все о машинном обучении
@data_analysis_ml – все о анализе данных.
@machinelearning_ru – машинное обучении на русском от новичка до профессионала.
@machinelearning_interview – подготовка к собеседования Data Science
@datascienceiot – бесплатные книги Machine learning
@ArtificialIntelligencedl – канал о искусственном интеллекте
@neural – все о нейронных сетях
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - работа ds, ml
@Machinelearning_Jobs

🖥 Python

@pythonl - python
@pro_python_code – погружение в python
@python_job_interview – подготовка к Python собеседованию
@python_testit тесты на python
@pythonlbooks - книги Python
@Django_pythonl django
@python_djangojobs - работа Python
@python_django_work

🖥 Java
@javatg - Java для програмистов
@javachats Java чат
@java_library - книги Java
@android_its Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит

🖥 Javascript / front
@javascriptv - javascript изучение
@about_javascript - javascript продвинутый
@JavaScript_testit -тесты JS
@htmlcssjavas - web
@hashdev - web разработка

👣 Golang
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@Golang_google - go для разработчиков
@golangtests - тесты и задачи GO
@golangl - чат Golang
@GolangJobsit - вакансии и работа GO
@golang_jobsgo - чат вакансий
@golang_books - книги Golang
@golang_speak - обсуждение задач Go

🖥 Linux
@linux_kal - чат kali linux
@linuxkalii - linux kali
@linux_read - книги linux

👷‍♂️ IT работа

@hr_itwork - ит-ваканнсии

🖥 SQL
@sqlhub - базы данных
@chat_sql - базы данных чат

🤡It memes
@memes_prog - ит-мемы

⚙️ Rust
@rust_code - язык программирования rust
@rust_chats - чат rust

#️⃣ c# c++
@csharp_ci - c# c++кодинг
@csharp_cplus чат

📓 Книги

@programming_books_it
@datascienceiot
@pythonlbooks
@golang_books
@frontendbooksit
@progersit
@linux_read
@java_library
@frontendbooksit

📢 English for coders

@english_forprogrammers - Английский для программистов

🖥 Github
@github_code
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍9🔥3
👣 Сократить объем кода при помощи библиотеки PyTorch-Ignite

PyTorch — среда глубокого обучения, которая была принята такими технологическими гигантами, как Tesla, OpenAI и Microsoft для ключевых исследовательских и производственных рабочих нагрузок.

PyTorch-Ignite — это библиотека высокого уровня, помогающая гибко и прозрачно обучать и оценивать нейронные сети в PyTorch. Основная проблема с реализацией глубокого обучения заключается в том, что коды могут быстро расти, становиться повторяющимися и слишком длинными. Рассматривать данную библиотеку буду, решая задачу оценки вероятности отнесения изображения к определенному классу на примере датасета CIFAR10. Чуть позже расскажу о нем подробнее. А сейчас начнем подготовку с установки и импорта необходимых библиотек.

↪️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥1🌚1
🖥 UDF-функции Spark для обработки данных

Пользовательские функции (User Defined Functions, UDF) – это функции, которые не являются встроенными (уже имеющимися) и создаются самим пользователем во время работы с данными при необходимости получить желаемый результат. UDF-функции обычно создаются для дополнительной обработки и могут содержать в себе несколько встроенных функций одновременно. Например, следующий код отвечает за определение функции, которая возводит все указанные числа в квадрат и возвращает результат в виде списка:

↪️ Читать дальше
➡️ Учебник по spark


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
Управляйте данными: освойте профессию аналитика

Поменяйте профессию, прогнозируйте свое карьерное будущее.

В программе курса:

машинные методы в обработке данныханализ больших данныхпрограммирование на Pythonработа с SQL, Git, Jupyter, PySpark.

Университет Иннополис приглашает вас на курс «Аналитика: искусство управлять данными». Начинаем 21.11.2022, вы можете пройти обучение со скидкой от 50% до 100%.


Оставляйте заявку сегодня, чтобы начать обучение.
👍13🔥21
🖥 Parquet что это такое и зачем пригодился в работе с данными?

Недавно мне потребовалось сделать большую выборку данных (несколько млн. записей) возник вопрос, как сохранить полученный результат для последующей обработки, т.к. на Hive выгрузить такой объем не представлялось возможным. Задача была решена с помощью DS-машины(DatalabAI), c использованием формата хранения данных — Parquet.

↪️ Читать дальше
🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥21👎1
📈 Тесты статистической проверки принадлежности нормальному распределению

Нормальное распределение — это тип распределения, который, вероятно, наиболее часто упоминается и используется статистиками. Вероятно, это первое распределение, которое вы будете изучать на уроках статистики. Что это за раздача, собственно? Его также называют распределением Гаусса, и оно представляет собой распределение случайно сгенерированных переменных, напоминающее колоколообразную кривую. Он характеризуется средним значением и стандартным отклонением. Эти два значения определяют конкретную форму распределения, хотя общая колоколообразная форма не изменится так сильно. Например, небольшое стандартное отклонение относительно среднего дает крутой график, а большое стандартное отклонение дает плоский график.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👎42🔥1
🏓 30 лучших инструментов больших данных для анализа данных

Возможность поиска и очистки больших данных имеет важное значение в 21 веке. Правильные инструменты являются обязательным условием для конкуренции с конкурентами и добавления преимуществ для вашего бизнеса. Я делаю список из 30 лучших инструментов для больших данных для вас.

➡️ Читать дальше


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥41