Данные часто могут сделать решения хуже, а не лучше. Этот пост в блоге дает пример одной из таких ситуаций.
https://saturncloud.io/blog/relying-too-much/
@data_analysis_ml
https://saturncloud.io/blog/relying-too-much/
@data_analysis_ml
saturncloud.io
You're Relying on Data Too Much | Saturn Cloud Blog
Data can often make decisions worse, not better. This blog post gives an example of one such situation as a metaphor.
👍8👎1
😱Запросы в гугле и твиты помогут предсказать следующий всплеск заболеваемости
Так, отзывы на ароматические свечи Yankee Candles в интернет магазинах были дополнительным индикатором распространения нового штамма. В конце 2021 года как раз посыпались жалобы от покупателей на отсутствие аромата и неприятный запах у свечей. Исследователи построили график роста отрицательных отзывов, и он очень смахивал на всплеск заболеваемости омикроном (на картинке как раз он).
Несчастным свечкам досталось еще и в начале пандемии: оценка ранее любимых покупателями свечей за год потеряла целую звезду. Помимо отзывов на свечи, ученые заметили связь с ростом поиска доставок сиропов от кашля и куриного супа с лапшой
Исследователи предлагают ориентироваться не только на число подтвержденных случаев, а еще и на такие специфические цифровые следы: авторы их назвают «хлебными крошками». Ученые считают, что эти маркеры помогут предсказать следующие волны заболеваемости, и тогда мы сможем как следует к ним подготовиться🌊
Так, отзывы на ароматические свечи Yankee Candles в интернет магазинах были дополнительным индикатором распространения нового штамма. В конце 2021 года как раз посыпались жалобы от покупателей на отсутствие аромата и неприятный запах у свечей. Исследователи построили график роста отрицательных отзывов, и он очень смахивал на всплеск заболеваемости омикроном (на картинке как раз он).
Несчастным свечкам досталось еще и в начале пандемии: оценка ранее любимых покупателями свечей за год потеряла целую звезду. Помимо отзывов на свечи, ученые заметили связь с ростом поиска доставок сиропов от кашля и куриного супа с лапшой
Исследователи предлагают ориентироваться не только на число подтвержденных случаев, а еще и на такие специфические цифровые следы: авторы их назвают «хлебными крошками». Ученые считают, что эти маркеры помогут предсказать следующие волны заболеваемости, и тогда мы сможем как следует к ним подготовиться🌊
👍17
5 полезных запросов для MS SQL
За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.
https://tproger.ru/articles/5-poleznyh-zaprosov-dlja-ms-sql/
@data_analysis_ml
За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.
https://tproger.ru/articles/5-poleznyh-zaprosov-dlja-ms-sql/
@data_analysis_ml
Tproger
5 полезных запросов MS SQL на каждый день
За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.
👍5❤1
🔎 Анализируем речь с помощью Python: Сколько раз в минуту матерятся на интервью YouTube-канала «вДудь»?
Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.
Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.
Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».
Читать дальше
@data_analysis_ml
Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.
Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.
Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».
Читать дальше
@data_analysis_ml
👍9🥰3
Как повысить эффективность логистики с помощью неклассических тестов?
Ответ можно найти в последней статье Delivery Club на Хабре. В ней команда операционных аналитиков поделилась тонкостями эксперимента по внедрению switchback A/B-тестов. Вы узнаете об особенностях таких тестов, сути сетевого эффекта, об этапах запуска switchback A/B-эксперимента в логистике и его итогах.
Подробнее по ссылке.
Ответ можно найти в последней статье Delivery Club на Хабре. В ней команда операционных аналитиков поделилась тонкостями эксперимента по внедрению switchback A/B-тестов. Вы узнаете об особенностях таких тестов, сути сетевого эффекта, об этапах запуска switchback A/B-эксперимента в логистике и его итогах.
Подробнее по ссылке.
👍8
📊 Фреймворк для Анализа Временных Рядов на Python
Простой в использовании и универсальный фреймворк для анализа временных рядов
Статья: https://denshub.com/ru/kats-for-time-series-analysis/
Официальная страница: https://facebookresearch.github.io/Kats/
Kats Python package: https://pypi.org/project/kats/0.1.0/
Репозиторий исходной кода: https://github.com/facebookresearch/kats
@data_analysis_ml
Простой в использовании и универсальный фреймворк для анализа временных рядов
Статья: https://denshub.com/ru/kats-for-time-series-analysis/
Официальная страница: https://facebookresearch.github.io/Kats/
Kats Python package: https://pypi.org/project/kats/0.1.0/
Репозиторий исходной кода: https://github.com/facebookresearch/kats
@data_analysis_ml
👍9🔥3
🟢 Создание полярной диаграммы JS за 4 шага
Полярные диаграммы часто выглядят впечатляюще, что заставляет некоторых людей думать, что их создание - сложный процесс, требующий большого количества навыков и опыта. Что ж, я собираюсь развенчать этот миф прямо сейчас! Позвольте мне показать вам, как легко визуализировать данные в красивой интерактивной полярной диаграмме JavaScript.
По сути, полярная диаграмма - это разновидность кругового графика, нарисованного с полярными координатами. Она также может хорошо работать для визуализации некоторых видов категориальных данных для сравнений, и это именно тот случай, который я хочу сейчас продемонстрировать. В этом уроке я построю столбчатую полярную диаграмму с полосами, растущими из центра диаграммы, чтобы представить значения с их длиной.
Общество визуализации данных (DVS) проводит ежегодный опрос специалистов по обработке данных о состоянии отрасли, и я подумал, что это может стать отличной возможностью поиграть с некоторыми из его последних данных. В частности, я хотел посмотреть на наиболее популярные технологии, используемые для визуализации данных на основе ответов. Итак, здесь я создам полярную диаграмму JS, на которой будут показаны 15 лучших из них, составив классный иллюстративный пример из реального мира.
Читать дальше
@data_analysis_ml
Полярные диаграммы часто выглядят впечатляюще, что заставляет некоторых людей думать, что их создание - сложный процесс, требующий большого количества навыков и опыта. Что ж, я собираюсь развенчать этот миф прямо сейчас! Позвольте мне показать вам, как легко визуализировать данные в красивой интерактивной полярной диаграмме JavaScript.
По сути, полярная диаграмма - это разновидность кругового графика, нарисованного с полярными координатами. Она также может хорошо работать для визуализации некоторых видов категориальных данных для сравнений, и это именно тот случай, который я хочу сейчас продемонстрировать. В этом уроке я построю столбчатую полярную диаграмму с полосами, растущими из центра диаграммы, чтобы представить значения с их длиной.
Общество визуализации данных (DVS) проводит ежегодный опрос специалистов по обработке данных о состоянии отрасли, и я подумал, что это может стать отличной возможностью поиграть с некоторыми из его последних данных. В частности, я хотел посмотреть на наиболее популярные технологии, используемые для визуализации данных на основе ответов. Итак, здесь я создам полярную диаграмму JS, на которой будут показаны 15 лучших из них, составив классный иллюстративный пример из реального мира.
Читать дальше
@data_analysis_ml
👍9
📊 Коллекция продвинутой визуализации в Matplotlib и Seaborn с примерами
В этой статье не будет базовых приемов визуализации – все примеры, приведенные в этой статье, будут продвинутыми. Если вам нужно освежить базовые приемы, пожалуйста, обратитесь к статье «Ваша повседневная шпаргалка по Matplotlib».
Напоминаю: если вы используете эту статью для обучения, загрузите набор данных и выполняйте все примеры вслед за мной. Это единственный способ чему-нибудь научиться. Также найдите какой-нибудь другой набор данных и попробуйте применить аналогичные методы визуализации на нем.
Вот ссылка на набор данных, который я буду использовать в этой статье. Мы начнем с немного проблематичных диаграмм для нескольких переменных и будем двигаться к более ясным, но и более сложным решениям.
Читать дальше
@data_analysis_ml
В этой статье не будет базовых приемов визуализации – все примеры, приведенные в этой статье, будут продвинутыми. Если вам нужно освежить базовые приемы, пожалуйста, обратитесь к статье «Ваша повседневная шпаргалка по Matplotlib».
Напоминаю: если вы используете эту статью для обучения, загрузите набор данных и выполняйте все примеры вслед за мной. Это единственный способ чему-нибудь научиться. Также найдите какой-нибудь другой набор данных и попробуйте применить аналогичные методы визуализации на нем.
Вот ссылка на набор данных, который я буду использовать в этой статье. Мы начнем с немного проблематичных диаграмм для нескольких переменных и будем двигаться к более ясным, но и более сложным решениям.
Читать дальше
@data_analysis_ml
👍17🥰2
🔎 Разведочный анализ данных на Python
Получение хорошего представления о новом наборе данных не всегда бывает легким и зачастую требует времени. Тем не менее, хороший и широкий исследовательский анализ данных (EDA) может очень помочь понять ваш набор данных, понять, как данные взаимосвязаны и что необходимо сделать для правильной обработки вашего датасета.
В этой статье мы коснемся нескольких полезных алгоритмов EDA. На самом деле, часто необходимо потратить достаточно времени на правильный EDA, чтобы полностью понять ваш набор данных и это является ключевой частью любого хорошего проекта по науке о данных. Как правило, вы, вероятно, потратите 80% своего времени на подготовку и исследование данных и только 20% на реальное моделирование машинного обучения.
А тепеь давайте погрузимся прямо в анализ данных!
Статья
Git
@data_analysis_ml
Получение хорошего представления о новом наборе данных не всегда бывает легким и зачастую требует времени. Тем не менее, хороший и широкий исследовательский анализ данных (EDA) может очень помочь понять ваш набор данных, понять, как данные взаимосвязаны и что необходимо сделать для правильной обработки вашего датасета.
В этой статье мы коснемся нескольких полезных алгоритмов EDA. На самом деле, часто необходимо потратить достаточно времени на правильный EDA, чтобы полностью понять ваш набор данных и это является ключевой частью любого хорошего проекта по науке о данных. Как правило, вы, вероятно, потратите 80% своего времени на подготовку и исследование данных и только 20% на реальное моделирование машинного обучения.
А тепеь давайте погрузимся прямо в анализ данных!
Статья
Git
@data_analysis_ml
👍20
Двухэтапный кластерный анализ
Процедура Двухэтапный кластерный анализ представляет собой средство разведочного анализа для выявления естественного разбиения набора данных на группы (или кластеры), которое без ее применения трудно обнаружить. Алгоритм, используемый этой процедурой, имеет несколько привлекательных особенностей, которые отличают его от традиционных методов кластерного анализа:
Работа с категориальными и непрерывными переменными. Предполагая независимость переменных, можно считать, что категориальные и непрерывные переменные имеют совместное полиномиально-нормальное распределение.
Автоматический выбор числа кластеров. Сравнивая значения критерия отбора модели для различных кластерных решений, процедура может автоматически определить оптимальное число кластеров.
Масштабируемость. Формируя дерево свойств кластеров (СК), которое является компактным представлением информации о наблюдениях, двухэтапный алгоритм позволяет анализировать большие файлы данных.
Пример. Компании производства потребительских товаров и розничной торговли регулярно применяют методы кластерного анализа к данным, описывающим покупательские привычки их клиентов, а также их пол, возраст, уровень доходов и т.д. Эти компании настраивают стратегии маркетинга и развития производства на каждую из групп потребителей, чтобы увеличить продажи и повысить приверженность потребителей маркам товаров.
Двухэтапный кластерный анализ
Параметры процедуры Двухэтапный кластерный анализ
Вывод процедуры Двухэтапный кластерный анализ
Средство просмотра кластеров
10 алгоритмов кластеризации на Python
@data_analysis_ml
Процедура Двухэтапный кластерный анализ представляет собой средство разведочного анализа для выявления естественного разбиения набора данных на группы (или кластеры), которое без ее применения трудно обнаружить. Алгоритм, используемый этой процедурой, имеет несколько привлекательных особенностей, которые отличают его от традиционных методов кластерного анализа:
Работа с категориальными и непрерывными переменными. Предполагая независимость переменных, можно считать, что категориальные и непрерывные переменные имеют совместное полиномиально-нормальное распределение.
Автоматический выбор числа кластеров. Сравнивая значения критерия отбора модели для различных кластерных решений, процедура может автоматически определить оптимальное число кластеров.
Масштабируемость. Формируя дерево свойств кластеров (СК), которое является компактным представлением информации о наблюдениях, двухэтапный алгоритм позволяет анализировать большие файлы данных.
Пример. Компании производства потребительских товаров и розничной торговли регулярно применяют методы кластерного анализа к данным, описывающим покупательские привычки их клиентов, а также их пол, возраст, уровень доходов и т.д. Эти компании настраивают стратегии маркетинга и развития производства на каждую из групп потребителей, чтобы увеличить продажи и повысить приверженность потребителей маркам товаров.
Двухэтапный кластерный анализ
Параметры процедуры Двухэтапный кластерный анализ
Вывод процедуры Двухэтапный кластерный анализ
Средство просмотра кластеров
10 алгоритмов кластеризации на Python
@data_analysis_ml
👍12🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Plotly — потрясающая интерактивная библиотека визуализации, но она может работать довольно медленно, когда визуализируется множество точек данных (более 100 000 точек). Библиотека Plotly Resampler решает эту проблему, уменьшая (агрегируя) данные, а затем отображает агрегированные точки. Библиотека, позволяюяет динамически перерисовывать графики в колабах.
Github: https://github.com/predict-idlab/plotly-resampler
Демо: https://github.com/predict-idlab/plotly-resampler/blob/main/examples/basic_example.ipynb
@data_analysis_ml
Github: https://github.com/predict-idlab/plotly-resampler
Демо: https://github.com/predict-idlab/plotly-resampler/blob/main/examples/basic_example.ipynb
@data_analysis_ml
👍20👏4
🐍📈 Как «оживлять» графики и впечатлять всех красивыми анимациями с помощью Python
Показываем на примерах, как создавать красивые анимации с помощью Python, чтобы удивлять даже самых искушенных зрителей.
https://proglib.io/p/kak-ozhivlyat-grafiki-i-vpechatlyat-vseh-krasivymi-animaciyami-s-pomoshchyu-python-2022-03-29
@data_analysis_ml
Показываем на примерах, как создавать красивые анимации с помощью Python, чтобы удивлять даже самых искушенных зрителей.
https://proglib.io/p/kak-ozhivlyat-grafiki-i-vpechatlyat-vseh-krasivymi-animaciyami-s-pomoshchyu-python-2022-03-29
@data_analysis_ml
👍7
🔊 Анализ аудиоданных с помощью глубокого обучения и Python
Аудиоанализ — область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию музыки — представляет собой развивающийся поддомен приложений глубокого обучения. Некоторые из самых популярных и распространенных систем машинного обучения, такие как виртуальные помощники Alexa, Siri и Google Home, — это продукты, созданные на основе моделей, извлекающих информацию из аудиосигналов.
Читать дальше
25 наборов аудиоданных для исследований
Статья Анализ аудио. Идентификация голоса
@data_analysis_ml
Аудиоанализ — область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию музыки — представляет собой развивающийся поддомен приложений глубокого обучения. Некоторые из самых популярных и распространенных систем машинного обучения, такие как виртуальные помощники Alexa, Siri и Google Home, — это продукты, созданные на основе моделей, извлекающих информацию из аудиосигналов.
Читать дальше
25 наборов аудиоданных для исследований
Статья Анализ аудио. Идентификация голоса
@data_analysis_ml
👍9🔥2
Eportal – Симулятор эволюции с капелькой ИИ
Когда начинается эволюция, вместе с ней начинаются великие битвы; объекты делают все возможное, чтобы заполнить как можно больше места для победы своего «вида»; некоторые из них становятся пассивными, едят растения и размножаются, некоторые из них становятся агрессивными, пытаясь атаковать объекты других видов
В общем и целом, довольно интересный проект с которым можно поиграться, посмотреть исходный код
#Python #AI #simulation
@data_analysis_ml
Когда начинается эволюция, вместе с ней начинаются великие битвы; объекты делают все возможное, чтобы заполнить как можно больше места для победы своего «вида»; некоторые из них становятся пассивными, едят растения и размножаются, некоторые из них становятся агрессивными, пытаясь атаковать объекты других видов
В общем и целом, довольно интересный проект с которым можно поиграться, посмотреть исходный код
#Python #AI #simulation
@data_analysis_ml
👍14💩1
💬 Yandex: An Open-source Yet another Language Model 100B
Яндекс выложил модель YaLM 100B, сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе, обученная на 2 терабайтах текста: датасетах и сайтах, включающих Wikipedia, новостные статьи и книги, Github и arxiv.org. Яндекс использует генеративные нейронные сети YaLM в недавнем обновлении поиска Y1. Сейчас модель уже помогает давать ответы в Яндекс поиске и Алисе.
Github: https://github.com/yandex/YaLM-100B
Статья: https://habr.com/ru/company/yandex/blog/672396/
@data_analysis_ml
Яндекс выложил модель YaLM 100B, сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе, обученная на 2 терабайтах текста: датасетах и сайтах, включающих Wikipedia, новостные статьи и книги, Github и arxiv.org. Яндекс использует генеративные нейронные сети YaLM в недавнем обновлении поиска Y1. Сейчас модель уже помогает давать ответы в Яндекс поиске и Алисе.
Github: https://github.com/yandex/YaLM-100B
Статья: https://habr.com/ru/company/yandex/blog/672396/
@data_analysis_ml
👍25
В Яндексе идёт набор на стажировку! Хотите поближе познакомиться с командами и выбрать для стажировки именно ту, в которой вам будет интересно? 27 июня приглашаем на наше большое онлайн-мероприятие — Летний фестиваль вакансий ☀️
На фестивале выступят руководители команд из разных подразделений Яндекса, они расскажут о своих задачах и самых свежих стажёрских вакансиях по бэкенду, фронтенду, мобильной разработке, ML, аналитике и DevOps. Вы сможете задать им любые вопросы, а после — подать заявку на стажировку в той команде, которая вам понравилась.
А ещё мы впервые покажем, как проходит секция на алгоритмы для стажёров!
Регистрируйтесь, чтобы присоединиться: https://clck.ru/rcgeQ
На фестивале выступят руководители команд из разных подразделений Яндекса, они расскажут о своих задачах и самых свежих стажёрских вакансиях по бэкенду, фронтенду, мобильной разработке, ML, аналитике и DevOps. Вы сможете задать им любые вопросы, а после — подать заявку на стажировку в той команде, которая вам понравилась.
А ещё мы впервые покажем, как проходит секция на алгоритмы для стажёров!
Регистрируйтесь, чтобы присоединиться: https://clck.ru/rcgeQ
👍11
📝 Добыча данных: анализ рыночной корзины с помощью алгоритма Apriori
Алгоритм Apriori — один из самых популярных алгоритмов, используемых в обучении правилам ассоциаций на реляционных базах данных. Он определяет элементы в наборе данных и далее расширяет их на все большие и большие наборы элементов.
Однако алгоритм Apriori расширяется только в том случае, если наборы элементов являются частыми, то есть если существует вероятность того, что набор элементов превышает определенный заранее установленный порог.
Читать дальше
@data_analysis_ml
Алгоритм Apriori — один из самых популярных алгоритмов, используемых в обучении правилам ассоциаций на реляционных базах данных. Он определяет элементы в наборе данных и далее расширяет их на все большие и большие наборы элементов.
Однако алгоритм Apriori расширяется только в том случае, если наборы элементов являются частыми, то есть если существует вероятность того, что набор элементов превышает определенный заранее установленный порог.
Читать дальше
@data_analysis_ml
👍16❤2
5️⃣ подходов к построению современной платформы данных
https://telegra.ph/5-podhodov-k-postroeniyu-sovremennoj-platformy-dannyh-06-25
@data_analysis_ml
https://telegra.ph/5-podhodov-k-postroeniyu-sovremennoj-platformy-dannyh-06-25
@data_analysis_ml
👍12👎1
Dash – Аналитические веб-приложения для Python, R, Julia и Jupyter.
Это наиболее скачиваемый и одновременно надежный фреймворк Python для создания веб-приложений для ML & data science.
Построенный поверх Plotly.js, React и Flask, Dash связывает современные элементы пользовательского интерфейса, такие как выпадающие списки, ползунки и графики, непосредственно с вашим аналитическим кодом Python.
⤷ Документация
⤷ Примеры программ
@data_analysis_ml | #Python #R #Web #ML #Data #Science
Это наиболее скачиваемый и одновременно надежный фреймворк Python для создания веб-приложений для ML & data science.
Построенный поверх Plotly.js, React и Flask, Dash связывает современные элементы пользовательского интерфейса, такие как выпадающие списки, ползунки и графики, непосредственно с вашим аналитическим кодом Python.
⤷ Документация
⤷ Примеры программ
@data_analysis_ml | #Python #R #Web #ML #Data #Science
👍22🔥6❤2
7 способов раскрыть жульничество аналитика данных
Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником технологической индустрии, рано или поздно вы окажетесь в ситуации, где кто-либо пытается “продать” вам свой “ИИ-продукт”, “ПО машинного обучения” или какое-то другое сочетание вычурных слов. Если такая ситуация случилась с вами, будет естественным чувствовать нехватку знаний и опыта для принятия взвешенного решения. Стойте на своём и не позвольте себя обыграть! Ниже приведены 7 здравых способов, которые помогут вам пробиться через навязываемую чушь и понять истинную ценность предложения по машинному обучению (ML), которое вам пытаются продать.
Читать дальше
@data_analysis_ml
Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником технологической индустрии, рано или поздно вы окажетесь в ситуации, где кто-либо пытается “продать” вам свой “ИИ-продукт”, “ПО машинного обучения” или какое-то другое сочетание вычурных слов. Если такая ситуация случилась с вами, будет естественным чувствовать нехватку знаний и опыта для принятия взвешенного решения. Стойте на своём и не позвольте себя обыграть! Ниже приведены 7 здравых способов, которые помогут вам пробиться через навязываемую чушь и понять истинную ценность предложения по машинному обучению (ML), которое вам пытаются продать.
Читать дальше
@data_analysis_ml
👍24🥰1