Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

568 photos

3 videos

2 files

2.9K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

Forwarded from Нейроканал

Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.

Анализ, очистка и подготовка данных:
  Pandas — быстрая и гибкая очистка и подготовка данных.
  Numpy — предварительная обработка данных, применяется для математических вычислений.
  Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
  YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.

Машинное и глубокое обучение:
  Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
  Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
  TensorFlow — создание, моделирование и тренировка нейросетей.
  XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
  CatBoost — градиентный бустинг.

#библиотеки #ml #deeplearning #python

🙏2😍2👍1

889 views12:23

Data Analysis / Big Data

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за конец зимы

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/articles/783354/

❤1👍1

629 views16:23

Data Analysis / Big Data

Успешный опыт участия в Data Science хакатонах

В статье я хочу поделиться успешным командным и личным опытом участия в хакатонах и ML соревнованиях. На примере 13-ти соревнований, по итогу которых мы победили или оказывались на призовых местах, я рассажу о практических советах для будущих участников.

На личном опыте я убедился, что не всегда для победы требуются сложные алгоритмы, мощное железо или большой опыт в индустрии. Иногда 5-6 строчек кода и немного смекалки достаточно, чтобы получить топ-1 решение. Я расскажу вам про не очевидные, на первый взгляд, но довольно простые решения, а также раскрою некоторые интересные моменты хакатонской кухни, которые, надеюсь, вдохновят вас на участие.

Статья будет полезна будущим участникам соревнований и data science специалистам, которые смогут применить описанные решения и практические советы в реальных задачах.

Читать: https://habr.com/ru/articles/766514/

643 views10:46

Data Analysis / Big Data

Patient engagement analytics: It’s measurable!

We show the way into transforming abstract patient engagement concept into a measurable value unlocking multiple opportunities for healthcare providers.

Read: https://www.scnsoft.com/healthcare/patient-engagement-analytics-its-measurable

611 views11:09

Data Analysis / Big Data

Нет новогоднего настроения? Сейчас исправим:

1. Налейте чаю
2. Сядьте поудобнее
3. Откройте «Конфетный рандом»
4. Возьмите конфетку
5. Ладно, возьмите ещё одну конфетку
6. Поделитесь ссылкой с друзьями

Всем джингл беллс!

712 views12:32

Хочу конфету!

Data Analysis / Big Data

Особенности машинного обучения в нефтегазовой отрасли

Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас.

Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...

Читать: https://habr.com/ru/companies/oleg-bunin/articles/783656/

796 views09:18

Data Analysis / Big Data

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать: https://habr.com/ru/companies/selectel/articles/783040/

👍3

890 views10:52

Data Analysis / Big Data

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать: https://habr.com/ru/articles/784372/

872 views08:08

Data Analysis / Big Data

Мой краш-тест чемпионата: Победа в Data Science треке

Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.

Читать: https://habr.com/ru/articles/784522/

🔥1

968 views13:12

Data Analysis / Big Data

VK плачет, Social Graph смеется, Telegram наблюдает

Скажи мне кто твой друг, и я скажу кто ты

Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей.

Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями
Что было дальше?

Читать: https://habr.com/ru/articles/784912/

831 views10:58

Data Analysis / Big Data

Изучаем SQL в 2024 году

SQL — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.

Читать: https://habr.com/ru/articles/784920/

897 views12:26

Data Analysis / Big Data

Oracle Analytics Cloud January 2024 Update

This blog provides a high-level summary of the new features introduced into Oracle Analytics Cloud in the January 2024 update.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-january-2024-update

Oracle Analytics Cloud January 2024 Update

This blog provides a high level summary of the new features introduced into Oracle Analytics Cloud in the January 2024 update.

❤1

642 views22:52

Data Analysis / Big Data

Unlock Deeper Insights: On-Demand Data Enrichments in Oracle Analytics Workbooks

This article provides an overview of how semantic data enrichments are available to workbook authors as on-demand data enrichments. It provide examples on how you can enrich your data during the visualization authoring process by simply dragging and dropping semantic enrichments that are displayed in the data elements tree under any classified column.

Read: https://blogs.oracle.com/analytics/post/unlock-deeper-insights-ondemand-data-enrichments-in-oracle-analytics-workbooks

Unlock Deeper Insights: On-Demand Data Enrichments in Oracle Analytics Workbooks

This article provides an overview of how semantic data enrichments are available to workbook authors as on-demand data enrichments. It provide examples on how you can enrich your data during the visualization authoring process by simply dragging and dropping…

650 views22:53

Data Analysis / Big Data

25 баз данных, которые актуальны в 2024 году

Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет-технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.

От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!

Читать: https://habr.com/ru/articles/785366/

👍2

4.59K viewsedited 05:03

Data Analysis / Big Data

Provide Personalization in Workbooks in Oracle Analytics Cloud

This article explains how to provide a personalized workbook experience to end users in Oracle Analytics Cloud through filter selection persistence.

Read: https://blogs.oracle.com/analytics/post/enabling-end-user-personalization-in-oac-workbooks

Enabling end user personalization in OAC Workbooks

This article explains how to provide personalized workbook experience to end users through filter selection persistence.

684 views21:51

Data Analysis / Big Data

Oracle Fusion Analytics - Refresh Materialized Views via Custom Function After Pipeline Completion

Automating the refresh of materialized views after the Oracle Fusion Analytics pipeline completes saves time and reduces the likelihood of scheduling errors.

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-refresh-materialized-views-via-custom-function-after-pipeline-completes

Oracle Fusion Analytics - Refresh Materialized Views via Custom Function After Pipeline Completes

As businesses expand and develop, the importance of automation in managing data and analytics applications also grows. In this blog we will demonstrate how to create a custom function that will be called as an action by the Fusion Analytics Event Producer…

❤1

725 views21:06