Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Forwarded from Нейроканал
Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.
 
Анализ, очистка и подготовка данных:
  Pandas — быстрая и гибкая очистка и подготовка данных.
  Numpy — предварительная обработка данных, применяется для математических вычислений.
  Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
  YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
 
Машинное и глубокое обучение:
  Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
  Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
  TensorFlow — создание, моделирование и тренировка нейросетей.
  XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
  CatBoost — градиентный бустинг.
 
#библиотеки #ml #deeplearning #python
🙏2😍2👍1
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за конец зимы

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/articles/783354/
1👍1
Успешный опыт участия в Data Science хакатонах

В статье я хочу поделиться успешным командным и личным опытом участия в хакатонах и ML соревнованиях. На примере 13-ти соревнований, по итогу которых мы победили или оказывались на призовых местах, я рассажу о практических советах для будущих участников.

На личном опыте я убедился, что не всегда для победы требуются сложные алгоритмы, мощное железо или большой опыт в индустрии. Иногда 5-6 строчек кода и немного смекалки достаточно, чтобы получить топ-1 решение. Я расскажу вам про не очевидные, на первый взгляд, но довольно простые решения, а также раскрою некоторые интересные моменты хакатонской кухни, которые, надеюсь, вдохновят вас на участие.

Статья будет полезна будущим участникам соревнований и data science специалистам, которые смогут применить описанные решения и практические советы в реальных задачах.


Читать: https://habr.com/ru/articles/766514/
Patient engagement analytics: It’s measurable!

We show the way into transforming abstract patient engagement concept into a measurable value unlocking multiple opportunities for healthcare providers.

Read: https://www.scnsoft.com/healthcare/patient-engagement-analytics-its-measurable
Нет новогоднего настроения? Сейчас исправим:

1. Налейте чаю
2. Сядьте поудобнее
3. Откройте «Конфетный рандом» 
4. Возьмите конфетку
5. Ладно, возьмите ещё одну конфетку
6. Поделитесь ссылкой с друзьями

Всем джингл беллс!
Особенности машинного обучения в нефтегазовой отрасли

Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас.

Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...


Читать: https://habr.com/ru/companies/oleg-bunin/articles/783656/
«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/783040/
👍3
Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet за счет удаления не использующихся колонок большого размера.


Читать: https://habr.com/ru/articles/784372/
Мой краш-тест чемпионата: Победа в Data Science треке

Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.


Читать: https://habr.com/ru/articles/784522/
🔥1
VK плачет, Social Graph смеется, Telegram наблюдает

Скажи мне кто твой друг, и я скажу кто ты

Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей.

Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями
Что было дальше?

Читать: https://habr.com/ru/articles/784912/
Изучаем SQL в 2024 году

SQL  — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.


Читать: https://habr.com/ru/articles/784920/