Data Analysis / Big Data
2.83K subscribers
561 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation

Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.

Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation
Деревья ltree в PostgreSQL – простым языком

Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.


Читать: https://habr.com/ru/articles/774324/
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.


Читать: https://habr.com/ru/companies/megafon/articles/773722/
5 уровней зрелости MLOps

Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.


Читать: https://habr.com/ru/companies/vk/articles/772538/
Как автоматизировать проверки данных в Airflow с Great Expectations

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.


Читать: https://habr.com/ru/companies/banki/articles/773884/
А вы знаете, что у нас сейчас проходит розыгрыш подписок Telegram Premium?

Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:

— тот самый Типичный программист: @tproger

— полезные сохранёнки на все случаи жизни: @prog_stuff

— нужные инструменты для ваших проектов: @prog_tools

— новости из мира технологий: @your_tech
ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.


Читать: https://habr.com/ru/companies/airi/articles/774934/
Сказка от первого лица о зарплате в айти и первом миллионе

В этой статье хочу поделиться исключительно личным опытом работы на разных позициях и даже сферах в айти, конечно же, расскажу и про зарплаты в Москве.

Про сам процесс отбора и поиска работы/стажировок в данной статье я много говорить не буду, так как тема объемная и заслуживает отдельной статьи.
Шо там дальше

Читать: https://habr.com/ru/articles/775026/
Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall

Нет, нет, я совсем не про геометрию или физику, я про множества!

Точнее про множество того, что вы знаете.

К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.

В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score


Читать: https://habr.com/ru/articles/775032/
🔥2👍1
В ногу со временем: введение в многомерный анализ и OLAP-технологии

В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?


Читать: https://habr.com/ru/articles/775042/
What is an Open Table Format? & Why to use one?

Read: https://www.startdataengineering.com/post/what_why_table_format/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:


Читать: https://habr.com/ru/articles/775502/
Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/775418/
1
Выбор СУБД: шпаргалка, чтобы не запутаться

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.


Читать: https://habr.com/ru/articles/775574/
Как использовать Spring в качестве фреймворка для Flink-приложений

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.


Читать: https://habr.com/ru/companies/ru_mts/articles/775970/
Большие языковые модели (LLM) в задачах

Сейчас в мире довольно много разговор о том, что LLM оставят всех нас без работы. Чтобы понять о чем речь рассмотрим на практических примерах какие задачи из коробки могут решать современные большие языковые модели (large language models, LLM).

Читать: https://habr.com/ru/articles/775870/
2
FineBI: Обработка данных для начинающих пользователей

Хабр, привет!

На связи команда Business Intelligence GlowByte. Да-да, те самые неугомонные, которые создали самое крупное русскоязычное сообщество FineBI, проводят обучения, собирают дайджесты и ежегодно организуют масштабные конференции.

Меня зовут Александр, я руководитель центра поддержки и обучения BI-решений в GlowByte, и сегодня хочу поделиться с вами небольшим гайдом по обработке данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам.

Данная статья состоит из четырех уроков, которые помогут вам ближе познакомиться с функциями редактирования данных в FineBI.


Читать: https://habr.com/ru/companies/glowbyte/articles/776648/
Лексикографический симлекс-метод

Лексикографический симлекс-метод.

Решение задачи линейного программирование симлекс-методом и лексикографическим симлекс-методом на Python!


Читать: https://habr.com/ru/articles/776694/