Data Analysis / Big Data
2.83K subscribers
561 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Системное проектирование в интервью для дата-инженеров: как подготовиться

Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации

Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Использование seed данных в разных dbt проектах

Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Что делают Snowflake, Databricks, Redshift и BigQuery?

Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных

Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🎓 Прокачайте SQL-навыки: советы и приемы для инженеров данных

Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы
Визуализация связей с помощью диаграмм Венна

В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как создать тепловые карты ADW

Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание дашбордов в Fusion Analytics

Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🔍 Безопасный доступ к данным: решение от Fusion Data Intelligence

Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Анализ инкрементных данных в лаборатории данных

Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать

Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам.


Читать: https://habr.com/ru/companies/glowbyte/articles/879170/

#ru

@big_data_analysis | Другие наши каналы
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.

Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.


Читать: https://habr.com/ru/articles/878480/

#ru

@big_data_analysis | Другие наши каналы
Как настроить интеграцию между Great Expectations и Impala для работы с большими данными

Рассказываем, как мы заставили GX подружиться с Impala.

Читать: «Как настроить интеграцию между Great Expectations и Impala для работы с большими данными»

#ru

@big_data_analysis | Другие наши каналы
От комиксов до нейросетей: 5 книг, которые помогут начинающему Data Scientist'у

Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.

Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.

Почему книги? И при чем тут комиксы?

Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.

С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.


Читать: https://habr.com/ru/companies/ozonbank/articles/879798/

#ru

@big_data_analysis | Другие наши каналы
Удивительный мир хакатонов: как я придумал для студентов задачку и что они с ней натворили

Привет, Хабр! Меня зовут Владимир Казаков, я руковожу продуктом «Обучение» в МТС Линк. А еще я с удовольствием помогаю организовывать и проводить хакатоны — это всегда десятки свежих идей, передающийся от участников драйв, новые контакты и море опыта для будущих разработчиков. Полгода назад в наш рабочий чат внезапно прилетело сообщение: «Ребят, срочно! МИФИ организуют хакатон, нужна задача, желательно отправить сегодня!». Вызов был принят, и мы подготовили задание по работе с большими данными. В этом посте расскажу, чем студенты могут удивить разработчика с 15-летним стажем, в чем их сильные стороны, а что еще надо подтянуть.


Читать: https://habr.com/ru/companies/ru_mts/articles/879600/

#ru

@big_data_analysis | Другие наши каналы
Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем

Языки программирования будущего. Показываем, какие языки наиболее перспективны. Рассматриваем плюсы и минусы каждого Tproger

Читать: «Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем»

#ru

@big_data_analysis | Другие наши каналы
Как собрать ETL-процессы в Apache Airflow и перестать страдать

Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?

Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.

Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом.


Читать: https://habr.com/ru/companies/cian/articles/880382/

#ru

@big_data_analysis | Другие наши каналы
Федеративное обучение: учимся вместе, не раскрывая секретов

Как обучать ML-модели на большом объеме данных из разных источников, сохраняя их конфиденциальность? Ответ — федеративное машинное обучение (Federated Learning, или FL). Эксперт простыми словами на примерах рассказывает, что это такое, как работает и в каких областях применяется


Читать: https://habr.com/ru/companies/skillfactory/articles/880416/

#ru

@big_data_analysis | Другие наши каналы
Как знание о покупателе становится центром управленческих решений: история инструмента BIRD в «Ленте»

Привет, Habr!

Меня зовут Яна, я продакт-менеджер BigData в Lenta Tech, отвечаю за развитие цифровых продуктов блоков «Монетизация» и «Клиентская аналитика». Вместе с командой мы создали инструмент BIRD, который помогает превратить данные о покупателях в мощный рычаг для управления ассортиментом. Сегодня я расскажу, как мы используем аналитику поведения клиентов, чтобы принимать решения, которые действительно работают.


Читать: https://habr.com/ru/companies/lentatech/articles/880360/

#ru

@big_data_analysis | Другие наши каналы
Настройка Fusion Data Intelligence для Fusion Applications

Краткое содержание: Узнайте, как эффективно настроить интегрированную среду Fusion Data Intelligence для работы с Fusion Applications. В статье представлены шаги от экспертов Oracle, включая практические советы и рекомендации от ведущих специалистов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы