Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.84K subscribers

566 photos

4 videos

2 files

2.77K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.84K subscribers

Data Analysis / Big Data

Системное проектирование в интервью для дата-инженеров: как подготовиться

Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации

Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

283 views17:32

Data Analysis / Big Data

Использование seed данных в разных dbt проектах

Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

274 views17:32

Data Analysis / Big Data

Что делают Snowflake, Databricks, Redshift и BigQuery?

Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных

Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

345 views17:32

Data Analysis / Big Data

🎓 Прокачайте SQL-навыки: советы и приемы для инженеров данных

Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Startdataengineering

25 SQL tips to level up your data engineering skills

As a data engineer, you always want to uplevel yourself. SQL is the bread and butter of data engineering. Whether you are a seasoned pro or new to data engineering, there is always a way to improve your SQL skills. Do you ever think:
> I wish I had known…

384 views17:33

Data Analysis / Big Data

Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы

387 views15:37

Data Analysis / Big Data

Визуализация связей с помощью диаграмм Венна

В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Bringing Venn Diagrams to Oracle Analytics: A Custom Extension Example

Venn diagram custom extension example allows you to visually represent logical relationships as circles, with intersections highlighting shared elements.

300 views19:24

Data Analysis / Big Data

Как создать тепловые карты ADW

Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

FDI: Generating ADW heatmaps

This article is a guide on how to generate ADW heatmaps.

284 views19:24

Data Analysis / Big Data

Создание дашбордов в Fusion Analytics

Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Creating your own metadata dictionary in FDI

The Blog describes how Analytics users can build their own dashboards to navigate the meta data stored in Autonomous dataware house

290 views19:24

Data Analysis / Big Data

🔍 Безопасный доступ к данным: решение от Fusion Data Intelligence

Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

FDI : Replicating access of OAX_USER for Custom Schema

Note - when you execute this statement in Oracle client tools such as SQL developer . The grants are executed granting access to all the objects as well due to dyanmic sql grant statements

295 views19:25

Data Analysis / Big Data

Анализ инкрементных данных в лаборатории данных

Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

FDI: Analyzing ADW Incremental Loads

A popular question from FDI customers is analyzing incremental data loaded via pipelines. This article presents a potential solution which customers can use.

328 viewsedited 19:25

Data Analysis / Big Data

Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать

Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам.

Читать: https://habr.com/ru/companies/glowbyte/articles/879170/

#ru

@big_data_analysis | Другие наши каналы

324 views09:17

Data Analysis / Big Data

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.

Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.

Читать: https://habr.com/ru/articles/878480/

#ru

@big_data_analysis | Другие наши каналы

386 views12:55

Data Analysis / Big Data

Как настроить интеграцию между Great Expectations и Impala для работы с большими данными

Рассказываем, как мы заставили GX подружиться с Impala.

Читать: «Как настроить интеграцию между Great Expectations и Impala для работы с большими данными»

#ru

@big_data_analysis | Другие наши каналы

395 views14:35

Data Analysis / Big Data

От комиксов до нейросетей: 5 книг, которые помогут начинающему Data Scientist'у

Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.

Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.

Почему книги? И при чем тут комиксы?

Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.

С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.

Читать: https://habr.com/ru/companies/ozonbank/articles/879798/

#ru

@big_data_analysis | Другие наши каналы

418 views14:37

Data Analysis / Big Data

Удивительный мир хакатонов: как я придумал для студентов задачку и что они с ней натворили

Привет, Хабр! Меня зовут Владимир Казаков, я руковожу продуктом «Обучение» в МТС Линк. А еще я с удовольствием помогаю организовывать и проводить хакатоны — это всегда десятки свежих идей, передающийся от участников драйв, новые контакты и море опыта для будущих разработчиков. Полгода назад в наш рабочий чат внезапно прилетело сообщение: «Ребят, срочно! МИФИ организуют хакатон, нужна задача, желательно отправить сегодня!». Вызов был принят, и мы подготовили задание по работе с большими данными. В этом посте расскажу, чем студенты могут удивить разработчика с 15-летним стажем, в чем их сильные стороны, а что еще надо подтянуть.

Читать: https://habr.com/ru/companies/ru_mts/articles/879600/

#ru

@big_data_analysis | Другие наши каналы

426 views11:58

Data Analysis / Big Data

Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем

Языки программирования будущего. Показываем, какие языки наиболее перспективны. Рассматриваем плюсы и минусы каждого Tproger

Читать: «Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем»

#ru

@big_data_analysis | Другие наши каналы

371 views10:04

Data Analysis / Big Data

Как собрать ETL-процессы в Apache Airflow и перестать страдать

Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?

Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.

Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом.

Читать: https://habr.com/ru/companies/cian/articles/880382/

#ru

@big_data_analysis | Другие наши каналы

475 views11:08

Data Analysis / Big Data

Федеративное обучение: учимся вместе, не раскрывая секретов

Как обучать ML-модели на большом объеме данных из разных источников, сохраняя их конфиденциальность? Ответ — федеративное машинное обучение (Federated Learning, или FL). Эксперт простыми словами на примерах рассказывает, что это такое, как работает и в каких областях применяется

Читать: https://habr.com/ru/companies/skillfactory/articles/880416/

#ru

@big_data_analysis | Другие наши каналы

421 views11:48

Data Analysis / Big Data

Как знание о покупателе становится центром управленческих решений: история инструмента BIRD в «Ленте»

Привет, Habr!

Меня зовут Яна, я продакт-менеджер BigData в Lenta Tech, отвечаю за развитие цифровых продуктов блоков «Монетизация» и «Клиентская аналитика». Вместе с командой мы создали инструмент BIRD, который помогает превратить данные о покупателях в мощный рычаг для управления ассортиментом. Сегодня я расскажу, как мы используем аналитику поведения клиентов, чтобы принимать решения, которые действительно работают.

Читать: https://habr.com/ru/companies/lentatech/articles/880360/

#ru

@big_data_analysis | Другие наши каналы

438 views17:56

Data Analysis / Big Data

Настройка Fusion Data Intelligence для Fusion Applications

Краткое содержание: Узнайте, как эффективно настроить интегрированную среду Fusion Data Intelligence для работы с Fusion Applications. В статье представлены шаги от экспертов Oracle, включая практические советы и рекомендации от ведущих специалистов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

364 views02:39