Системное проектирование в интервью для дата-инженеров: как подготовиться
Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации
Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации
Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Использование seed данных в разных dbt проектах
Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Что делают Snowflake, Databricks, Redshift и BigQuery?
Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных
Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных
Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
🎓 Прокачайте SQL-навыки: советы и приемы для инженеров данных
Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Startdataengineering
25 SQL tips to level up your data engineering skills
As a data engineer, you always want to uplevel yourself. SQL is the bread and butter of data engineering. Whether you are a seasoned pro or new to data engineering, there is always a way to improve your SQL skills. Do you ever think:
> I wish I had known…
> I wish I had known…
Запускаем локально Deepseek-R1 для приложения RAG
Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.
Читать: «Запускаем локально Deepseek-R1 для приложения RAG»
#ru
@big_data_analysis | Другие наши каналы
Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.
Читать: «Запускаем локально Deepseek-R1 для приложения RAG»
#ru
@big_data_analysis | Другие наши каналы
Визуализация связей с помощью диаграмм Венна
В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Bringing Venn Diagrams to Oracle Analytics: A Custom Extension Example
Venn diagram custom extension example allows you to visually represent logical relationships as circles, with intersections highlighting shared elements.
Как создать тепловые карты ADW
Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
FDI: Generating ADW heatmaps
This article is a guide on how to generate ADW heatmaps.
Создание дашбордов в Fusion Analytics
Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Creating your own metadata dictionary in FDI
The Blog describes how Analytics users can build their own dashboards to navigate the meta data stored in Autonomous dataware house
🔍 Безопасный доступ к данным: решение от Fusion Data Intelligence
Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
FDI : Replicating access of OAX_USER for Custom Schema
Note - when you execute this statement in Oracle client tools such as SQL developer . The grants are executed granting access to all the objects as well due to dyanmic sql grant statements
Анализ инкрементных данных в лаборатории данных
Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
FDI: Analyzing ADW Incremental Loads
A popular question from FDI customers is analyzing incremental data loaded via pipelines. This article presents a potential solution which customers can use.
Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать
Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам.
Читать: https://habr.com/ru/companies/glowbyte/articles/879170/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам.
Читать: https://habr.com/ru/companies/glowbyte/articles/879170/
#ru
@big_data_analysis | Другие наши каналы
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.
Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.
Читать: https://habr.com/ru/articles/878480/
#ru
@big_data_analysis | Другие наши каналы
В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.
Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.
Читать: https://habr.com/ru/articles/878480/
#ru
@big_data_analysis | Другие наши каналы
Как настроить интеграцию между Great Expectations и Impala для работы с большими данными
Рассказываем, как мы заставили GX подружиться с Impala.
Читать: «Как настроить интеграцию между Great Expectations и Impala для работы с большими данными»
#ru
@big_data_analysis | Другие наши каналы
Рассказываем, как мы заставили GX подружиться с Impala.
Читать: «Как настроить интеграцию между Great Expectations и Impala для работы с большими данными»
#ru
@big_data_analysis | Другие наши каналы
От комиксов до нейросетей: 5 книг, которые помогут начинающему Data Scientist'у
Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.
Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.
Почему книги? И при чем тут комиксы?
Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.
С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.
Читать: https://habr.com/ru/companies/ozonbank/articles/879798/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.
Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.
Почему книги? И при чем тут комиксы?
Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.
С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.
Читать: https://habr.com/ru/companies/ozonbank/articles/879798/
#ru
@big_data_analysis | Другие наши каналы
Удивительный мир хакатонов: как я придумал для студентов задачку и что они с ней натворили
Привет, Хабр! Меня зовут Владимир Казаков, я руковожу продуктом «Обучение» в МТС Линк. А еще я с удовольствием помогаю организовывать и проводить хакатоны — это всегда десятки свежих идей, передающийся от участников драйв, новые контакты и море опыта для будущих разработчиков. Полгода назад в наш рабочий чат внезапно прилетело сообщение: «Ребят, срочно! МИФИ организуют хакатон, нужна задача, желательно отправить сегодня!». Вызов был принят, и мы подготовили задание по работе с большими данными. В этом посте расскажу, чем студенты могут удивить разработчика с 15-летним стажем, в чем их сильные стороны, а что еще надо подтянуть.
Читать: https://habr.com/ru/companies/ru_mts/articles/879600/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Владимир Казаков, я руковожу продуктом «Обучение» в МТС Линк. А еще я с удовольствием помогаю организовывать и проводить хакатоны — это всегда десятки свежих идей, передающийся от участников драйв, новые контакты и море опыта для будущих разработчиков. Полгода назад в наш рабочий чат внезапно прилетело сообщение: «Ребят, срочно! МИФИ организуют хакатон, нужна задача, желательно отправить сегодня!». Вызов был принят, и мы подготовили задание по работе с большими данными. В этом посте расскажу, чем студенты могут удивить разработчика с 15-летним стажем, в чем их сильные стороны, а что еще надо подтянуть.
Читать: https://habr.com/ru/companies/ru_mts/articles/879600/
#ru
@big_data_analysis | Другие наши каналы
Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем
Языки программирования будущего. Показываем, какие языки наиболее перспективны. Рассматриваем плюсы и минусы каждого Tproger
Читать: «Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем»
#ru
@big_data_analysis | Другие наши каналы
Языки программирования будущего. Показываем, какие языки наиболее перспективны. Рассматриваем плюсы и минусы каждого Tproger
Читать: «Топ-10 малоизвестных языков программирования, которые могут выстрелить в будущем»
#ru
@big_data_analysis | Другие наши каналы
Как собрать ETL-процессы в Apache Airflow и перестать страдать
Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?
Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.
Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом.
Читать: https://habr.com/ru/companies/cian/articles/880382/
#ru
@big_data_analysis | Другие наши каналы
Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?
Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.
Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом.
Читать: https://habr.com/ru/companies/cian/articles/880382/
#ru
@big_data_analysis | Другие наши каналы
Федеративное обучение: учимся вместе, не раскрывая секретов
Как обучать ML-модели на большом объеме данных из разных источников, сохраняя их конфиденциальность? Ответ — федеративное машинное обучение (Federated Learning, или FL). Эксперт простыми словами на примерах рассказывает, что это такое, как работает и в каких областях применяется
Читать: https://habr.com/ru/companies/skillfactory/articles/880416/
#ru
@big_data_analysis | Другие наши каналы
Как обучать ML-модели на большом объеме данных из разных источников, сохраняя их конфиденциальность? Ответ — федеративное машинное обучение (Federated Learning, или FL). Эксперт простыми словами на примерах рассказывает, что это такое, как работает и в каких областях применяется
Читать: https://habr.com/ru/companies/skillfactory/articles/880416/
#ru
@big_data_analysis | Другие наши каналы
Как знание о покупателе становится центром управленческих решений: история инструмента BIRD в «Ленте»
Привет, Habr!
Меня зовут Яна, я продакт-менеджер BigData в Lenta Tech, отвечаю за развитие цифровых продуктов блоков «Монетизация» и «Клиентская аналитика». Вместе с командой мы создали инструмент BIRD, который помогает превратить данные о покупателях в мощный рычаг для управления ассортиментом. Сегодня я расскажу, как мы используем аналитику поведения клиентов, чтобы принимать решения, которые действительно работают.
Читать: https://habr.com/ru/companies/lentatech/articles/880360/
#ru
@big_data_analysis | Другие наши каналы
Привет, Habr!
Меня зовут Яна, я продакт-менеджер BigData в Lenta Tech, отвечаю за развитие цифровых продуктов блоков «Монетизация» и «Клиентская аналитика». Вместе с командой мы создали инструмент BIRD, который помогает превратить данные о покупателях в мощный рычаг для управления ассортиментом. Сегодня я расскажу, как мы используем аналитику поведения клиентов, чтобы принимать решения, которые действительно работают.
Читать: https://habr.com/ru/companies/lentatech/articles/880360/
#ru
@big_data_analysis | Другие наши каналы
Настройка Fusion Data Intelligence для Fusion Applications
Краткое содержание: Узнайте, как эффективно настроить интегрированную среду Fusion Data Intelligence для работы с Fusion Applications. В статье представлены шаги от экспертов Oracle, включая практические советы и рекомендации от ведущих специалистов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Краткое содержание: Узнайте, как эффективно настроить интегрированную среду Fusion Data Intelligence для работы с Fusion Applications. В статье представлены шаги от экспертов Oracle, включая практические советы и рекомендации от ведущих специалистов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Set up an Integrated Fusion Data Intelligence instance for use with a Fusion Application
Set up an Integrated Fusion Data Intelligence instance for use with a Fusion Application
Authors
Jaydeep Puranik - Principal Solutions Architect
Bindu Goparaju – Manager Oracle Analytics Service Excellence
With inputs from:
Venkata Anil Kumar Motamarry…
Authors
Jaydeep Puranik - Principal Solutions Architect
Bindu Goparaju – Manager Oracle Analytics Service Excellence
With inputs from:
Venkata Anil Kumar Motamarry…