Data Analysis / Big Data

Алгоритм k-means и метод локтя: кластеризация данных с примерами на Python

Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.

Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.

Читать: https://habr.com/ru/companies/skillfactory/articles/877684/

#ru

@big_data_analysis | Другие наши каналы

👍2

396 views14:40

Data Analysis / Big Data

Плюсы и минусы SUMMARIZE

При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции SUMMARIZE. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE — добро пожаловать под кат!

Читать: https://habr.com/ru/companies/visiology/articles/877770/

#ru

@big_data_analysis | Другие наши каналы

👍2

351 views20:38

Data Analysis / Big Data

Apache Flink: использование и автоматическая проверка собственного сериализатора состояния

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.

В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

Список моих постов про Flink:

Читать: https://habr.com/ru/companies/ru_mts/articles/878070/

#ru

@big_data_analysis | Другие наши каналы

343 views15:03

Data Analysis / Big Data

Векторизация текста в NLP: от слов к числам

Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста.

Рассказываем о векторизации подробнее вместе с экспертом.

Читать: https://habr.com/ru/companies/skillfactory/articles/878112/

#ru

@big_data_analysis | Другие наши каналы

375 views16:16

Data Analysis / Big Data

У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT)

Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти.

SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями.
Подробнее об архитектуре SAMURAI

Читать: https://habr.com/ru/articles/878538/

#ru

@big_data_analysis | Другие наши каналы

357 views07:27

Data Analysis / Big Data

Приключение по перереносу аналитики из Oracle в Iceberg

Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального.

Читать: https://habr.com/ru/articles/878764/

#ru

@big_data_analysis | Другие наши каналы

320 views11:30

Data Analysis / Big Data

Как избежать проблем с метриками в вашем хранилище данных

Столкнулись с несоответствием метрик в компании? Проблема возникает, когда разные команды определяют их по-разному, что приводит к путанице. Решение: централизуйте определения метрик в коде. Используйте семантический слой для гибких запросов или заранее агрегированные таблицы для упрощения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

299 views17:32

Data Analysis / Big Data

Системное проектирование в интервью для дата-инженеров: как подготовиться

Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации

Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

285 views17:32

Data Analysis / Big Data

Использование seed данных в разных dbt проектах

Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

277 views17:32

Data Analysis / Big Data

Что делают Snowflake, Databricks, Redshift и BigQuery?

Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных

Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

347 views17:32

Data Analysis / Big Data

🎓 Прокачайте SQL-навыки: советы и приемы для инженеров данных

Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Start Data Engineering

25 SQL tips to level up your data engineering skills – Start Data Engineering

As a data engineer, you always want to uplevel yourself. SQL is the bread and butter of data engineering. Whether you are a seasoned pro or new to data engineering, there is always a way to improve your SQL skills. Do you ever think: > I wish I had known…

387 views17:33

Data Analysis / Big Data

Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы

389 views15:37

Data Analysis / Big Data

Визуализация связей с помощью диаграмм Венна

В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Bringing Venn Diagrams to Oracle Analytics: A Custom Extension Example

Venn diagram custom extension example allows you to visually represent logical relationships as circles, with intersections highlighting shared elements.

305 views19:24

Data Analysis / Big Data

Как создать тепловые карты ADW

Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

287 views19:24

Data Analysis / Big Data

Создание дашбордов в Fusion Analytics

Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Creating your own metadata dictionary in FDI

The Blog describes how Analytics users can build their own dashboards to navigate the meta data stored in Autonomous dataware house

293 views19:24

Data Analysis / Big Data

🔍 Безопасный доступ к данным: решение от Fusion Data Intelligence

Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

FDI : Replicating access of OAX_USER for Custom Schema

Note - when you execute this statement in Oracle client tools such as SQL developer . The grants are executed granting access to all the objects as well due to dyanmic sql grant statements

298 views19:25

Data Analysis / Big Data

Анализ инкрементных данных в лаборатории данных

Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

FDI: Analyzing ADW Incremental Loads

331 viewsedited 19:25

Data Analysis / Big Data

Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать

Всем привет! Это снова мы – направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам.

Читать: https://habr.com/ru/companies/glowbyte/articles/879170/

#ru

@big_data_analysis | Другие наши каналы

327 views09:17

Data Analysis / Big Data

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.

Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.

Читать: https://habr.com/ru/articles/878480/

#ru

@big_data_analysis | Другие наши каналы

389 views12:55

Data Analysis / Big Data

Как настроить интеграцию между Great Expectations и Impala для работы с большими данными

Рассказываем, как мы заставили GX подружиться с Impala.

Читать: «Как настроить интеграцию между Great Expectations и Impala для работы с большими данными»

#ru

@big_data_analysis | Другие наши каналы

398 views14:35

Data Analysis / Big Data

От комиксов до нейросетей: 5 книг, которые помогут начинающему Data Scientist'у

Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.

Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.

Почему книги? И при чем тут комиксы?

Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.

С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.

Читать: https://habr.com/ru/companies/ozonbank/articles/879798/

#ru

@big_data_analysis | Другие наши каналы

425 views14:37

About

Blog

Apps

Platform