Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как выбрать ноутбук или ПК для программирования?

Как выбрать ноутбук или ПК для программирования. Показываем требования к железу для программистов. Рассматриваем основные нюансы Tproger

Читать: «Как выбрать ноутбук или ПК для программирования?»

#ru

@big_data_analysis | Другие наши каналы
🤣2
Получение SQL для PostgreSQL из DAX на основе AI

Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с Power BI на другой продукт требуется время на перевод DAX логики из Power BI. В связи с этим актуальны инструменты расширения списка платформ, на которых можно использовать DAX без Power BI.

Тем, кто интересуется «переводом» DAX на PostgreSQL — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/871932/

#ru

@big_data_analysis | Другие наши каналы
NVIDIA Cosmos: система генерации физически достоверных симуляций для ИИ

Статья основана на анализе публично доступной информации о платформе NVIDIA Cosmos, включая официальные анонсы и технические блоги.

На выставке CES 2025 компания NVIDIA представила революционную платформу Cosmos, которая обещает кардинально изменить подход к разработке систем искусственного интеллекта, взаимодействующих с физическим миром. Платформа уже привлекла внимание ключевых игроков рынка, таких как Uber, Waabi и XPENG, что говорит о её серьёзном потенциале. В этой статье попытался разобраться, почему Cosmos вызывает такой интерес и какие возможности она открывает для разработчиков.


Читать: https://habr.com/ru/articles/872112/

#ru

@big_data_analysis | Другие наши каналы
Перенос данных с Rclone: руководство по настройке

Текст: Узнайте, как использовать Rclone для миграции данных в OCI Object Storage и Hadoop Distributed File System. Статья подробно описывает процесс установки и конфигурации, облегчая перенос данных в современные облачные и распределённые системы хранения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Улучшение RAG с помощью графов знаний

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.

Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.

Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»


Читать: https://habr.com/ru/articles/871700/

#ru

@big_data_analysis | Другие наши каналы
В PostgreSQL необходим официальный бенчмарк для функции uuidv7()

В 18 версии PostgreSQL появится функция uuidv7(). Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4.

Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем.

Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.


Читать: https://habr.com/ru/articles/872306/

#ru

@big_data_analysis | Другие наши каналы
Эра «Живого» Интеллекта

Подробный перевод ежегодного обзора будущего технологий и тенденций развития от Future Today Institute - вышедшего в декабре 2024 года.

Оригинал доклада "The Era of Living Intelligence" можно посмотреть ЗДЕСЬ.

Авторы - Amy Webb и Sam Jordan.


Читать: https://habr.com/ru/articles/872984/

#ru

@big_data_analysis | Другие наши каналы
Миграция данных: Понятие, виды и примеры на Python

Миграция данных — это важный процесс, который включает в себя перенос информации из одной системы хранения данных в другую. Это может быть необходимо по множеству причин, таких как обновление систем, интеграция новых технологий или соблюдение нормативных требований. В данной статье мы рассмотрим основные виды миграции данных и приведем примеры реализации некоторых из них на Python.


Читать: https://habr.com/ru/articles/872996/

#ru

@big_data_analysis | Другие наши каналы
Миграция данных: Понятие, виды и примеры на Python

Миграция данных — это важный процесс, который включает в себя перенос информации из одной системы хранения данных в другую. Это может быть необходимо по множеству причин, таких как обновление систем, интеграция новых технологий или соблюдение нормативных требований. В данной статье мы рассмотрим основные виды миграции данных и приведем примеры реализации некоторых из них на Python.


Читать: https://habr.com/ru/articles/872998/

#ru

@big_data_analysis | Другие наши каналы
Нейросети vs Stack Overflow: что происходит?

Источник изображения.

Stack Overflow, о котором, вероятно, знают на Хабре все, сейчас проигрывает неожиданному конкуренту — нейросетям. Пессимисты даже считают, что может завершиться без малого 20-летняя история проекта. Проблема в том, что все больше разработчиков предпочитают задавать свои вопросы не людям, а искусственному интеллекту. Так быстрее и во многих случаях эффективнее. Давайте разберемся, что там происходит.


Читать: https://habr.com/ru/companies/selectel/articles/872938/

#ru

@big_data_analysis | Другие наши каналы
Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

В статье расскажу, как настроить мониторинг Apache NiFi и алерты при переполнении очереди по достижении 8000 FlowFiles.

Зачем вам читать эту статью? Переполнение очереди FlowFiles в Apache NiFi может привести к замедлению или остановке обработки данных, мониторинг позволит своевременно среагировать на проблемы с производительностью и выявить узкие места.


Читать: https://habr.com/ru/articles/873082/

#ru

@big_data_analysis | Другие наши каналы
Выполнение DAX запроса AI DAX движка в СУБД на примере PostgreSQL

Привет, Хабр! DAX является мощным аналитическим языком запросов и активно используется во множестве проектов. Кроме того, на текущем уровне развития AI он способен условно в режиме реального времени преобразовать DAX запросы в запросы одной из СУБД, например, PostgreSQL, но, конечно, с рядом ограничений на сложность DAX запроса, схему данных и т.д. В связи с этим может быть актуальным вопрос, реально ли использовать «AI DAX движок» в сочетании с выполнением SQL запросов, сгенерированных этим движком, в одной из СУБД, т.е. выполнить DAX без Power BI на PostgreSQL источнике? Интересующимся возможностями DAX AI на примере PostgreSQL — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/873182/

#ru

@big_data_analysis | Другие наши каналы
Кто в IT зарабатывает больше всех: статистика 2025 года

Кто в ИТ имеет самый высокий доход. Рейтинг специальностей с самыми высокими зарплатами в 2025. Какие профессии стоит освоить.

Читать: «Кто в IT зарабатывает больше всех: статистика 2025 года»

#ru

@big_data_analysis | Другие наши каналы
Как использовать seed из другого dbt-проекта?

В вашей компании несколько dbt-проектов? Узнайте, как задействовать seed данные из одного проекта в другом. Статья объясняет, как создать и хранить dbt-пакеты, а также как использовать зависимости между проектами и хранить данные в хранилище.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Apache Flink: тестирование собственного сериализатора состояния

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитика. Это мой одиннадцатый пост про Apache Flink. В предыдущей части мы рассмотрели сериализацию данных во Flink, написали сериализатор, поддерживающий эволюцию схемы для Flink-состояния в операторе на основе Jackson.

В этой части мы научимся писать тесты на эволюцию схемы состояния при использовании своего сериализатора.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Этот материал соответствует релизной ветке с названием release/10_test_JacksonStateSerializer.


Читать: https://habr.com/ru/companies/ru_mts/articles/873436/

#ru

@big_data_analysis | Другие наши каналы
Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.


Читать: https://habr.com/ru/companies/arenadata/articles/872744/

#ru

@big_data_analysis | Другие наши каналы
Жизнь после ухода западных вендоров: адаптация и новые возможности

Привет, Хабр! Меня зовут Александр Тарасов, я архитектор департамента поддержки продаж Arenadata. Уход крупных зарубежных вендоров, таких как Oracle и Microsoft, заставил нас переосмыслить подходы к управлению данными и освоить альтернативные решения. Если с транзакционной нагрузкой всё относительно ясно благодаря PostgreSQL, то в аналитике дела обстоят сложнее, и здесь особенно важно адаптироваться к новым инструментам. Сейчас на первый план выходят системы с открытым исходным кодом, которые не только поддерживаются сообществом, но и открывают новые возможности для роста и экспериментов, оставаясь актуальными в условиях меняющегося рынка.

В этой статье я расскажу, как разработчикам и архитекторам адаптироваться к новым условиям, какие технологии стали достойной заменой западным решениям и какие шаги помогут специалистам эффективно использовать открытые платформы для укрепления своего карьерного трека.
Выход есть

Читать: https://habr.com/ru/companies/arenadata/articles/867476/

#ru

@big_data_analysis | Другие наши каналы
Как сгладить облачные турбулентности

В условиях ограничения доступа к самым современным технологиям компании всё чаще стремятся переложить заботу о поддержании работоспособности ИТ-инфраструктуры на профессионалов. И вариантов тут два: либо консолидировать вычислительные ресурсы на собственной технологической площадке, развитием которой будут заниматься своя ИТ-служба, либо отдавать вычислительные ресурсы на аутсорсинг, то есть пользоваться услугами облачных провайдеров. Проще, конечно же, доверить управление ИТ-инфраструктурой сторонним профессионалам, однако надежнее и безопаснее развивать собственные компетенции за счет внедрения современных средств автоматизации управления Центрами обработки данных (ЦОД).


Читать: https://habr.com/ru/companies/usetech/articles/873902/

#ru

@big_data_analysis | Другие наши каналы
ПИКантная миграция: путь от Tableau к FineBI

Хабр, привет! Сегодня вашему вниманию представляю статью активиста нашего сообщества FineBI GlowByte, администратора системы FineBI в компании «ПИК Диджитал» и просто классного специалиста Сергея Усова. Он расскажет об особенностях перехода компании ПИК на новую систему бизнес-аналитики и поделится очень крутыми инсайтами. Приятного прочтения!


Читать: https://habr.com/ru/companies/glowbyte/articles/873922/

#ru

@big_data_analysis | Другие наши каналы
Новогодние обновления в Oracle Analytics Cloud

Oracle Analytics Cloud в январе 2025 года получает обновления: улучшен ИИ-анализ, расширено моделирование данных, ускорен импорт данных, добавлены новые возможности для дашбордов и улучшены инструменты для совместной работы. Узнайте больше о возможностях аналитики нового уровня!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы