Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Итоги ViRush 2024: еще больше DAX, ETL, ИИ, методик внедрения и практических кейсов

В ноябре мы провели очередной форум ViRush, который стал самой масштабной конференцией Visiology. Однако наш ежегодный ивент отличался не только 500+ очными участниками. В 2024 году на мероприятии было много чего интересного и совершенно нового: элементы практической психологии, мастер-классы по работе с искусственным интеллектом, раскрытые специалистами заказчиков и системных интеграторов уникальные кейсы внедрения и инсайты о развитии рынка. Если вы не попали на саму площадку, под катом мы рассказываем о том, что вы пропустили, публикуем видео докладов и отвечаем на вопрос, почему именно ViRush 2024 открыл новый формат проведения конференций Visiology.


Читать: https://habr.com/ru/companies/visiology/articles/865760/

#ru

@big_data_analysis | Другие наши каналы
Airflow 3 is Coming

Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3  еще многого не хватает, чтобы действительно стать стандартом.

Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память.

Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.


Читать: https://habr.com/ru/articles/865674/

#ru

@big_data_analysis | Другие наши каналы
Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.


Читать: https://habr.com/ru/articles/865420/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer виртуальные окружения

В современной Python-разработке управление зависимостями и изоляция проектов являются критически важными аспектами. Независимо от того, работаете ли вы над небольшим скриптом или крупным проектом, правильная организация окружений поможет избежать конфликтов между пакетами и обеспечит воспроизводимость вашего кода.


Читать: https://habr.com/ru/articles/861412/

#ru

@big_data_analysis | Другие наши каналы
GPT: Революция или Апокалипсис

GPT: Революция или Апокалипсис

Человек против машины. Нейросети — конец эпохи человеческого интеллекта?


Читать: https://habr.com/ru/articles/866478/

#ru

@big_data_analysis | Другие наши каналы
Контроль данных в Oracle Analytics

Узнайте, как сесссионные переменные в Oracle Analytics помогают ограничивать доступ к данным в внешних наборах данных. Это решение позволяет повысить безопасность и управляемость данных, делая анализ более надежным и целенаправленным.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В этой публикации я хочу поделиться подходами к тестированию, которые используются нашей командой как в проектной работе, так и при разработке Lakehouse-платформы данных Data Ocean Nova, и познакомить вас с результатами сравнения различных движков и систем. Вы узнаете, как правильно ставить цели, выбирать методику и из каких сценариев ее нужно составлять, как протоколировать результаты и делать выводы. И самое главное – получите ответ на вопросы: кто быстрее: заяц Trino или антилопа Impala?


Читать: https://habr.com/ru/articles/866862/

#ru

@big_data_analysis | Другие наши каналы
👍1
Построение графиков простых чисел

Почему простые числа, отображенные в полярных координатах, имеют форму спиралей или линий?

Создание сюжета

Для начала нам необходимо увидеть, каковы эти шаблоны на самом деле. Давайте начнем наше исследование с импорта базовых модулей.

import math
import sympy
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format='retina'
plt.style.use('dark_background')
Один из модулей, который я здесь использую, но который я обычно не использую, — это SymPy, библиотека Python для символьной математики. Хотя SymPy предлагает широкий спектр функций для вычислений, я использую его просто для генерации простых чисел.

print(list(sympy.primerange(0, 100)))

[2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97]
Полярные координаты

Сначала давайте напишем функцию, которая принимает некоторое число в качестве входных данных и преобразует его в декартово представление полярных координат. Выходные данные сами по себе являются декартовыми, но координаты, которые они представляют, соответствуют полярным координатам. Мы могли бы понимать эту функцию как преобразованиеС: Р →Р2С:Р→Р2такой что

С( х ) = ( х соз( х ) , х грех( х ) )

В Python мы можем реализовать этот перевод следующим образом:

def get_coordinate(num):
return num * np.cos(num), num * np.sin(num)

Давайте проведем быструю проверку работоспособности и увидим, чтоС( 1 )С(1)возвращает некоторую точку в первом квадранте.

get_coordinate(1)

(0.5403023058681398, 0.8414709848078965)
Отлично! Однако проблема с текущей настройкой заключается в том, что она не векторизована; чтобы сгенерировать координаты, скажем, для десяти чисел, нам понадобится цикл for для генерации координат для каждого из десяти чисел.


Читать: https://habr.com/ru/articles/866948/

#ru

@big_data_analysis | Другие наши каналы
1
8 лучших советов для аутсорсинга разметки данных

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких.

Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты:

Алексей Корнилов, Special Projects Group Manager

Дмитрий Рогальский, Moderation Group Manager


Читать: https://habr.com/ru/companies/data_light/articles/866474/

#ru

@big_data_analysis | Другие наши каналы
Лучшие крупные языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.


Читать: https://habr.com/ru/articles/866932/

#ru

@big_data_analysis | Другие наши каналы
Как перейти от ручной проверки данных к автоматической: решение ИЦ «Безопасный транспорт»

Об Инновационном центре

Инновационный центр «Безопасный Транспорт» создан в 2017 году на базе ЦОДД для работы с Big data и решения задач Транспортного комплекса Москвы. Команда экспертов изучает и анализирует потребности жителей столицы, а также разрабатывает и внедряет инновационные цифровые сервисы и решения для транспорта и дорог города.

На данный момент на базе Инновационного центра построено хранилище данных Транспортного комплекса столицы, которые используются во многих проектах и продуктах, направленных на оказание поддержки в принятии управленческих решений Правительству Москвы, а также на улучшение транспортной инфраструктуры города в целом.

Хранилище данных - сердце Транспортного комплекса

С 2013 года Москва стремительно росла, улучшалась и расширяла свои границы. Логично, что  это влекло за собой бурное развитие Транспортного комплекса, а вместе с ним увеличивалось и количество обслуживающих его IT-систем и данных, которые эти системы генерируют.

Для реализации концепции data driven нужно было собрать все эти данные в одном месте, а для этого была нужна отдельная команда и отдельное подразделение. С этого в 2017 году и началась история ИЦ, сердцем которого является хранилище данных.

На данный момент данные хранилища Инновационного Центра используются во множестве информационно-аналитических продуктов.  В их числе — интерактивная аналитическая отчётность, цифровое мастер планирование города, Экологическая карта, Коммуникационная платформа, Карта аварийности, Справка загруженности и другие решения, направленные на улучшение и развитие Транспортного комплекса Москвы.


Читать: https://habr.com/ru/articles/867082/

#ru

@big_data_analysis | Другие наши каналы
Как честно распределить вычислительные ресурсы? Показываем на примере YTsaurus

YTsaurus — платформа для распределённого хранения и обработки данных. С помощью неё пользователи могут производить вычисления с данными, которые хранятся на кластере. За запуск этих вычислений отвечает один из центральных компонентов системы — планировщик. Зачастую ресурсов кластера не хватает, чтобы одновременно запустить все желаемые вычислительные задачи. Поэтому одна из важных задач планировщика — умение грамотно распределять вычислительные ресурсы между пользователями.

Меня зовут Егор Щербин, я работаю в Yandex Infrastructure, в команде планировщика YTsaurus. О нём и расскажу в этой статье. А также о запуске вычислений в кластере YTsaurus, распределении ресурсов между вычислениями и о том, как управлять распределением, чтобы все операции получали ровно столько, сколько требуется.


Читать: https://habr.com/ru/companies/yandex/articles/860562/

#ru

@big_data_analysis | Другие наши каналы
Как посчитать биологические данные и не уронить сервер и ноутбук?

Привет, Хабр

Наверняка вы слышали о биоинформатике. Звучит перспективно, приятно и полезно. Часто, ввиду всеобщих рассказов о перспективности и возможностях направления, некоторые люди из IT или из «мокрой» биологии (так называют область биологии, где работают в лаборатории с бактериями и прочими возможными объектами живой и не очень природы и реагентами) хотят перейти в биоинформатику. Однако далеко не все понимают, что же это за область такая и почему с ней сложно работать.

Читать: https://habr.com/ru/companies/first/articles/866618/

#ru

@big_data_analysis | Другие наши каналы
Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора

Я - Алексей Розанов, руководитель отдела пресейл и работы с партнерами Luxms, хочу с вами честно поговорить о том, что собой представляет Luxms BI. Поскольку полагаться только на рейтинги нельзя, а опыт других компаний сильно зависит от их задач, требований и условий, то хочу предложить вам еще один взгляд - взгляд вендора.

Это будет объективный, насколько это вообще возможно, обзор плюсов и минусов платформы Luxms BI, основанный на общении с нашими партнерами, действующими и потенциальными заказчиками. Я не буду голословным и предоставлю максимальное количество подтверждений тому, о чем буду говорить.


Читать: https://habr.com/ru/companies/luxms_bi/articles/867262/

#ru

@big_data_analysis | Другие наши каналы
Отход от Airflow: почему Dagster — это оркестратор данных следующего поколения

Мы запустили Dagster, потому что в мире данных наблюдается кризис инструментов и инженерии. Существует драматическое несоответствие между сложностью и критичностью данных и инструментами и процессами, которые существуют для их поддержки.


Читать: https://habr.com/ru/articles/867132/

#ru

@big_data_analysis | Другие наши каналы
Генерация дашборда по DAX мере через AI DAX движок

Привет, Хабр! AI инструменты широко используются в разработке и других сферах, казалось бы, что ещё можно в них улучшить или добавить? Всё зависит от предметной области, в области Business Intelligence при работе с языком запросов DAX актуальным может быть работа с мерами и создание новых мер. Рутинной задачей при этом является создание схемы данных и заполнение её данными для каждой меры, или можно использовать уже имеющуюся схему, однако при этом при переходе с одной схемы (где выполняются запросы) на другую приходится переименовывать таблицы и столбцы, сопоставлять типы данных и т.д. В связи с этим актуальным может быть инструмент для создания схемы данных для меры "на лету" и выполнения запроса с мерой, т.е. построение запроса и дашборда (концептуально, без форматрования) по мере "на лету".

В dax.do можно строить DAX запрос только для существующих схем, т.е. приходится тратить время на переименование полей и таблиц в DAX запросе при переносе написанного DAX-запроса из dax.do.

В этой статье рассматривается решение такой проблемы — генерация схемы, связей, запроса и дашборда "на лету" (концептуально, по аналогии с отображением дашборда на основе DAX в dax.do), но только сугубо средствами AI, без реальных DAX движков. Надеюсь, такие инструменты или идеи могут быть полезны аналитикам и разработчикам для повседневной работы, если Вам интересен AI в DAX — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/866534/

#ru

@big_data_analysis | Другие наши каналы
Data driven на практике: с чего начать, как избежать ошибок и эффективно применять

Привет, меня зовут Александр Окороков, я основатель и генеральный директор ИТ-компании и автор медиа вАЙТИ. Мы помогаем заказчикам выстроить оптимальную стратегию принятия управленческих решений, чтобы эффективно использовать ресурсы и не терять деньги. Именно эту задачу решает data-driven-подход к принятию решений и управлению продуктом с опорой на данные.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/867292/

#ru

@big_data_analysis | Другие наши каналы
Повышение качества данных с использованием Zero Bug Policy

Олег Харатов, Technical Unit Lead в Авито, рассказывает, как навести порядок в огромном хранилище и не сойти с ума.

Читать: «Повышение качества данных с использованием Zero Bug Policy»

#ru

@big_data_analysis | Другие наши каналы
Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Одной из ключевых точек контакта компании с клиентами является техподдержка, которая позволяет оперативно решать вопросы и отрабатывать обратную связь. Но клиенты, которые хотят консультацию и информацию по конкретному вопросу, часто создают нагрузку, которую небольшие отделы поддержки обработать не могут. В итоге бизнесу нужно либо расширять штат, либо автоматизировать часть процессов. В этом помогают чат-боты и нейросети.

Меня зовут Александр Волынский. Я технический менеджер продукта в подразделении Applied ML. В этой статье я хочу рассказать об LLM и RAG, вариантах их использования на примере нашего бота для поддержки клиентов, а также о сценариях применения полученной реализации.


Читать: https://habr.com/ru/companies/vk/articles/866906/

#ru

@big_data_analysis | Другие наши каналы
Рынок дата-инженеров и прогноз на 2025

В этой статье вы сможете узнать в каком состоянии находится рынок дата-инженеров в 2024-ом и что с ним будет в 2025-ом.


Читать: https://habr.com/ru/articles/864780/

#ru

@big_data_analysis | Другие наши каналы