Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.83K subscribers

568 photos

4 videos

2 files

2.85K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.83K subscribers

Data Analysis / Big Data

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика

Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом.

Читать: https://habr.com/ru/companies/visiology/articles/811955/

@big_data_analysis

509 views06:55

Data Analysis / Big Data

Forwarded from Нейроканал

This media is not supported in your browser

VIEW IN TELEGRAM

Langfuse для трейсинга приложений LLM + LangChain

Создание и чтение трейсбека — довольно линейный процесс, если вы используете фреймворк. Однако если речь идёт о комбинации SDK, для каждого из них приходится дополнительно работать.

Langfuse — это своеобразный аналог Sentry для LLM-приложений. Создатели этого инструмента описали (на английском) процесс установки и настройки LF с примерами декратора @observe.

Цена: бесплатно

#llm #rag #инструмент

@neuro_channel

❤1

513 views07:21

Data Analysis / Big Data

Планирование смен сотрудников в офлайн ритейле: как упорядочить хаос

Всем привет! На связи команда ad-hoc аналитики X5 Tech. В этой статье мы – Лев Баскин, Андрей Полушкин и Александр Сахнов – расскажем, как без регистрации и смс спланировать смены для сотрудников офлайн-магазинов. Казалось бы, задача достаточно тривиальная: берём симплекс метод или другой метод условной оптимизации и на основе ожидаемой загрузки получаем расписание сотрудников. Однако, не всё так просто.

Первое препятствие на пути – масштабы. У Х5 порядка 25 000 магазинов от Калининграда до Владивостока и более 378 000 работников, обеспечивающих непрерывное функционирование бизнеса. У каждого магазина своя специфика и различающиеся бизнес-процессы. Во-вторых, даже зная, сколько часов занимает тот или иной процесс и как он локализован во времени, из-за внешних факторов нельзя так просто взять и поместить его в расписание. Например, обстановка на дорогах может повлиять на время поставки и, как следствие, сдвинуть ряд процессов в магазине. Достаточно предисловия, перейдём к сути!

Читать: https://habr.com/ru/companies/X5Tech/articles/812093/

@big_data_analysis

644 views12:43

Data Analysis / Big Data

На практике пробуем KAN – принципиально новую архитектуру нейросетей

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.

Читать: https://habr.com/ru/articles/812147/

@big_data_analysis

700 views15:29

Data Analysis / Big Data

YouTube-видео превратили в бесконечное хранилище данных

Энтузиасты написали алгоритм AKA ISG, который превращает видео на YouTube в бесплатное бесконечное хранилище данных.

Читать: «YouTube-видео превратили в бесконечное хранилище данных»

@big_data_analysis

661 views16:13

Data Analysis / Big Data

Forwarded from Нейроканал

Релизнулся PyTorch 2.3

Самый нашумевший ML-фреймворк десятилетия, на котором «сидят» GPT, обновился,

– Реализована поддержка ядер Triton в torch.compile: кастомные ядра без потери производительности;
– Представлена Tensor Parallel AP для эффективного обучения LLM;
– Добавлена полуструктурированную разреженность на матрицах (torch.sparse.SparseSemiStructuredTensor), ускоряющая операции умножения и проч.

Полный Release Note

#фреймворк

@neuro_channel

❤2

516 views16:19

Data Analysis / Big Data

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.

Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.

Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.

Читать: https://habr.com/ru/companies/lamoda/articles/810705/

@big_data_analysis

571 views08:15

Data Analysis / Big Data

Unit-тестирование Flink-операторов, Job: Flink MiniCluster

Привет, Хабр! С вами вновь Александр Бобряков, техлид в команде МТС Аналитики. И я с очередной статьёй из цикла про фреймворк Apache Flink.

В предыдущей части я рассказал, как тестировать stateless- и stateful-операторы Flink с использованием вспомогательных TestHarness-абстракций, предоставляемых Flink.

В этой статье напишем тесты на всю джобу с использованием мини-кластера Flink и при помощи JUnit Extension. Ещё мы начнём выделять удобные вспомогательные абстракции для тестов, которые понадобятся позже.

Читать: https://habr.com/ru/companies/ru_mts/articles/812905/

@big_data_analysis

537 views13:15

Data Analysis / Big Data

regexp — большие гонки

Так или иначе сталкиваться с регулярными выражениями приходилось большинству разработчиков. Мое первое знакомство произошло с реализацией regex в STL std::regexp. Чаще всего регулярки используются в проверке входных данных, что-то вроде проверки корректности введенного пользователем URL, адреса IPv4, адреса IPv6, телефонного номера и при этом скорость выполнения операции regex не сильно влияет на время отклика от приложения. Но, что если вам приходится проверять сотни, тысячи или даже десятки тысяч правил и все это на постоянно меняющихся наборах входных данных в реальном времени? В этой ситуации вам не просто нужен быстрый алгоритм, вам понадобится лучший из них, вам понадобиться чемпион!
Участвовать в заезде!

Читать: https://habr.com/ru/articles/812953/

@big_data_analysis

👍1

517 views15:43

Data Analysis / Big Data

Расчет рентабельности инвестиций и другие задачи дата-сайентиста

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.

Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.

Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.

Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.

Читать: https://habr.com/ru/articles/813195/

@big_data_analysis

515 views15:04

Data Analysis / Big Data

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.

Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.

Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.

Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".

Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.

Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации

Читать: https://habr.com/ru/articles/813229/

@big_data_analysis

556 views19:13

Data Analysis / Big Data

Как и зачем компании могут применять ML? Разбираемся на примере Netflix

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.

Читать: https://habr.com/ru/companies/selectel/articles/811585/

@big_data_analysis

521 views08:15

Data Analysis / Big Data

Расчет рентабельности инвестиций и другие задачи дата-сайентист

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.

Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.

Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.

Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.

Читать: https://habr.com/ru/articles/813305/

@big_data_analysis

625 views08:31

Data Analysis / Big Data

Грейды в аналитике. Как быстро повысить свой грейд?

Привет, Хабр!

Меня зовут Денис, я Ведущий Продуктовый Аналитик из МТС. Давайте сегодня поговорим про грейды в аналитике. Чем они отличаются? Расскажу, как можно быстро повышать свой грейд.

В целом, в разных компаниях разное понимание того, чем должен обладать тот или иной грейд. Однако, есть основные пункты, которые повторяются во многих командах, про них мы сегодня и поговорим.

Читать: https://habr.com/ru/articles/813567/

@big_data_analysis

629 views08:10

Data Analysis / Big Data

Дата-майнинг: процесс, типы методики и инструменты

Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации.

В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах.
Что такое дата-майнинг?

Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий.

Например, при помощи дата-майнинга туристическая компания может обнаружить, что путешественники-одиночки часто бронируют отели рядом с технологическими хабами или коворкинг-пространствами, даже если они расположены далеко от основных туристических достопримечательностей. Это может намекнуть о том, что существенный процент путешествующих в одиночестве объединяет поездки для работы и отдыха, предпочитая места, удовлетворяющие их профессиональным потребностям. Такой вывод может позволить компании сосредоточить свои маркетинговые кампании на отелях, находящихся поблизости от бизнес-районов или коворкингов.
Визуальное определение дата-майнинга

Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия.

Читать: https://habr.com/ru/articles/784060/

@big_data_analysis

603 views07:33

Data Analysis / Big Data

Гайд на собеседования

Привет, Хабр! Я Денис, ведущий продуктовый аналитик!

Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.

Давайте начинать!

Читать: https://habr.com/ru/articles/809385/

@big_data_analysis

⚡1

581 views09:36

Data Analysis / Big Data

CDC на примитивах

CDC вам не "Centers for Disease Control and Prevention" а "Change data capture". В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium.

Читать: https://habr.com/ru/articles/812797/

@big_data_analysis

587 views10:28

Data Analysis / Big Data

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все-все самые интересные пасхалки Альтмана...

Читать: https://habr.com/ru/articles/814161/

@big_data_analysis

527 views09:39

Data Analysis / Big Data

Расчет рентабельности инвестиций и другие задачи дата-сайентиста

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.

Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.

Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, можно использовать общую формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, для относительно зрелого улучшение на 1–2% уже будет существенным.

Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.

После подобного анализа стоит отметить компоненты, которые оценивались с низким уровнем достоверности, и проверить чувствительность общей приоритизации проекта, когда неопределенная оценка отклоняется на 10 или 30%. При слишком сильном отклонении приоритизации соответственно снижается, а проект может быть перенесен или вовсе отменен.

Читать: https://habr.com/ru/articles/814561/

@big_data_analysis

523 views13:07

Data Analysis / Big Data

What's new in the Oracle Analytics Cloud May 2024 update

Explore the latest Oracle Analytics Cloud May 2024 Update, featuring enhancements across data exploration, dashboarding, storytelling, connectivity, augmented analytics, and administration. Discover streamlined workflows, enhanced data governance, and innovative features empowering smarter, data-driven decision-making.

Read: https://blogs.oracle.com/analytics/post/whats-new-in-the-oracle-analytics-cloud-may-2024-update

@big_data_analysis

What's new in the Oracle Analytics Cloud May 2024 update

Explore the latest Oracle Analytics Cloud May 2024 Update, featuring enhancements across data exploration, dashboarding, storytelling, connectivity, augmented analytics, and administration. Discover streamlined workflows, enhanced data governance, and innovative…

564 views09:08