Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Чтение на выходные: «Искусство быть невидимым. Как сохранить приватность в эпоху Big Data» Кевина Митника

Спойлер к проблеме из сегодняшнего заголовка: «Никак». Об этом мы и поговорим.

Кевин Митник — специалист по компьютерной безопасности. Тот самый человек, который способен научить сохранять конфиденциальность в интернете настолько, насколько это возможно. В свое время как хакер совершил ряд преступлений в сети, отсидел и вышел на свободу, поэтому почитать его будет особенно интересно.


Читать: https://habr.com/ru/companies/onlinepatent/articles/810765/

@big_data_analysis
👍2
Demystifying Machine Learning Algorithms in Oracle Analytics: a Guide to Choosing the Right Approach

This blog delves into the intricacies of these algorithms and describes when and how to use them effectively.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-ml-models

@big_data_analysis
Oracle Analytics Mobile Application for Oracle Analytics Server Configured with Single Sign-On using IAM App Gateway

Oracle Analytics mobile application for Oracle Analytics Server configured with single sign-on (SSO) using IAM App Gateway in OCI.

Read: https://blogs.oracle.com/analytics/post/oa-mob-app-for-oas-with-ag-sso

@big_data_analysis
Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API

Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API

Read: https://blogs.oracle.com/analytics/post/oas-oap-run-schedule-rest-api

@big_data_analysis
Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration

Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration

Read: https://blogs.oracle.com/analytics/post/oas-silent-install-config

@big_data_analysis
AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?

Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое?

Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.


Читать: https://habr.com/ru/articles/811037/

@big_data_analysis
Анализ мощности статистических критериев с использованием бакетизации

В данной статье рассматривается влияние бакетизации на мощность статистических критериев в условиях различных распределений данных и при разном объеме выборки. Особое внимание уделено зависимости мощности критерия от количества бакетов и размера выборки. Исследование предоставляет важные выводы для проектирования и анализа A/B тестирования и других форм экспериментальных исследований.
Не кладём все яйца в одну корзину

Читать: https://habr.com/ru/articles/811059/

@big_data_analysis
Равновесное ранжирование со смещением к целевой метрике

Постановка задачи:

Имеется дискретное множество объектов или элементов. А также набор признаков для них, предполагаем, что признаки числовые. Необходимо найти наилучший объект или группу объектов только на основе имеющихся признаков.

Сделаем небольшое отступление. Многие уже на этом моменте могут сказать, что подобные задачи решаются методом коллаборативной фильтрацией. И в целом они будут правы. Но есть случаи, когда фильтрация не подходит или ее недостаточно. Для примера давайте представим себя в роли продавца автомобилей, который думает, какой новой маркой / моделью авто ему начать торговать. Допустим у него есть выбор из 1000 вариантов. И тут уже становится понятно, что идея коллаборативный фильтрации не очень хорошо вписывается в этот случай. Продавцу хочется сделать выбор, не основываясь на предпочтениях других продавцов, а исходя из неких характеристик, определяющих выгоду объекта.

В сухом остатке имеем n признаков. Что с ними нужно сделать, чтобы достичь желаемого? Можно суммировать значение всех признаков для объекта и получить итоговую оценку, которая отражает совокупный итог всех знаний об объекте. Но что не так в таком простом подходе?


Читать: https://habr.com/ru/articles/811157/

@big_data_analysis
Как Uber обслуживает более 40 миллионов чтений в секунду из онлайн-хранилища с помощью встроенного кэша

Привет, Хабр! Представляю вам перевод статьи "How Uber Serves Over 40 Million Reads Per Second from Online Storage Using an Integrated Cache" автора Preetham Narayanareddy. Из неё вы узнаете, как в Uber проектировалась система кэширования на основе Redis, с какими сложностями и тонкостями пришлось столкнуться разработчикам, и как в итоге им удалось создать действительно высокопроизводительное решение.


Читать: https://habr.com/ru/articles/811627/

@big_data_analysis
Как стать BI-аналитиком? Онлайн и офлайн, теория и практика

Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом.


Читать: https://habr.com/ru/companies/visiology/articles/811955/

@big_data_analysis
Forwarded from Нейроканал
This media is not supported in your browser
VIEW IN TELEGRAM
Langfuse для трейсинга приложений LLM + LangChain

Создание и чтение трейсбека — довольно линейный процесс, если вы используете фреймворк. Однако если речь идёт о комбинации SDK, для каждого из них приходится дополнительно работать.

Langfuse — это своеобразный аналог Sentry для LLM-приложений. Создатели этого инструмента описали (на английском) процесс установки и настройки LF с примерами декратора @observe.

Цена: бесплатно

#llm #rag #инструмент

@neuro_channel
1
Планирование смен сотрудников в офлайн ритейле: как упорядочить хаос

Всем привет! На связи команда ad-hoc аналитики X5 Tech. В этой статье мы – Лев Баскин, Андрей Полушкин и Александр Сахнов – расскажем, как без регистрации и смс спланировать смены для сотрудников офлайн-магазинов. Казалось бы, задача достаточно тривиальная: берём симплекс метод или другой метод условной оптимизации и на основе ожидаемой загрузки получаем расписание сотрудников. Однако, не всё так просто.

Первое препятствие на пути – масштабы. У Х5 порядка 25 000 магазинов от Калининграда до Владивостока и более 378 000 работников, обеспечивающих непрерывное функционирование бизнеса. У каждого магазина своя специфика и различающиеся бизнес-процессы. Во-вторых, даже зная, сколько часов занимает тот или иной процесс и как он локализован во времени, из-за внешних факторов нельзя так просто взять и поместить его в расписание. Например, обстановка на дорогах может повлиять на время поставки и, как следствие, сдвинуть ряд процессов в магазине. Достаточно предисловия, перейдём к сути!


Читать: https://habr.com/ru/companies/X5Tech/articles/812093/

@big_data_analysis
На практике пробуем KAN – принципиально новую архитектуру нейросетей

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.


Читать: https://habr.com/ru/articles/812147/

@big_data_analysis
YouTube-видео превратили в бесконечное хранилище данных

Энтузиасты написали алгоритм AKA ISG, который превращает видео на YouTube в бесплатное бесконечное хранилище данных.

Читать: «YouTube-видео превратили в бесконечное хранилище данных»

@big_data_analysis
Forwarded from Нейроканал
​​Релизнулся PyTorch 2.3

Самый нашумевший ML-фреймворк десятилетия, на котором «сидят» GPT, обновился,

– Реализована поддержка ядер Triton в torch.compile: кастомные ядра без потери производительности;
– Представлена Tensor Parallel AP для эффективного обучения LLM;
– Добавлена полуструктурированную разреженность на матрицах (torch.sparse.SparseSemiStructuredTensor), ускоряющая операции умножения и проч.

Полный Release Note

#фреймворк

@neuro_channel
2
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.

Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.

Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.


Читать: https://habr.com/ru/companies/lamoda/articles/810705/

@big_data_analysis
Unit-тестирование Flink-операторов, Job: Flink MiniCluster

Привет, Хабр! С вами вновь Александр Бобряков, техлид в команде МТС Аналитики. И я с очередной статьёй из цикла про фреймворк Apache Flink.

В предыдущей части я рассказал, как тестировать stateless- и stateful-операторы Flink с использованием вспомогательных TestHarness-абстракций, предоставляемых Flink.

В этой статье напишем тесты на всю джобу с использованием мини-кластера Flink и при помощи JUnit Extension. Ещё мы начнём выделять удобные вспомогательные абстракции для тестов, которые понадобятся позже.


Читать: https://habr.com/ru/companies/ru_mts/articles/812905/

@big_data_analysis
regexp — большие гонки

Так или иначе сталкиваться с регулярными выражениями приходилось большинству разработчиков. Мое первое знакомство произошло с реализацией regex в STL std::regexp. Чаще всего регулярки используются в проверке входных данных, что-то вроде проверки корректности введенного пользователем URL, адреса IPv4, адреса IPv6, телефонного номера и при этом скорость выполнения операции regex не сильно влияет на время отклика от приложения. Но, что если вам приходится проверять сотни, тысячи или даже десятки тысяч правил и все это на постоянно меняющихся наборах входных данных в реальном времени? В этой ситуации вам не просто нужен быстрый алгоритм, вам понадобится лучший из них, вам понадобиться чемпион!
Участвовать в заезде!

Читать: https://habr.com/ru/articles/812953/

@big_data_analysis
👍1
Расчет рентабельности инвестиций и другие задачи дата-сайентиста

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.

Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.

Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.

Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.


Читать: https://habr.com/ru/articles/813195/

@big_data_analysis
Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.

Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.

Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.

Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".

Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.

Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации


Читать: https://habr.com/ru/articles/813229/

@big_data_analysis
Как и зачем компании могут применять ML? Разбираемся на примере Netflix

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.

Читать: https://habr.com/ru/companies/selectel/articles/811585/

@big_data_analysis