Data Analysis / Big Data
2.82K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Репликация: создание кластера, подключение, изменения настроек таблицы в кластере

Привет, я Майк.

Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками.

Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:


Читать: https://habr.com/ru/articles/834980/

#ru

@big_data_analysis | Другие наши каналы
Конспект-обзор на статьи по Recsys+Transformers

Конспект-обзор на статьи по Recsys+Transformers

Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.


Читать: https://habr.com/ru/articles/835380/

#ru

@big_data_analysis | Другие наши каналы
Как дообучать LLM с помощью Supervised Fine-Tuning

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.
Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.


Читать: https://habr.com/ru/articles/830396/

#ru

@big_data_analysis | Другие наши каналы
Как быстро и эффективно работать с большими JSON-файлами

Как работать с большими JSON файлами. Показываем основные способы работы с Big JSON и возможные проблемы. Рассматриваем пошаговую инструкцию Tproger

Читать: «Как быстро и эффективно работать с большими JSON-файлами»

#ru

@big_data_analysis | Другие наши каналы
Как построить и развернуть ML-пайплайн в Яндекс Облаке. Практическое руководство

В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.


Читать: https://habr.com/ru/companies/lanit/articles/830446/

#ru

@big_data_analysis | Другие наши каналы
Как подготовиться к собеседованию на инженера данных

Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍1
You Only Look Once… But it Sees Everything! Обзор YOLO детекторов. Часть 1

Вступление

Детекция объектов в реальном времени является важнейшей задачей и охватывает большое количество областей, таких как беспилотные транспортные средства, робототехника, видеонаблюдение, дополненная реальность и многие другие. Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.


Читать: https://habr.com/ru/articles/836306/

#ru

@big_data_analysis | Другие наши каналы
Data Lineage из топора

Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.
Разные самопальные data lineages

Читать: https://habr.com/ru/articles/836648/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для data engineer Kafka

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.


Читать: https://habr.com/ru/articles/836302/

#ru

@big_data_analysis | Другие наши каналы
Делаем своего AI стилиста на python

Привет, чемпионы!

AI решение, которые я разберу в этой статье - после запуска в телеграм привлекло почти органически внимание 70 000 новых пользователей за месяц, а всего было произведено 400 000 генераций. Разбираю, как реализовал сама ML модель. Погнали!
Переодеть коллег

Читать: https://habr.com/ru/articles/832850/

#ru

@big_data_analysis | Другие наши каналы
Оптимизируем Shuffle в Spark

Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов на десятки миллионов клиентов –- это терабайты данных, поэтому наш инструмент разработан на Spark.

В последнее время мы заметили, что существенную часть времени работы наших Spark-приложений занимает обмен данными (Shuffle) между исполнителями. В этой статье я расскажу о том, какие оптимизации помогли нам избавиться от самых тяжёлых операций Shuffle. Речь пойдёт не только о BroadcastJoin, но и о двух других неочевидных методах – предварительное репартицирование и бакетирование.


Читать: https://habr.com/ru/companies/X5Tech/articles/837348/

#ru

@big_data_analysis | Другие наши каналы
Инструменты для улучшения ритейла от Oracle Analytics

Oracle Analytics предлагает розничным компаниям инструменты для управления запасами, оптимизации трудовых затрат, улучшения клиентского опыта и прогнозирования будущих результатов. Узнайте, как эти решения могут повысить эффективность вашего бизнеса.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Oracle CloudWorld: Виртуально и в реальном времени

Не упустите важные моменты Oracle CloudWorld! Если у вас нет возможности присутствовать на мероприятии, смотрите выступление Т.К. Ананда онлайн и общайтесь с сообществом - обновления и обмен мнениями доступны в режиме реального времени.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Искусство ETL. Пишем собственный движок SQL на Spark [часть 7]

В предыдущих сериях (FAQ1 2 3 4 5 6 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в собственный диалект SQL поддержку процедур. Например,

-- library.tdl

CREATE PROCEDURE dwellTimeByMode(@signals, @target, @outPrefix,
@modes = ['pedestrian', 'non_pedestrian', 'car', 'bike'],
@groupid='cell10') AS BEGIN
LOOP $mode IN $modes BEGIN
SELECT * FROM $signals INTO "{$signals}/{$mode}" WHERE mode=$mode;

CALL dwellTime(@signals_userid_attr=userid,
@target_userid_attr=userid,
@target_grouping_attr=$groupid
) INPUT signals FROM "{$signals}/{$mode}", target FROM $target
OUTPUT INTO "{$outPrefix}/{$mode}";

ANALYZE "{$signals}/{$mode}";
ANALYZE "{$outPrefix}/{$mode}";
END;
END;

--- ... --- ... --- ... ---

-- script.tdl

CALL dwellTimeByMode(@signals=$this_month, @target=$population, @outPrefix=$this_month);


Нафига это надо?
Ну, допустим, у нас уже есть некоторое количество SQL ETL кода, наработанного за время эксплуатации инструмента в продакшене, и становится заметно, что значительная часть скриптов на разных проектах совпадает, и из раза в раз повторяется. Логично было бы вынести все эти совпадающие куски в библиотеку, чтобы держать в одном месте, да и вызывать с какими надо параметрами, когда надо. Вот прям как на примере выше.


Читать: https://habr.com/ru/articles/838034/

#ru

@big_data_analysis | Другие наши каналы
Excel — самый опасный софт на планете

В 80-е годы компании покупали компьютеры, чтобы запустить электронные таблицы. Автоматический расчёт налогов и зарплат казался чудом. Тысячи бухгалтеров оказались на улице, остальным пришлось осваивать работу ПК, а конкретно — Excel.

И до сих пор Excel играет важнейшую роль в бизнесе многих компаний. Без электронных таблиц у них просто всё развалится. Сложно найти на компьютере другую программу настолько древнюю и настолько важную, от которой столько всего зависит. И в такой ситуации факапы неизбежны.


Читать: https://habr.com/ru/companies/ruvds/articles/835390/

#ru

@big_data_analysis | Другие наши каналы
🔥2
Преимущества DAX на примерах

Популярным языком запросов от Microsoft является DAX. В отличие от диалектов SQL, DAX позволяет аналитикам сфокусироваться на решении задач бизнес-аналитики, вместо того, чтобы заниматься рутинными техническими задачами (например, вопросами производительности).

Безусловно, DAX не является панацеей для решения любых задач, но, если честно, ознакомление с этим функциональным языком может быть своего рода открытием, что создать единый язык для всех SQL диалектов - это вообще "doable", причем поддерживаются практически все имеющиеся базы данных многих видов (например, реляционные, колоночные), а также обеспечивается высокая производительность запросов.

В этой статье рассматриваются преимущества DAX на конкретных примерах, таким образом, если Вам интересен Business Intelligence на DAX - добро пожаловать :)


Читать: https://habr.com/ru/articles/838018/

#ru

@big_data_analysis | Другие наши каналы
Сверточные нейронные сети (CNN)

Простым языком пытаемся объяснить начинающим программистам, что такое сверточные нейронные сети. В этом нам помогла одна из преподавательниц наших буткемпов, Полунина Полина.

Сверточные нейронные сети (CNN) – это класс глубоких нейронных сетей, которые обладают специализированной архитектурой для обработки данных, имеющих пространственную структуру, таких как изображения. Они широко применяются в компьютерном зрении, распознавании образов, анализе временных рядов и других задачах, где важно учитывать пространственные зависимости между данными.

Основными строительными блоками CNN являются сверточные слои, пулинг-слои и полносвязанные слои. Сверточные слои состоят из фильтров (ядер), которые скользят по входным данным и вычисляют локальные признаки. Пулинг-слои уменьшают размерность данных, сохраняя важные признаки. Полносвязанные слои объединяют все признаки для принятия окончательного решения.

Для обучения CNN используется метод обратного распространения ошибки, который позволяет оптимизировать веса сети с целью минимизации ошибки на обучающем наборе данных. При этом часто применяются функции активации, такие как ReLU (Rectified Linear Unit), которые помогают улучшить скорость обучения и предотвратить проблему затухания градиента.

Одной из ключевых особенностей CNN является возможность извлечения иерархии признаков на разных уровнях абстракции. Более низкие слои могут выделять простые фичи, такие как грани и углы, в то время как более высокие слои могут распознавать более сложные паттерны, например, лица или объекты.


Читать: https://habr.com/ru/articles/838892/

#ru

@big_data_analysis | Другие наши каналы
👍2
🔍 Подготовка OCI для Oracle Analytics

Узнайте, как настроить начальные компоненты OCI для использования сервисов Oracle Analytics. В статье объясняются ключевые шаги и необходимые ресурсы для успешной интеграции. Откройте новые возможности аналитики с помощью простых инструкций.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Мы ищем менеджера по продажам в команду Tproger

Всё как у людей: хорошая зарплата, гибрид и дружный коллектив. Оставляйте заявку и смотрите подробности: https://tprg.ru/l1rP

#вакансии #работа
Интеграция Apache NiFi и Atlas: Настройка в Docker и Создание Пользовательского Репортера

В этой статье представлен кейс по интеграции Apache NiFi с Apache Atlas с использованием Docker. В процессе развертывания и настройки системы возникли проблемы с загрузкой образов и установкой необходимых пакетов. Основное внимание уделяется созданию и настройке пользовательского репортера, который позволяет фильтровать и отображать только те компоненты DAG в Atlas, которые соответствуют заданным критериям. В статье подробно описаны шаги по созданию и сборке .nar архива, добавлению его в NiFi и настройке фильтрации с использованием кастомных классов.


Читать: https://habr.com/ru/articles/839060/

#ru

@big_data_analysis | Другие наши каналы