Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

569 photos

4 videos

2 files

2.67K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

Технологии в агрокомплексе: мастера, подмастерье и искусственный интеллект

Стартовал третий сезон нашего подкаста Data Therapy, в котором мы будем обсуждать практические кейсы применения ИИ и больших данных в конкретных сферах бизнеса. В первом эпизоде нового сезона мы говорим о применении искусственного интеллекта в сельском хозяйстве с экспертами из «Русагро», «Русагро Тех» и Х5 Tech.

Читать: https://habr.com/ru/companies/X5Tech/articles/834574/

#ru

@big_data_analysis | Другие наши каналы

553 views21:28

Data Analysis / Big Data

Репликация: создание кластера, подключение, изменения настроек таблицы в кластере

Привет, я Майк.

Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками.

Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:

Читать: https://habr.com/ru/articles/834980/

#ru

@big_data_analysis | Другие наши каналы

492 views05:50

Data Analysis / Big Data

Конспект-обзор на статьи по Recsys+Transformers

Конспект-обзор на статьи по Recsys+Transformers

Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.

Читать: https://habr.com/ru/articles/835380/

#ru

@big_data_analysis | Другие наши каналы

527 views07:31

Data Analysis / Big Data

Как дообучать LLM с помощью Supervised Fine-Tuning

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.
Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.

Читать: https://habr.com/ru/articles/830396/

#ru

@big_data_analysis | Другие наши каналы

510 views13:45

Data Analysis / Big Data

Как быстро и эффективно работать с большими JSON-файлами

Как работать с большими JSON файлами. Показываем основные способы работы с Big JSON и возможные проблемы. Рассматриваем пошаговую инструкцию ✔ Tproger

Читать: «Как быстро и эффективно работать с большими JSON-файлами»

#ru

@big_data_analysis | Другие наши каналы

573 views15:07

Data Analysis / Big Data

Как построить и развернуть ML-пайплайн в Яндекс Облаке. Практическое руководство

В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.

Читать: https://habr.com/ru/companies/lanit/articles/830446/

#ru

@big_data_analysis | Другие наши каналы

596 views07:16

Data Analysis / Big Data

Как подготовиться к собеседованию на инженера данных

Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

👍1

2.79K viewsedited 20:41

Data Analysis / Big Data

You Only Look Once… But it Sees Everything! Обзор YOLO детекторов. Часть 1

Вступление

Детекция объектов в реальном времени является важнейшей задачей и охватывает большое количество областей, таких как беспилотные транспортные средства, робототехника, видеонаблюдение, дополненная реальность и многие другие. Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.

Читать: https://habr.com/ru/articles/836306/

#ru

@big_data_analysis | Другие наши каналы

648 views12:37

Data Analysis / Big Data

Data Lineage из топора

Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.
Разные самопальные data lineages

Читать: https://habr.com/ru/articles/836648/

#ru

@big_data_analysis | Другие наши каналы

657 views23:49

Data Analysis / Big Data

Инфраструктура для data engineer Kafka

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать: https://habr.com/ru/articles/836302/

#ru

@big_data_analysis | Другие наши каналы

602 views05:10

Data Analysis / Big Data

Делаем своего AI стилиста на python

Привет, чемпионы!

AI решение, которые я разберу в этой статье - после запуска в телеграм привлекло почти органически внимание 70 000 новых пользователей за месяц, а всего было произведено 400 000 генераций. Разбираю, как реализовал сама ML модель. Погнали!
Переодеть коллег

Читать: https://habr.com/ru/articles/832850/

#ru

@big_data_analysis | Другие наши каналы

562 views10:45

Data Analysis / Big Data

Оптимизируем Shuffle в Spark

Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов на десятки миллионов клиентов –- это терабайты данных, поэтому наш инструмент разработан на Spark.

В последнее время мы заметили, что существенную часть времени работы наших Spark-приложений занимает обмен данными (Shuffle) между исполнителями. В этой статье я расскажу о том, какие оптимизации помогли нам избавиться от самых тяжёлых операций Shuffle. Речь пойдёт не только о BroadcastJoin, но и о двух других неочевидных методах – предварительное репартицирование и бакетирование.

Читать: https://habr.com/ru/companies/X5Tech/articles/837348/

#ru

@big_data_analysis | Другие наши каналы

533 views10:36

Data Analysis / Big Data

Инструменты для улучшения ритейла от Oracle Analytics

Oracle Analytics предлагает розничным компаниям инструменты для управления запасами, оптимизации трудовых затрат, улучшения клиентского опыта и прогнозирования будущих результатов. Узнайте, как эти решения могут повысить эффективность вашего бизнеса.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Optimize Retail Businesses with Oracle Analytics

The use and understanding of analytics enable the optimization of retail businesses. Oracle Analytics provides tools for retailers to manage their inventory, improve labor costs, provide an enriched customer experience, and use forecasting to predict future…

480 views13:16

Data Analysis / Big Data

Oracle CloudWorld: Виртуально и в реальном времени

Не упустите важные моменты Oracle CloudWorld! Если у вас нет возможности присутствовать на мероприятии, смотрите выступление Т.К. Ананда онлайн и общайтесь с сообществом - обновления и обмен мнениями доступны в режиме реального времени.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

CloudWorld is coming! See all the great ways you can be an Analytics master in Las Vegas

A killer keynote, community events, Analytics for Breakfast, roadmap sessions, and countless other ways to connect data, analytics, and your experience - Oracle CloudWorld has it all. And if you're not going to the show, don't feel left out! You can see…

525 views13:17

Data Analysis / Big Data

Искусство ETL. Пишем собственный движок SQL на Spark [часть 7]

В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 • 6 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в собственный диалект SQL поддержку процедур. Например,

-- library.tdl

CREATE PROCEDURE dwellTimeByMode(@signals, @target, @outPrefix,
  @modes = ['pedestrian', 'non_pedestrian', 'car', 'bike'],
  @groupid='cell10') AS BEGIN
    LOOP $mode IN $modes BEGIN
        SELECT * FROM $signals INTO "{$signals}/{$mode}" WHERE mode=$mode;

        CALL dwellTime(@signals_userid_attr=userid,
            @target_userid_attr=userid,
            @target_grouping_attr=$groupid
        ) INPUT signals FROM "{$signals}/{$mode}", target FROM $target
        OUTPUT INTO "{$outPrefix}/{$mode}";

        ANALYZE "{$signals}/{$mode}";
        ANALYZE "{$outPrefix}/{$mode}";
    END;
END;

--- ... --- ... --- ... ---

-- script.tdl

CALL dwellTimeByMode(@signals=$this_month, @target=$population, @outPrefix=$this_month);

Нафига это надо?
Ну, допустим, у нас уже есть некоторое количество SQL ETL кода, наработанного за время эксплуатации инструмента в продакшене, и становится заметно, что значительная часть скриптов на разных проектах совпадает, и из раза в раз повторяется. Логично было бы вынести все эти совпадающие куски в библиотеку, чтобы держать в одном месте, да и вызывать с какими надо параметрами, когда надо. Вот прям как на примере выше.

Читать: https://habr.com/ru/articles/838034/

#ru

@big_data_analysis | Другие наши каналы

684 views10:29

Data Analysis / Big Data

Excel — самый опасный софт на планете

В 80-е годы компании покупали компьютеры, чтобы запустить электронные таблицы. Автоматический расчёт налогов и зарплат казался чудом. Тысячи бухгалтеров оказались на улице, остальным пришлось осваивать работу ПК, а конкретно — Excel.

И до сих пор Excel играет важнейшую роль в бизнесе многих компаний. Без электронных таблиц у них просто всё развалится. Сложно найти на компьютере другую программу настолько древнюю и настолько важную, от которой столько всего зависит. И в такой ситуации факапы неизбежны.

Читать: https://habr.com/ru/companies/ruvds/articles/835390/

#ru

@big_data_analysis | Другие наши каналы

🔥2

598 views09:16

Data Analysis / Big Data

Преимущества DAX на примерах

Популярным языком запросов от Microsoft является DAX. В отличие от диалектов SQL, DAX позволяет аналитикам сфокусироваться на решении задач бизнес-аналитики, вместо того, чтобы заниматься рутинными техническими задачами (например, вопросами производительности).

Безусловно, DAX не является панацеей для решения любых задач, но, если честно, ознакомление с этим функциональным языком может быть своего рода открытием, что создать единый язык для всех SQL диалектов - это вообще "doable", причем поддерживаются практически все имеющиеся базы данных многих видов (например, реляционные, колоночные), а также обеспечивается высокая производительность запросов.

В этой статье рассматриваются преимущества DAX на конкретных примерах, таким образом, если Вам интересен Business Intelligence на DAX - добро пожаловать :)

Читать: https://habr.com/ru/articles/838018/

#ru

@big_data_analysis | Другие наши каналы

546 views23:41

Data Analysis / Big Data

Сверточные нейронные сети (CNN)

Простым языком пытаемся объяснить начинающим программистам, что такое сверточные нейронные сети. В этом нам помогла одна из преподавательниц наших буткемпов, Полунина Полина.

Сверточные нейронные сети (CNN) – это класс глубоких нейронных сетей, которые обладают специализированной архитектурой для обработки данных, имеющих пространственную структуру, таких как изображения. Они широко применяются в компьютерном зрении, распознавании образов, анализе временных рядов и других задачах, где важно учитывать пространственные зависимости между данными.

Основными строительными блоками CNN являются сверточные слои, пулинг-слои и полносвязанные слои. Сверточные слои состоят из фильтров (ядер), которые скользят по входным данным и вычисляют локальные признаки. Пулинг-слои уменьшают размерность данных, сохраняя важные признаки. Полносвязанные слои объединяют все признаки для принятия окончательного решения.

Для обучения CNN используется метод обратного распространения ошибки, который позволяет оптимизировать веса сети с целью минимизации ошибки на обучающем наборе данных. При этом часто применяются функции активации, такие как ReLU (Rectified Linear Unit), которые помогают улучшить скорость обучения и предотвратить проблему затухания градиента.

Одной из ключевых особенностей CNN является возможность извлечения иерархии признаков на разных уровнях абстракции. Более низкие слои могут выделять простые фичи, такие как грани и углы, в то время как более высокие слои могут распознавать более сложные паттерны, например, лица или объекты.

Читать: https://habr.com/ru/articles/838892/

#ru

@big_data_analysis | Другие наши каналы

👍2

477 views11:07

Data Analysis / Big Data

🔍 Подготовка OCI для Oracle Analytics

Узнайте, как настроить начальные компоненты OCI для использования сервисов Oracle Analytics. В статье объясняются ключевые шаги и необходимые ресурсы для успешной интеграции. Откройте новые возможности аналитики с помощью простых инструкций.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Prepare OCI Identity Components Before Provisioning Oracle Analytics Services

This post guides you through preparing initial OCI components for Oracle Analytics services.

❤1

459 views11:42

Data Analysis / Big Data

Мы ищем менеджера по продажам в команду Tproger

Всё как у людей: хорошая зарплата, гибрид и дружный коллектив. Оставляйте заявку и смотрите подробности: https://tprg.ru/l1rP

#вакансии #работа

491 viewsedited 13:01