Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Под капотом GCN

Здравствуйте! Сегодня мы погружаемся в тему графовых сверточных сетей (GCN) и ключевых принципов, стоящих за ними. Если вам интересно узнать больше, я настоятельно рекомендую перейти на статью на Habr, где вы найдёте подробный анализ и актуальные примеры применения GCN.

Введение

GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Если вы хотите глубже понять, как сверточные нейронные сети (CNN) адаптируются для работы с графовыми структурами, загляните в статью на Habr.

Выбор архитектуры GCN основан на принципе локализованного приближения первого порядка спектральных сверток для графов. Что это значит? Мы рассматриваем только ближайших соседей узла, а спектральная свертка позволяет извлекать информацию с помощью спектра графа. В подробностях вы сможете разобраться, прочитав статью.

Метод

Рассмотрим задачу классификации узлов в графе, где метки доступны лишь для небольшого числа узлов. Графо-ориентированное полу-контрольное обучение предлагает интересные решения для такой задачи. Чтобы лучше понять использование графовой регуляризации и как она работает в функции потерь, обращайтесь к статье.

Не упустите шанс углубиться в эту увлекательную тему и раскрыть все нюансы GCN!


Читать: https://habr.com/ru/articles/851432/

#ru

@big_data_analysis | Другие наши каналы
Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/851450/

#ru

@big_data_analysis | Другие наши каналы
Метрологический дефицит в бигдате: что это такое и как с ним бороться

Добрый день. Сегодня я хотел бы поговорить о том, что вроде бы очевидно и должно быть везде, но когда я читаю статьи презентации, рекламные статьи, научные статьи, выступления на отраслевых конференциях и тексты «войди в айти и стань датасатанистом», я этого не вижу.

Речь о том, что данные, попадающие в машинное обучение, ИИ, цифровых двойников и т. п., не являются тем чем кажутся. Потому что между их изначальным физическим смыслом и числовым выражением внутри модели, стоит череда преобразований.

Но в этот раз речь пойдёт не о цифровом износе и моих многолетних наблюдениях за цифровыми объектами, а об измерительных приборах и ваших многолетних наблюдениях за производственными процессами.


Читать: https://habr.com/ru/articles/851526/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer Data Lake Apache Iceberg

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.


Читать: https://habr.com/ru/articles/850674/

#ru

@big_data_analysis | Другие наши каналы
ООП для типовых ML задач

Привет! Меня зовут Андрей Татаренко, я работаю Data Scientist-ом в Альфа-Банке. Я вам расскажу о своем опыте разработки Python-библиотеки для автоматизации разработки типовых ML-моделей. В статье привожу ту структуру основных классов, которая у меня получилась. Надеюсь, читатель сможет почерпнуть какие-то идеи, особенно если уже сталкивался с подобной задачей.


Читать: https://habr.com/ru/companies/alfa/articles/851154/

#ru

@big_data_analysis | Другие наши каналы
Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.


Читать: https://habr.com/ru/companies/data_light/articles/851700/

#ru

@big_data_analysis | Другие наши каналы
👍2
Новые возможности с Oracle Data Integration Service

Узнайте, как Oracle Data Integration Service упрощает загрузку данных в Autonomous Data Warehouse, позволяя получить более глубокие аналитические инсайты в Oracle Analytics Cloud. Эта интеграция повышает эффективность работы с данными и открывает новые горизонты для аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Управление Oracle Analytics через Cloud Shell и Terraform

Узнайте, как эффективно разворачивать ресурсы Oracle Analytics Cloud с помощью Oracle Cloud Shell и OCI Terraform Provider. Подробное руководство поможет оптимизировать процесc управления облачными ресурсами и упростить автоматизацию задач в Oracle.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Игра будущего: Oracle Foosball Frenzy

На Oracle CloudWorld 2024 был представлен AI-проект, демонстрирующий возможности облачных технологий Oracle. Система преобразует игру в настольный футбол в аналитические данные в реальном времени, показывая, как AI может интегрироваться в физические игры и другие индустрии.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍2
💡 Овладейте продвинутыми приемами SQL для анализа данных

Узнайте, как 25 советов помогут улучшить ваши навыки работы с SQL. Статья раскрывает использование функций QUALIFY, GENERATE_SERIES, и CUBE, упрощающих создание масштабируемых запросов. Ознакомьтесь с операциями JOIN для более эффективного управления и анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Разметка изображений: самый полный гайд

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.


Читать: https://habr.com/ru/companies/data_light/articles/852848/

#ru

@big_data_analysis | Другие наши каналы
Оценка LLM: метрики, фреймворки и лучшие практики

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Что такое оценка LLM?

Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами.

Зачем вам нужно оценивать LLM?

Все просто: чтобы убедиться, что модель соответствует задаче и ее требованиям. Оценка LLM гарантирует, что она понимает и точно реагирует, правильно обрабатывает различные типы информации и общается безопасным, понятным и эффективным способом. Оценка LLM позволяет нам точно настроить модель на основе реальной обратной связи, улучшая ее производительность и надежность. Проводя тщательные оценки, мы гарантируем, что LLM полностью может удовлетворять потребности своих пользователей, будь то ответы на вопросы, предоставление рекомендаций или создание контента.


Читать: https://habr.com/ru/articles/852046/

#ru

@big_data_analysis | Другие наши каналы
Что такое DWH?

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться


Читать: https://habr.com/ru/articles/852910/

#ru

@big_data_analysis | Другие наши каналы
Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события.

В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть.

Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job.

Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже.

Список моих статей про Flink:


Читать: https://habr.com/ru/companies/ru_mts/articles/853200/

#ru

@big_data_analysis | Другие наши каналы
Чем можно заняться в IT

IT – это не пузырь, который может лопнуть. Оно уже настолько плотно вошло в нашу жизнь, что повсюду, куда бы мы ни посмотрели, мы видим его следы, и это не изменится.

В этой статье вы узнаете, что такое IT и чем можно заняться в IT помимо программирования.


Читать: https://habr.com/ru/articles/852224/

#ru

@big_data_analysis | Другие наши каналы
Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке

Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?

Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable ML). В статье расскажу, как мы упростили себе работу и часть рутинных задач, число которых росло как снежный ком с ростом количества применяемых моделей.


Читать: https://habr.com/ru/companies/alfa/articles/852790/

#ru

@big_data_analysis | Другие наши каналы
Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.


Читать: https://habr.com/ru/companies/data_light/articles/853372/

#ru

@big_data_analysis | Другие наши каналы
Какую архитектуру конвейера данных следует использовать?

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.

Данные важны для любого приложения и нужны для разработки эффективных конвейеров для доставки и управления информацией. Как правило, конвейер данных создаётся, когда вам необходимо обрабатывать данные в течение их жизненного цикла. Конвейер данных может начинаться там, где данные генерируются и хранятся в любом формате. Конвейер данных может обеспечивать анализ данных, их использования для целей бизнеса, долговременного хранения, а также для тренировки моделей машинного обучения.

Читать: https://habr.com/ru/companies/piter/articles/853400/

#ru

@big_data_analysis | Другие наши каналы
👍2
Как мы сделали систему для спасения интернета от токсичности

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):


Читать: https://habr.com/ru/articles/853586/

#ru

@big_data_analysis | Другие наши каналы
«Да будет свет!», — подумали мы. И стал свет. Краткая история обучения нейросветодизайнера нейросветодизайну

Давным-давно, скажем, этим летом, нас посетила удачная мысль включить повсюду свет и озарить ночные города. Так родился проект по обучению нейросети сложному искусству светодизайна.

Разумеется, мы были не первыми, кто до этого додумался, но поскольку бум ИИ удачно наложился на развитие инфраструктуры и появление новых зданий в разных городах РФ (а еще осень, темно, холодно) – было решено взяться за дело. Светодизайн зданий – сложная область, которая удачно сочетает в себе архитектурное проектирование, инженерные достижения, дизайн и человеческий гений. В помощь последнему мы решили добавить искусственный интеллект. Оказалось, что после долгих тренировок он способен:


Читать: https://habr.com/ru/articles/853552/

#ru

@big_data_analysis | Другие наши каналы
Как оценить LLM модель

В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.


Читать: https://habr.com/ru/articles/853542/

#ru

@big_data_analysis | Другие наши каналы