Data Analysis / Big Data
2.82K subscribers
570 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Synthetic Minority Oversampling Technique

В datascience все уже знают о важности данных для успеха любого проекта с машинным обучением. Часто бывает, что сами данные представляют собой гораздо большую ценность, чем модель, которая на них обучилась, поскольку процесс получения этих данных может быть гораздо сложнее, опаснее, дороже, чем обучение модели. Поэтому набирает популярность генерация наборов данных, создаются специальные фреймворки. Сегодня речь пойдет об одном из таких фреймворков, SMOTE, или же Synthetic Minority Oversampling Technique. За два последних десятилетия накопилось довольно много материала по этой технике. Ключевое отличие этой статьи в экспериментах, которые проводились в ходе исследования работоспособности такого типа овэрсэмплинга.

Постановка проблемы

Все, кто хоть раз сталкивался с машинным обучением, знакомы с таким понятием как «отсутствие баланса классов». Мало когда встречаются отбалансированные наборы данных, только если мы сами не сделаем себе нужную выборку с балансом. Также, многие наверно слышали, что дисбаланс классов может негативно отражаться на обучении модели, поэтому всегда возникали вопросы о том, как такую проблему решать.


Читать: https://habr.com/ru/articles/842480/

#ru

@big_data_analysis | Другие наши каналы
Какой День программиста без подарков!?

Скорее переходите по ссылке, трясите коробку и забирайте свой презент: https://tprg.ru/eK4n

С профессиональным праздником, дорогие программисты!
3🔥1
Использование API в FineBI

Привет, Хабр! На связи Business Intelligence GlowByte.

В данной статье разберем основы интеграции FineBI c внешними системами. С помощью публичных методов API можно использовать интерфейс, управлять системой удаленно и автоматизировать бизнес-процессы. Существует несколько способов интеграции публичных API в FineBI, и в зависимости от поставленных задач разработчики должны выбрать, какой способ им более подходит, или комбинировать их между собой. Далее рассмотрим доступные варианты, разберем их отличия и особенности и протестируем некоторые методы в http-клиенте Postman.


Читать: https://habr.com/ru/companies/glowbyte/articles/842842/

#ru

@big_data_analysis | Другие наши каналы
Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet, которые необходимы для отражения трансформаций данных.

Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.


Читать: https://habr.com/ru/articles/842718/

#ru

@big_data_analysis | Другие наши каналы
Инновация от Oracle: Intelligent Data Lake

Oracle представила Intelligent Data Lake, который объединяет услуги OCI Data Lake, OCI Data Catalog и другие в единую среду. Это позволит создавать озёра данных, улучшать аналитические приложения в режиме реального времени и трансформировать данные для комплексной оркестрации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности в Oracle Analytics Cloud

Обновление Oracle Analytics Cloud от сентября 2024 года привнесло ряд новых функций и улучшений. Узнайте, как эти изменения могут улучшить ваш опыт работы с аналитикой и повысить эффективность.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности AI в Oracle Analytics

Oracle представила новые функции с поддержкой AI в Oracle Analytics, включая AI Assistant. Эти нововведения помогут как рядовым пользователям, так и аналитикам повысить продуктивность при создании и модификации аналитических проектов. Узнайте больше о современных AI возможностях в Oracle.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности Fusion Data Intelligence

Текст поста: Ознакомьтесь с обновлениями Fusion Data Intelligence: новые интеллектуальные приложения, расширенные отчеты и помощник разработчика. Эти улучшения расширяют возможности аналитики и делают работу с данными еще более эффективной.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новое сообщество Oracle Analytics: больше возможностей для пользователей

Появилось сообщество Oracle Analytics, где пользователи могут найти различные ресурсы: лабораторию идей, карьерный центр, форумы, новости и аналитические материалы. Доступ к этим материалам можно получить в любое время для получения помощи и советов от экспертов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как работает парламентский график?

Парламентский график – это наглядное и интуитивное представление результатов выборов. Он показывает распределение мест между политическими партиями, упрощая восприятие информации о составе парламента. Узнайте больше о ключевом инструменте для анализа выборов!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как растут компании

В прошлой статье мы обсудили кто такой дата-инженер. Давайте теперь обсудим на каком этапе жизненного цикла компании он появляется в команде/компании.

В этой статье вы узнаете как могут развиваться компании и какие роли бывают в ней, и как они влияют на её развитие.


Читать: https://habr.com/ru/articles/841244/

#ru

@big_data_analysis | Другие наши каналы
Кто такой и чем занимается дата-инженер

Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и чем отличается наша работа от работы других специалистов по данным.


Читать: https://habr.com/ru/companies/yandex_praktikum/articles/841402/

#ru

@big_data_analysis | Другие наши каналы
Преимущества DAX на примере коэффициента проникновения

Привет, Хабр! В рамках Business Intelligence для расчета KPI и других статистических характеристик могут использоваться различные средства. Универсальным и мощным инструментом является язык DAX, в этой статье я хочу показать его преимущества на примере популярной задачи расчета коэффициента проникновения в Power BI.

Если интересна аналитика с DAX - то добро пожаловать !)


Читать: https://habr.com/ru/articles/843628/

#ru

@big_data_analysis | Другие наши каналы
1
Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

В данной статье мы расскажем, как нам удалось найти решение задачи NBO на open source солвере CBC примерно в 100 раз и добиться повышения оптимального значения целевой функции на 0.5%.


Читать: https://habr.com/ru/companies/glowbyte/articles/838410/

#ru

@big_data_analysis | Другие наши каналы
Garak: инструмент Red-Team для поиска уязвимостей в LLM

«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться.

Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории LLM Security AI Talent Hub и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/843644/

#ru

@big_data_analysis | Другие наши каналы
Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.


Читать: https://habr.com/ru/companies/cedrusdata/articles/843882/

#ru

@big_data_analysis | Другие наши каналы
Из лингвиста в дата-сайентисты: личный опыт и детальный трек

Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом.


Читать: https://habr.com/ru/companies/lanit/articles/842136/

#ru

@big_data_analysis | Другие наши каналы
2
Как создать проект по работе с данными: пошаговая инструкция

Статья предоставляет пошаговое руководство по созданию проекта обработки данных с нуля. Она охватывает все этапы — от установки необходимого ПО и настройки окружения до структурирования кода и проверки его качества. Узнайте, как выбрать инструменты для обработки данных и построить архитектуру данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Начало работы с Oracle Analytics и AI

Текст поста: Узнайте, как быстро освоить Oracle Analytics с поддержкой искусственного интеллекта. В статье описаны три простых шага для начала работы. Легко и доступно для пользователей любого уровня.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как сделать так, чтобы ваши открытые данные были никому не интересны

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией.

Единственный выход в подобных случаях — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными.


Читать: https://habr.com/ru/companies/magnus-tech/articles/842232/

#ru

@big_data_analysis | Другие наши каналы
Не потеряться в данных: оптимизируем аналитику с помощью DataHub

Как не потеряться в данных для аналитики?

Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно).

Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать.

Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности.

Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.


Читать: https://habr.com/ru/companies/sravni/articles/844016/

#ru

@big_data_analysis | Другие наши каналы