Data Analysis / Big Data
2.83K subscribers
563 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Смещение значения таймстемпа UUIDv7

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.


Читать: https://habr.com/ru/articles/855832/

#ru

@big_data_analysis | Другие наши каналы
Ноябрьские обновления Oracle Analytics Cloud
Узнайте о новых возможностях, представленных в ноябрьском обновлении 2024 для Oracle Analytics Cloud. Эти улучшения призваны повысить эффективность анализа данных, упростить работу пользователей и расширить функциональность платформы. Не пропустите важные изменения!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Приватный доступ к Oracle Analytics

Узнайте, как обезопасить свои данные, получая доступ к публичным сервисам Oracle Analytics через приватные каналы. В статье описаны шаги и методы, которые помогут минимизировать риски и обеспечить конфиденциальность вашей аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание организационных диаграмм в Oracle Analytics

Пост: Хотите научиться визуализировать структуру вашей компании? Изучите, как с помощью расширения Org Chart в Oracle Analytics преобразовать плоские данные в иерархию родитель-дитя, используя наборы данных и потоки данных. Узнайте, как эффективно отображать организационные структуры!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Открытый датасет TelecomX

Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.


Читать: https://habr.com/ru/companies/arenadata/articles/856366/

#ru

@big_data_analysis | Другие наши каналы
Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.


Читать: https://habr.com/ru/articles/855644/

#ru

@big_data_analysis | Другие наши каналы
Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.

В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.

По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.


Читать: https://habr.com/ru/companies/ru_mts/articles/856774/

#ru

@big_data_analysis | Другие наши каналы
Что такое Data Driven подход

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.


Читать: https://habr.com/ru/articles/856920/

#ru

@big_data_analysis | Другие наши каналы
Как разметить данные для классификации изображений: руководство с примерами

Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель?

В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.


Читать: https://habr.com/ru/companies/data_light/articles/856886/

#ru

@big_data_analysis | Другие наши каналы
Как мы в билайне боремся со спам-звонками с помощью машинного обучения, часть 1

Всем привет! Меня зовут Наталья Багрова, сегодня расскажу, какие есть возможности у крупного телеком-оператора для борьбы с таким неприятным явлением как голосовой спам; какие логические и технические трудности ждали нас на этом пути, как мы их решали и к чему пришли. Мы сконцентрируемся в первую очередь на том, как мы строили модель с нуля до первого жизнеспособного прототипа.

Давайте начнем с краткого обзора рынка антиспам-услуг.

Очень условно всех поставщиков антиспам услуг можно разделить на две категории: те, кто видят трафик (телеком-операторы) и те, кто видят отзывы (приложения Яндекса, Тинькофф или Kaspersky, которые собирают отзывы с абонентов). Если посмотреть на то, как устроен дизайн услуги, то это либо блокировки, когда спам-звонок в принципе не доводится до абонента или же уводится на голосового ассистента, а затем присылается текстовая расшифровка, либо же просто подсвечивается, кто сейчас звонит, и всю ответственность за решение, разговаривать сейчас или нет, несет сам клиент. Если мы говорим о билайне, то мы себя относим в первую очередь к тем, кто видит трафик, и идем путем голосового ассистента.

Плюсы и минусы

Какие у нас есть сильные стороны?


Читать: https://habr.com/ru/companies/beeline_tech/articles/857082/

#ru

@big_data_analysis | Другие наши каналы
Определяем доли и коэффициенты проникновения с помощью DAX

Привет, Хабр! Одной из важных задач в аналитических запросах является расчет долей, который позволяет узнать, какая часть записей из общего количества по всей таблице соответствует какому-либо критерию. Также нередко полезными оказываются коэффициенты проникновения (в общем-то тоже являющиеся долями). Они позволяют оценить продажи, найти взаимосвязи признаков и сделать много еще чего полезного. Чтобы проводить такого рода расчеты идеально подходит язык DAX. Если Вам интересно, насколько это удобно и как именно сделать это в DAX — добро пожаловать под кат :)


Читать: https://habr.com/ru/companies/visiology/articles/857102/

#ru

@big_data_analysis | Другие наши каналы
Как создать датасет для машинного обучения за 6 шагов

Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.

Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.


Читать: https://habr.com/ru/companies/data_light/articles/857142/

#ru

@big_data_analysis | Другие наши каналы
Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.


Читать: https://habr.com/ru/articles/857162/

#ru

@big_data_analysis | Другие наши каналы
Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.


Читать: https://habr.com/ru/companies/skillfactory/articles/857162/

#ru

@big_data_analysis | Другие наши каналы
Выбираем BI платформу для начинающего специалиста

Привет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.


Читать: https://habr.com/ru/articles/857234/

#ru

@big_data_analysis | Другие наши каналы
2
Forwarded from SMLTECH
Data Science: применение в девелопменте 🔨

Костя Панфилов, наш лид Data Science, недавно выступил на конференции Строим просто и рассказал, как модели машинного обучения помогают в девелопменте.

А какую систему вы бы хотели увидеть? Делитесь идеями в комментах 👇

#шерим