Data Analysis / Big Data
2.83K subscribers
563 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Forwarded from SMLTECH
Data Science: применение в девелопменте 🔨

Костя Панфилов, наш лид Data Science, недавно выступил на конференции Строим просто и рассказал, как модели машинного обучения помогают в девелопменте.

А какую систему вы бы хотели увидеть? Делитесь идеями в комментах 👇

#шерим
Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.

Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.


Читать: https://habr.com/ru/companies/yandex/articles/857708/

#ru

@big_data_analysis | Другие наши каналы
👍2
Инхаус-разметка с нуля. Реально ли это и насколько полезно?

Разметка данных нужна для обучения нейронных сетей. К примеру, если мы учим сеть отличать живое лицо человека от фотографии или силиконовой маски для Face ID, то нам нужно разметить много-много фотографий человека, показать ИИ его маску и живое лицо. В этом посте расскажу, как мы это делаем в NtechLab и где берем людей для разметки большого объема данных. Также попытаюсь ответить на вопрос, стоит ли создавать собственные отделы по разметке данных внутри компании или можно ограничиться краудсорсингом или аутсорсингом, расскажу о некоторых рабочих кейсах. Приятного чтения!)

Что такое разметка данных?

Привет, Хабр! Меня зовут Надя Глебко. В NtechLab я проработала почти 4 года. Когда-то я пришла в компанию в качестве junior менеджера по разметке без особого опыта – но уже спустя полгода начала строить команду внутри компании. А уже через три года стала руководителем команды в составе 8 менеджеров и 3 валидаторов, а база наших инхаус-разметчиков составила около 100 человек. За это время был пройден невероятный путь роста и развития, проб и ошибок – и мне видится полезным поделиться этим опытом со всеми, кому интересна эта сфера. Но начнем с базы)


Читать: https://habr.com/ru/companies/ntechlab/articles/858234/

#ru

@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
Если вам нужен швейцарский нож для работы с базами данных, попробуйте DBeaver

Это бесплатный инструмент для разработчиков, администраторов баз данных и аналитиков, поддерживающий практически любую базу данных с драйвером JDBC (что по сути означает - ЛЮБУЮ базу данных).

Функционал: DBeaver предлагает мощный SQL-редактор с подсветкой синтаксиса, автодополнением и форматированием запросов, редактор метаданных, диаграммы ERD, инструменты для экспорта, импорта и миграции данных, а также анализ планов выполнения SQL и т.д.

А благодаря поддержке плагинов, DBeaver можно легко адаптировать к вашим нуждам, добавляя специальные функции для работы с различными базами данных.

Осталось только лайк поставить и сохранить👍

#SQL #инструменты #dbeaver
👍6
Big Data мертвы, да здравствуют Smart Data

Big data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.


Читать: https://habr.com/ru/companies/magnus-tech/articles/853192/

#ru

@big_data_analysis | Другие наши каналы
Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Современные скоринговые системы — это не просто статистика и математические модели, а мощные инструменты анализа рисков, которые могут определять не только кредитоспособность клиентов, но и выявлять угрозы для бизнеса на ранних стадиях.

В условиях быстро меняющихся финансовых рынков и растущей неопределенности использование ML в оценке рисков становится решающим фактором для банков и финансовых организаций. ML позволяет выйти за рамки стандартных моделей и анализировать гораздо больше факторов, включая поведение клиента, макроэкономические условия и другие непрямые признаки.

Подходы, о которых пойдет речь в этой статье, будут полезны как специалистам в области data science и нейронных сетей, так и бизнесу, ищущему надежные решения для управления рисками.


Читать: https://habr.com/ru/companies/data_light/articles/858540/

#ru

@big_data_analysis | Другие наши каналы
Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.


Читать: https://habr.com/ru/articles/857754/

#ru

@big_data_analysis | Другие наши каналы
Data catalog: от истории до сравнения решений

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над всеми БД и «единой точки входа» команды вынуждены тратить время на исследование разных хранилищ, их каталогов и подкаталогов в поиске нужных файлов без какой-либо гарантии успешного результата. Такой «надстройкой» являются каталоги данных.

Меня зовут Юрий Орлов, я тимлид команды ML Platform. В этой статье я подробно разберу, что такое каталоги данных и какие они бывают, а также расскажу о нашем выборе инструмента для построения каталога под запросы аналитиков данных.


Читать: https://habr.com/ru/companies/vk/articles/857894/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer BI-tools

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных.

Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах.

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.


Читать: https://habr.com/ru/articles/856922/

#ru

@big_data_analysis | Другие наши каналы
Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и ковергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.

Начнем с того, что мы понимаем под продажами ШПД и конвергенции.


Читать: https://habr.com/ru/companies/beeline_tech/articles/858904/

#ru

@big_data_analysis | Другие наши каналы
A/B тестирование в офлайне: как не потерять миллионы на масштабировании

Всем привет!

Меня зовут Наталья Ким, я продакт-менеджер продукта A/B тестирования в Big Data «Ленты». Наша компания — это ведущий многоформатный ретейлер в области продуктового и FMCG-секторов, где каждый бизнес-юнит активно генерирует и реализует разнообразные изменения, направленные на оптимизацию показателей. Для оперативной проверки этих гипотез крайне важно использовать современные инструменты. Расскажу подробнее про направление A/B тестирования в «Ленте», как об инструменте проверки гипотез.


Читать: https://habr.com/ru/companies/lentatech/articles/858890/

#ru

@big_data_analysis | Другие наши каналы
Увеличиваем размер выборки и прокрашиваем серые метрики: неочевидная ошибка при проведении А/B — тестов

Иногда мы настолько бываем увлечены способами увеличения мощности тестов, снижения дисперсии, уменьшения длительности теста, что забываем смотреть на данные при использовании стандартного критерия Стьюдента. В этой статье я постараюсь простым языком рассказать о последствиях, к которым может привести слепой запуск A/B-тестов без предварительного А/А-тестирования.


Читать: https://habr.com/ru/articles/859088/

#ru

@big_data_analysis | Другие наши каналы
Реляционная алгебра для DAX: ALL в итераторе SUMX для SUMMARIZECOLUMNS

Привет, Хабр! Язык запросов DAX популярен и эффективен для построения дашбордов в Business Intelligence, и за счет свой функциональной природы DAX в чем-то ближе к реляционной алгебре, по сравнению с SQL. Особенности DAX удобно рассмотреть на основе примеров DAX-запросов, переведенных на реляционную алгебру. В частности, использование ALL в итераторе SUMX в рамках наиболее популярной DAX функции SUMMARIZECOLUMNS позволяет рассмотреть некоторые нюансы DAX. Если интересно описание ALL в DAX с точки зрения реляционной алгебры — добро пожаловать под кат! :)


Читать: https://habr.com/ru/articles/859298/

#ru

@big_data_analysis | Другие наши каналы
Предельная польза продукта на примере Power BI

Продукт нельзя совершенствовать до бесконечности. У него всегда есть точка, после которой предельная полезность достигнута. И после её достижения дальнейшие обновления носят экспериментальный характер и менее востребованы, чем фундаментальный функционал. Расскажу, как понять, что предельная полезность достигнута на примере Power BI.


Читать: https://habr.com/ru/articles/859674/

#ru

@big_data_analysis | Другие наши каналы
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.


Читать: https://habr.com/ru/companies/cian/articles/859484/

#ru

@big_data_analysis | Другие наши каналы