Data Analysis / Big Data
2.84K subscribers
559 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
🧠 Требования к датасаентистам Google

Авторы статьи исследуют, какие статистические навыки необходимы для успешной работы на позиции "Data Scientist - Research" в Google. Они делятся опытом применения этой роли и призывают задаться вопросом, насколько вы согласны с тем, какие навыки в области анализа данных наиболее важны. Точность вопросов на интервью для DS-R в Google

В статье анализируется эффективность вопросов на интервью для роли Data Scientist - Research (DS-R) в Google. Описывается предсказуемость ответов, которая выявляет уровень необходимых статистических навыков, подчеркивая важность таких вопросов как источник более точного понимания требований к роли и подготовки к интервью. Различия в подходах научных данных

Два статистика применили разные методы регрессии для предсказания результатов. Первый использовал модель с двумя предикторами, а второй — пять отдельных моделей. Вопрос заключается в том, как эти подходы влияют на точность предсказаний и какие условия ведут к одинаковым результатам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.


Читать: https://habr.com/ru/companies/mostransproekt/articles/893882/

#ru

@big_data_analysis | Другие наши каналы
Propensity Score Matching (PSM): как обойтись без A/B-теста и всё равно узнать правду

Как определить, влияет ли то или иное событие на ключевые метрики, если полноценный A/B-тест недоступен?

В этой статье мы разберём метод Propensity Score Matching (PSM): узнаем, как компенсировать отсутствие рандомизации, выровнять группы по ключевым признакам и избежать ложных выводов при оценке эффекта.


Читать: https://habr.com/ru/articles/887276/

#ru

@big_data_analysis | Другие наши каналы
Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.

Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.

По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

Читать: https://habr.com/ru/companies/ruvds/articles/885924/

#ru

@big_data_analysis | Другие наши каналы
Сделал тг бот по подсчету калорий за 2 часа и похудел на 10кг

От идеи до работающего Telegram бота за 2 часа, от 112 кг до 102 кг за 2 месяца. Это история о том, как использование Cursor, v0.dev и современных AI-инструментов помогает решать личные проблемы с помощью кода — и как это личное решение превращается в бизнес-возможность.


Читать: https://habr.com/ru/articles/892118/

#ru

@big_data_analysis | Другие наши каналы
👎1
От скриптов к сервисам: 10 книг для профессиональной разработки в Data Science

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить про книги, которые научат писать код. В современной экосистеме Data Science недостаточно просто знать алгоритмы машинного обучения и статистические методы — необходимы прочные инженерные навыки для создания масштабируемых, поддерживаемых решений.

Это третья часть серии статей о главных книгах для data-специалистов. В первой части «От комиксов до нейросетей» я писал о литературе для джунов. Во второй — «Код устареет, принципы — останутся» — для мидлов и сеньоров.

В этой же части мы сфокусируемся исключительно на книгах для развития навыков программиста, ставших необходимым для современного дата-сайентиста. Основываясь на опыте моего подкаста «Дата Завтрак», я структурировал подборку по пути профессионального роста инженера: от фундаментальных навыков до специализированных продакшн-инструментов.


Читать: https://habr.com/ru/companies/ozonbank/articles/894572/

#ru

@big_data_analysis | Другие наши каналы
Применение ML Pricing в ритейле: хвост виляет собакой

Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование».

В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.


Читать: https://habr.com/ru/companies/lentatech/articles/894582/

#ru

@big_data_analysis | Другие наши каналы
Как мы покорили методы Big Data для данных любого размера

Всем привет! Меня зовут Саттар Гюльмамедов и я работаю в команде ETL платформы DataOps в МТС. Марк Твен как-то написал «Слухи о моей смерти сильно преувеличены» — про Big Data сейчас можно сказать то же самое. Волна хайпа, которую многие пытались оседлать, прошла. Но, как и значительная часть инженерных достижений, работа с большими данными стала рутиной, помогающей развиваться другим направлениям в ИТ.

В экосистеме МТС мы строим для Big Data отдельную платформу, где есть инструменты для хранения и оценки данных, анализа и построения отчетов. Но все начинается с их загрузки и обработки. Получение и преобразование данных — как раз задача библиотек и сервисов, которые делает моя команда. Многие знают мем о перекладывании JSON. А мы как раз делаем инструменты для тех случаев, когда такие задачи уже не столь тривиальны и нужно разобраться с разными типами данных, разными структурам, хранящимися к тому же в разных форматах, и все это нужно сделать в рамках одного процесса.

В этом материале я расскажу про наши решения и условия, лежащие в их основе. Одним наш опыт поможет спланировать эволюцию своих инструментов, другим снимет страх перед сложным стеком технологий Big Data, а третьи просто развлекутся.

Дисклеймер:
чтобы не отклоняться от темы, я не буду подробно описывать концепции ETL и ELT (они хорошо разобраны тут, тут и тут). Наши инструменты следуют парадигме «E[TL]+», т. е. позволяют выполнять трансформации данных как в процессе переноса, так и в целевом хранилище.

Про нашу платформу в общих чертах писал мой коллега Дмитрий Бодин в своей публикации «Customer Happiness: как не только разработать, но и внедрить новый продукт внутри крупной компании». Я продолжу начатый им рассказ и добавлю подробностей о компоненте ETL, его составляющих и нашей команде.


Читать: https://habr.com/ru/companies/ru_mts/articles/893800/

#ru

@big_data_analysis | Другие наши каналы
Как мы размечали более 800 часов аудио: от бытовых диалогов до шумных медицинских записей

Многим может показаться, что может быть сложного в аудиоразметке? Надел наушники, включил запись — и вперед, переписывай все, что слышишь. Но, как показал этот проект, даже такая на первый взгляд стандартная задача превращается в настоящее испытание, когда дело доходит до сотен часов сложных записей с медицинских устройств и фоновым шумом.

Рассказываем, как нам удалось не только качественно обработать более 800 часов аудио, но и выстроить процесс так, чтобы он оставался эффективным и прозрачным даже в самых сложных условиях.


Читать: https://habr.com/ru/companies/data_light/articles/894930/

#ru

@big_data_analysis | Другие наши каналы
LLM red teaming: полное руководство [+советы экспертов]

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.


Читать: https://habr.com/ru/articles/893644/

#ru

@big_data_analysis | Другие наши каналы
10 способов заработать на искусственном интеллекте в 2025

Топ-10 способов заработать на искусственном интеллекте. Как ИИ может приносить прибыль бизнесу и специалистам.

Читать: «10 способов заработать на искусственном интеллекте в 2025»

#ru

@big_data_analysis | Другие наши каналы
Промежуточные витрины в SQL

Привет, Хабр!

Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).


Читать: https://habr.com/ru/companies/otus/articles/894850/

#ru

@big_data_analysis | Другие наши каналы
Курсы по Big Data, включая онлайн-обучение для аналитиков больших данных

Самые лучшие курсы по Big Data. В предложенной подборке актуальные варианты обучения от проверенных школ, а так же рейтинги и цены на курсы для аналитиков Big Data

Читать: «Курсы по Big Data, включая онлайн-обучение для аналитиков больших данных»

#ru

@big_data_analysis | Другие наши каналы
Кардинальность при оптимизации DAX запросов в ClickHouse

Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.

Сегодня мы поговорим о применении группировок GROUP BY с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.


Читать: https://habr.com/ru/companies/visiology/articles/895850/

#ru

@big_data_analysis | Другие наши каналы
Управление отчетностью в Oracle Analytics

Как эффективно использовать плагин Oracle Analytics Governance для получения отчетов об артефактах и объектах в аналитической системе Oracle? Статья раскрывает детали и процесс использования этого инструмента для улучшения управления данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Эффективная цифровая трансформация

Узнайте, как одна мировая организация сократила время обработки данных на 25% и сэкономила $600,000, модернизировав свои системы с помощью Oracle Cloud. Подробности этой впечатляющей истории читайте в нашей статье!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!


Читать: https://habr.com/ru/articles/896054/

#ru

@big_data_analysis | Другие наши каналы
Как нам удалось упростить жизнь инженера-сметчика и сократить время на разработку сметы в 20 раз

Если вы инженер-сметчик, то наверняка знаете, что такое ежедневная работа с огромными таблицами и бесконечными спецификациями. Кто-то, возможно, уже смирился с монотонностью, а кто-то разработал свои лайфхаки для ускорения обработки данных. Но сегодня расскажем о новом подходе, который помог нам упростить процесс составления сметы на монтаж системы вентиляции.

С чего все начиналось: с типичного дня сметчика

Однажды мне поставили задачу — подготовить сметы для нового объекта, включая раздел вентиляции. Как многие сметчики знают, вентиляция — это один из самых трудоемких разделов.


Читать: https://habr.com/ru/articles/896046/

#ru

@big_data_analysis | Другие наши каналы
Руководство по созданию датасета для машинного обучения

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.


Читать: https://habr.com/ru/companies/data_light/articles/896108/

#ru

@big_data_analysis | Другие наши каналы
2
Машина может быть живой?

Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?


Читать: https://habr.com/ru/articles/896220/

#ru

@big_data_analysis | Другие наши каналы