Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Контроль качества разметки на проекте: делай как ОКК

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.

Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.


Читать: https://habr.com/ru/companies/data_light/articles/848234/

#ru

@big_data_analysis | Другие наши каналы
«ИИ можно использовать для помощи в кризисных ситуациях, например, при буллинге или потере работы»

Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию.


Читать: https://habr.com/ru/companies/X5Tech/articles/848280/

#ru

@big_data_analysis | Другие наши каналы
Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.


Читать: https://habr.com/ru/companies/sberbank/articles/748406/
👍1
Бутстрап в PySpark

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.


Читать: https://habr.com/ru/companies/X5Tech/articles/849322/

#ru

@big_data_analysis | Другие наши каналы
Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT.

В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.


Читать: https://habr.com/ru/companies/data_light/articles/849384/

#ru

@big_data_analysis | Другие наши каналы
Разработка пакетов на языке R (бесплатный видео курс)

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.


Читать: https://habr.com/ru/articles/849440/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация аналитики с Oracle
Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Данные – это новая нефть

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.


Читать: https://habr.com/ru/articles/849066/

#ru

@big_data_analysis | Другие наши каналы
Lamoda Tech Data Science Meetup #2: материалы встречи

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.
Смотреть записи докладов и презентации

Читать: https://habr.com/ru/companies/lamoda/articles/849398/

#ru

@big_data_analysis | Другие наши каналы
Эксперты объяснили необходимость перехода к цифровой трансформации государства и экономике данных

В МТУСИ объяснили необходимость перехода к цифровой трансформации государства и экономике данных

Сегодня наблюдается постоянный рост объема информации и повышение требований к скорости ее передачи и разработки. Динамизм процессов цифровизации всех видов деятельности и использование большого объема информации диктуют необходимость радикального преобразования способов и технологий управления производством и потреблением на основе цифровых технологий и данных. Группа ученых МТУСИ проанализировала проблему и определила причины и факторы перехода к цифровой трансформации государства и экономике данных.


Читать: https://habr.com/ru/companies/mtuci/articles/849912/

#ru

@big_data_analysis | Другие наши каналы
Data Ocean Nova. Next-gen платформа данных класса Lakehouse

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке


Читать: https://habr.com/ru/companies/glowbyte/articles/850034/

#ru

@big_data_analysis | Другие наши каналы
Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.


Читать: https://habr.com/ru/companies/data_light/articles/850068/

#ru

@big_data_analysis | Другие наши каналы
Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.


Читать: https://habr.com/ru/articles/850218/

#ru

@big_data_analysis | Другие наши каналы
5 лучших инструментов для разметки данных в 2024 году

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени.

Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.


Читать: https://habr.com/ru/companies/data_light/articles/850770/

#ru

@big_data_analysis | Другие наши каналы
2
Эффективное использование вложенных типов данных в SQL

Статья посвящена техникам работы с вложенными типами данных в SQL для более эффективного представления отношений в данных. Рассматривается использование STRUCT для один-к-одному связей и ARRAY для агрегирования данных. Автор также делится примерами кода для реализации этих подходов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Объединение Oracle Analytics и Big Data

Подключите Oracle Analytics Cloud к Oracle Big Data Service с помощью Hive и Spark, чтобы получить более глубокое понимание данных. Узнайте, как это интегрирование позволяет расширить возможности анализа больших данных и принять более обоснованные решения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как Лента формирует эффективный ассортимент на основе данных

Привет, Habr!

Меня зовут Катя, я продакт-менеджер BigData в группе компаний «Лента», отвечаю за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажу про путь к управлению ассортиментом на основе данных и наш флагман – приложение Deli – рабочее место, в котором менеджер анализирует матрицу своих категорий и вносит в нее изменения на основе рекомендаций алгоритма.


Читать: https://habr.com/ru/companies/lentatech/articles/851086/

#ru

@big_data_analysis | Другие наши каналы
Краткий обзор LLM бенчмарков

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.


Читать: https://habr.com/ru/articles/847002/

#ru

@big_data_analysis | Другие наши каналы
Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.


Читать: https://habr.com/ru/companies/arenadata/articles/851080/

#ru

@big_data_analysis | Другие наши каналы
Кейс оптимизации запросов для Greenplum

Всем привет! Меня зовут Андрей, я работаю дата аналитиком в Data Team продукта Dialog.X5/Insights в X5 Tech. Мы предоставляем аналитику по продажам и покупательскому поведению на данных X5 Group.  Для обработки больших объёмов данных в продукте используется  СУБД (система управления базами данных) Greenplum.

В статье рассмотрим ресурсоёмкую операцию для распределённых систем COUNT(DISTINCT) и два способа оптимизации. Для предварительного погружения в планы запросов можно прочитать вот эту хорошую статью.


Читать: https://habr.com/ru/companies/X5Tech/articles/851386/

#ru

@big_data_analysis | Другие наши каналы