Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).


Читать: https://habr.com/ru/articles/739254/
От A/B-тестирования к Causal Inference в оффлайн ритейле

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.


Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».


Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
Разметка данных при помощи GPT-4

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).


Читать: https://habr.com/ru/articles/768394/
Дата-сайентист хоть и не король, а без графов ему никуда

Кто же такие, вернее, что такое эти графы? Это абстракция, которую используют для выявления связей между сущностями. Сегодня их внедряют во многих крупных ИИ-проектах, потому что графы позволяют проводить вычисления с большей производительностью нежели другие способы.

Что можно делать с помощью графов, как, где и зачем, узнаете в статье: https://tprg.ru/E6xc
Почему два переезда хранилища данных — это не «пожар», а уникальный опыт для прокачки стека

Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени. Сделать «здесь и сейчас» можно всегда, но чем дольше продолжается использование данных, тем больше в дальнейшем потребуется ресурсов и времени на оптимизацию при масштабировании нагрузки или внедрении новых источников в хранилище.

Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов для руководства?

Точного ответа у меня нет, но могу рассказать про наш опыт: мы смогли качнуть баланс равновесия между задачами операционными (Run) и связанными с изменениями (Change) в пользу вторых, используя переезд хранилища данных. Если в двух словах, то это будет история о том, как мы прокачали технологии и скиллы людей, которые занимаются построением DWH, в условиях двух переездов хранилища данных за два года. Буду говорить о преимуществах и недостатках такого способа прокачки.


Читать: https://habr.com/ru/companies/uchi_ru/articles/768874/
🔥1
«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.


Читать: https://habr.com/ru/companies/vtb/articles/765370/
Почему важна разметка данных: в основе ChatGPT лежит труд людей

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.


Читать: https://habr.com/ru/articles/766402/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за последнее время.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/companies/uzum/articles/766574/
Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.
Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.


Читать: https://habr.com/ru/companies/vk/articles/769450/
Рынок данных в даркнете: как купить чужие и не потерять свои

Уже 3 года подряд компания Privacy Affairs публикует на своем сайте исследование рынка информационных услуг в даркнете. Первое исследование носило характер обзора и вышло в 2020 году. В 2021, 2022 и 2023 году специалисты компании анализировали динамику цен на те услуги, которые постоянно присутствуют в даркнете.

Исследование 2023 года содержит массу деталей, иллюстрирующих три закономерности: масштабы мошенничества с личными данными стабильно растут, цены пугающе снижаются, борьба правоохранительных органов с мошенниками не приносит значимых результатов. За несколько десятков долларов мошенники могут получить доступы от ваших карт и криптокошельков, а за несколько тысяч долларов можно «стать другим человеком»: заказать полный набор физических поддельных документов гражданина другой страны, получить данные банковских карт и логины-пароли от социальных сетей.

В этом обзоре мы воздержимся от морализаторства, ограничившись демонстрацией и анализом происходящего с короткими табличками и последними данными по видам и мошенничества, расценками черного рынка и примерами из российского даркнета.


Читать: https://habr.com/ru/companies/xeovo/articles/769652/
MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных

Привет, Хабр! В сегодняшнем дайджесте продолжаю делиться материалами, которые помогут вам лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Какие перспективы у LLM и BI? Куда Amazon и Google инвестировали более $4 млрд? Как организовать работу аналитических команд? Интересно узнать? Тогда читайте нашу статью. Еще больше полезных материалов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/770342/
Как мы собираемся дать ИИ и гражданам доступ в госуправление: кейс Татарстана

Центр цифровой трансформации Республики Татарстан запустил площадку публичных обсуждений проектов в сфере ИИ, в которой пользователи и предобученная большая языковая модель вместе обсуждают и оценивают инициативы в сфере ИИ.

В статье рассказываем, для чего нужна площадка и как она будет работать.


Читать: https://habr.com/ru/companies/digital_tatarstan/articles/770680/
Открытое письмо BI компаниям — проект “Dashboard.AI

Привет, аналитики, руководители и основатели Business intelligence компаний!

Я создаю сервис WikiBot, который обучается по документации и консультирует пользователей в чате, как специалист первой линии поддержки. Наш чат-бот понимает вопрос и отвечает как человек.

Весь мир двигается в сторону использования ИИ-помощников. Людям нравится получать результаты просто давая команды на родном языке.

Предлагаю вам, совместно с моей командой, создать продукт Dashboard.AI, который будет обладать следующим функционалом:


Читать: https://habr.com/ru/articles/770696/
This media is not supported in your browser
VIEW IN TELEGRAM
Астрологи объявили неделю ML-инженера 🔮

🎃 В канун Дня Всех Святых Старшие Арканы развернули инфраструктуру на ваших серверах — выясните, что они предсказывают!

Какая опасность ждёт ваши модели — переобучение или мод коллапс?

Сделайте скриншот экрана — узнайте, какая карта определит вашу судьбу в профессии и какой амулет поможет избежать бед 🧿

Скрин, скрин!
👍1
Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!


Читать: https://habr.com/ru/companies/megafon/articles/767820/
1👍1
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.


Читать: https://habr.com/ru/companies/slurm/articles/771036/
👍1
Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание

Вопрос о замене «умирающего» западного BI решения в своей организации на отечественную платформу становится с каждым месяцем все более актуальным. Мы уже писали раннее, что 2024 год будет бумом больших проектов по переходу на софт из реестра. Сейчас гонка вендоров по наращиванию количества фичей в самом разгаре. Такой бурный рост обязательно скажется на качестве самих продуктов и весь 2024 год еще придется лечить «детские» и «подростковые» болезни, поскольку багов будет много. Видимо в цене будут хорошие тестировщики и качественная оперативная техническая поддержка, которая должна будет взять весь этот гнев избалованных западными решениями пользователей на себя. Конечно ко всему этому нужно добавить задачи повышения производительности самих платформ, особенно интересно это будет увидеть на отечественных серверах и процессорах. Пока что много красивых картинок в презентациях и не понятно на чем основанных рекомендациях по сайзингу. Публичный документ с данными о нагрузке выкладывают единицы, как правило это тесты на своих серверах. Исходя из нашего понимания (конечно же это субъективное мнение группы людей, оно может не совпадать с Вашим), как будет развиваться рынок в следующем году, мы подготовили рекомендации. На что нужно обратить внимание при выборе платформы и подрядчика:


Читать: https://habr.com/ru/articles/771258/
Lego набор, который я всегда хотел

Все уже в курсе, что искусственный интеллект может многое. В этой статье я дам возможность ИИ собрать интересные наборы LEGO, которые я бы с удовольствие сам пособирал и в конце статьи, поделюсь инфо, как именно можно сгенерировать такие наборы своей мечты самостоятельно.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Итак, давайте смотреть, что удалось сгенерировать:


Читать: https://habr.com/ru/articles/771396/
Managing Permissions in Oracle Analytics Cloud

In a world of self-service analytics, everyone is an author, but often it's better to limit the scope of the types of content certain users can create.

Read: https://blogs.oracle.com/undefined/post/managing-permissions-in-oracle-analytics-cloud