Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Обработка больших данных при помощи библиотеки .NET for Apache Spark

Привет Хабр!

Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.

В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.
Погрузиться в .NET for Apache Spark

Читать: https://habr.com/ru/articles/768440/
9 лучших инструментов аннотирования изображений для Computer Vision

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.


Читать: https://habr.com/ru/articles/765350/
Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить

ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.

Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.


Читать: https://habr.com/ru/companies/vk/articles/768486/
Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).


Читать: https://habr.com/ru/articles/739254/
От A/B-тестирования к Causal Inference в оффлайн ритейле

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.


Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».


Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
Разметка данных при помощи GPT-4

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).


Читать: https://habr.com/ru/articles/768394/
Дата-сайентист хоть и не король, а без графов ему никуда

Кто же такие, вернее, что такое эти графы? Это абстракция, которую используют для выявления связей между сущностями. Сегодня их внедряют во многих крупных ИИ-проектах, потому что графы позволяют проводить вычисления с большей производительностью нежели другие способы.

Что можно делать с помощью графов, как, где и зачем, узнаете в статье: https://tprg.ru/E6xc
Почему два переезда хранилища данных — это не «пожар», а уникальный опыт для прокачки стека

Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени. Сделать «здесь и сейчас» можно всегда, но чем дольше продолжается использование данных, тем больше в дальнейшем потребуется ресурсов и времени на оптимизацию при масштабировании нагрузки или внедрении новых источников в хранилище.

Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов для руководства?

Точного ответа у меня нет, но могу рассказать про наш опыт: мы смогли качнуть баланс равновесия между задачами операционными (Run) и связанными с изменениями (Change) в пользу вторых, используя переезд хранилища данных. Если в двух словах, то это будет история о том, как мы прокачали технологии и скиллы людей, которые занимаются построением DWH, в условиях двух переездов хранилища данных за два года. Буду говорить о преимуществах и недостатках такого способа прокачки.


Читать: https://habr.com/ru/companies/uchi_ru/articles/768874/
🔥1
«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.


Читать: https://habr.com/ru/companies/vtb/articles/765370/
Почему важна разметка данных: в основе ChatGPT лежит труд людей

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.


Читать: https://habr.com/ru/articles/766402/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за последнее время.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/companies/uzum/articles/766574/
Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.
Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.


Читать: https://habr.com/ru/companies/vk/articles/769450/
Рынок данных в даркнете: как купить чужие и не потерять свои

Уже 3 года подряд компания Privacy Affairs публикует на своем сайте исследование рынка информационных услуг в даркнете. Первое исследование носило характер обзора и вышло в 2020 году. В 2021, 2022 и 2023 году специалисты компании анализировали динамику цен на те услуги, которые постоянно присутствуют в даркнете.

Исследование 2023 года содержит массу деталей, иллюстрирующих три закономерности: масштабы мошенничества с личными данными стабильно растут, цены пугающе снижаются, борьба правоохранительных органов с мошенниками не приносит значимых результатов. За несколько десятков долларов мошенники могут получить доступы от ваших карт и криптокошельков, а за несколько тысяч долларов можно «стать другим человеком»: заказать полный набор физических поддельных документов гражданина другой страны, получить данные банковских карт и логины-пароли от социальных сетей.

В этом обзоре мы воздержимся от морализаторства, ограничившись демонстрацией и анализом происходящего с короткими табличками и последними данными по видам и мошенничества, расценками черного рынка и примерами из российского даркнета.


Читать: https://habr.com/ru/companies/xeovo/articles/769652/
MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных

Привет, Хабр! В сегодняшнем дайджесте продолжаю делиться материалами, которые помогут вам лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Какие перспективы у LLM и BI? Куда Amazon и Google инвестировали более $4 млрд? Как организовать работу аналитических команд? Интересно узнать? Тогда читайте нашу статью. Еще больше полезных материалов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/770342/
Как мы собираемся дать ИИ и гражданам доступ в госуправление: кейс Татарстана

Центр цифровой трансформации Республики Татарстан запустил площадку публичных обсуждений проектов в сфере ИИ, в которой пользователи и предобученная большая языковая модель вместе обсуждают и оценивают инициативы в сфере ИИ.

В статье рассказываем, для чего нужна площадка и как она будет работать.


Читать: https://habr.com/ru/companies/digital_tatarstan/articles/770680/
Открытое письмо BI компаниям — проект “Dashboard.AI

Привет, аналитики, руководители и основатели Business intelligence компаний!

Я создаю сервис WikiBot, который обучается по документации и консультирует пользователей в чате, как специалист первой линии поддержки. Наш чат-бот понимает вопрос и отвечает как человек.

Весь мир двигается в сторону использования ИИ-помощников. Людям нравится получать результаты просто давая команды на родном языке.

Предлагаю вам, совместно с моей командой, создать продукт Dashboard.AI, который будет обладать следующим функционалом:


Читать: https://habr.com/ru/articles/770696/
This media is not supported in your browser
VIEW IN TELEGRAM
Астрологи объявили неделю ML-инженера 🔮

🎃 В канун Дня Всех Святых Старшие Арканы развернули инфраструктуру на ваших серверах — выясните, что они предсказывают!

Какая опасность ждёт ваши модели — переобучение или мод коллапс?

Сделайте скриншот экрана — узнайте, какая карта определит вашу судьбу в профессии и какой амулет поможет избежать бед 🧿

Скрин, скрин!
👍1
Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!


Читать: https://habr.com/ru/companies/megafon/articles/767820/
1👍1