Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как легко собирать и обрабатывать данные из множества систем без ручного копипаста?

Программные роботы (RPA) относительно новая технология, которая приходит на помощь, когда нужно собрать информацию из множества разнородных корпоративных систем, выполнить первичную разметку данных по косвенным признакам и занести результаты обработки в отчётные формы.

ROBIN RPA одна из первых платформ в России, позволяющая разрабатывать роботов полностью в No Code конструкторе даже тем, кто очень далёк от программирования. Разработка миниприложений по работе с данными ускоряется в разы и позволяет за один вечер создавать решения даже под разовые задачи.

Платформа ROBIN используется крупнейшими корпорациями, но с появлением облачной версии софта тарифы стали доступны даже для малого бизнеса. Есть очень лояльный демо период, бесплатное обучение с возможностью получить сертификат по RPA технологии. Активные разработчики в комьюнити роботизаторов имеют возможность пользоваться платформой бесплатно в рамках RPA челленджа.

Владение навыком по созданию программных роботов это безусловно очень крутой буст при работе с массивами данных, позволяющий всю самую рутинную обработку оперативно отгружать роботу. Стоит начать прямо сейчас! Регистрируйтесь на https://tprg.ru/osbh и получите доступ к полнофункциональной платформе роботизации за 15 минут!

ООО «Робин» ИНН 9725022632 erid=LjN8KRvhS
👍1
Обработка больших данных при помощи библиотеки .NET for Apache Spark

Привет Хабр!

Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.

В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.
Погрузиться в .NET for Apache Spark

Читать: https://habr.com/ru/articles/768440/
9 лучших инструментов аннотирования изображений для Computer Vision

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.


Читать: https://habr.com/ru/articles/765350/
Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить

ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.

Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.


Читать: https://habr.com/ru/companies/vk/articles/768486/
Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).


Читать: https://habr.com/ru/articles/739254/
От A/B-тестирования к Causal Inference в оффлайн ритейле

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.


Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».


Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
Разметка данных при помощи GPT-4

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).


Читать: https://habr.com/ru/articles/768394/
Дата-сайентист хоть и не король, а без графов ему никуда

Кто же такие, вернее, что такое эти графы? Это абстракция, которую используют для выявления связей между сущностями. Сегодня их внедряют во многих крупных ИИ-проектах, потому что графы позволяют проводить вычисления с большей производительностью нежели другие способы.

Что можно делать с помощью графов, как, где и зачем, узнаете в статье: https://tprg.ru/E6xc
Почему два переезда хранилища данных — это не «пожар», а уникальный опыт для прокачки стека

Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени. Сделать «здесь и сейчас» можно всегда, но чем дольше продолжается использование данных, тем больше в дальнейшем потребуется ресурсов и времени на оптимизацию при масштабировании нагрузки или внедрении новых источников в хранилище.

Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов для руководства?

Точного ответа у меня нет, но могу рассказать про наш опыт: мы смогли качнуть баланс равновесия между задачами операционными (Run) и связанными с изменениями (Change) в пользу вторых, используя переезд хранилища данных. Если в двух словах, то это будет история о том, как мы прокачали технологии и скиллы людей, которые занимаются построением DWH, в условиях двух переездов хранилища данных за два года. Буду говорить о преимуществах и недостатках такого способа прокачки.


Читать: https://habr.com/ru/companies/uchi_ru/articles/768874/
🔥1
«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.


Читать: https://habr.com/ru/companies/vtb/articles/765370/
Почему важна разметка данных: в основе ChatGPT лежит труд людей

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.


Читать: https://habr.com/ru/articles/766402/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за последнее время.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/companies/uzum/articles/766574/
Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.
Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.


Читать: https://habr.com/ru/companies/vk/articles/769450/
Рынок данных в даркнете: как купить чужие и не потерять свои

Уже 3 года подряд компания Privacy Affairs публикует на своем сайте исследование рынка информационных услуг в даркнете. Первое исследование носило характер обзора и вышло в 2020 году. В 2021, 2022 и 2023 году специалисты компании анализировали динамику цен на те услуги, которые постоянно присутствуют в даркнете.

Исследование 2023 года содержит массу деталей, иллюстрирующих три закономерности: масштабы мошенничества с личными данными стабильно растут, цены пугающе снижаются, борьба правоохранительных органов с мошенниками не приносит значимых результатов. За несколько десятков долларов мошенники могут получить доступы от ваших карт и криптокошельков, а за несколько тысяч долларов можно «стать другим человеком»: заказать полный набор физических поддельных документов гражданина другой страны, получить данные банковских карт и логины-пароли от социальных сетей.

В этом обзоре мы воздержимся от морализаторства, ограничившись демонстрацией и анализом происходящего с короткими табличками и последними данными по видам и мошенничества, расценками черного рынка и примерами из российского даркнета.


Читать: https://habr.com/ru/companies/xeovo/articles/769652/
MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных

Привет, Хабр! В сегодняшнем дайджесте продолжаю делиться материалами, которые помогут вам лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Какие перспективы у LLM и BI? Куда Amazon и Google инвестировали более $4 млрд? Как организовать работу аналитических команд? Интересно узнать? Тогда читайте нашу статью. Еще больше полезных материалов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/770342/
Как мы собираемся дать ИИ и гражданам доступ в госуправление: кейс Татарстана

Центр цифровой трансформации Республики Татарстан запустил площадку публичных обсуждений проектов в сфере ИИ, в которой пользователи и предобученная большая языковая модель вместе обсуждают и оценивают инициативы в сфере ИИ.

В статье рассказываем, для чего нужна площадка и как она будет работать.


Читать: https://habr.com/ru/companies/digital_tatarstan/articles/770680/
Открытое письмо BI компаниям — проект “Dashboard.AI

Привет, аналитики, руководители и основатели Business intelligence компаний!

Я создаю сервис WikiBot, который обучается по документации и консультирует пользователей в чате, как специалист первой линии поддержки. Наш чат-бот понимает вопрос и отвечает как человек.

Весь мир двигается в сторону использования ИИ-помощников. Людям нравится получать результаты просто давая команды на родном языке.

Предлагаю вам, совместно с моей командой, создать продукт Dashboard.AI, который будет обладать следующим функционалом:


Читать: https://habr.com/ru/articles/770696/
This media is not supported in your browser
VIEW IN TELEGRAM
Астрологи объявили неделю ML-инженера 🔮

🎃 В канун Дня Всех Святых Старшие Арканы развернули инфраструктуру на ваших серверах — выясните, что они предсказывают!

Какая опасность ждёт ваши модели — переобучение или мод коллапс?

Сделайте скриншот экрана — узнайте, какая карта определит вашу судьбу в профессии и какой амулет поможет избежать бед 🧿

Скрин, скрин!
👍1