Data Analysis / Big Data
2.84K subscribers
566 photos
3 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Цвет сезона – слива. Что мы сделали с GreenPlum в 2022-м и что планируем в 2023-м

Привет, Хабр! Меня зовут Марк Лебедев, работаю архитектором в GlowByte. В июне 2022 года на митапе DataPeople мы с командой рассказывали о наших планах в части GreenPlum (запись выступления). Если коротко, тогда мы сфокусировались на развитии open-source и собирались выложить в публичный доступ наши наработки относительно мониторинга кластера и мониторинга запросов, плейбуки по инсталляции и наши подходы для нагрузочного тестирования. Собственно про них и хотелось бы поговорить подробно. В этой статье мы подведём итоги, что нам удалось сделать за прошедшие 6 месяцев, и расскажем о планах на будущий год. В конце статьи укажем все ссылки на репозитории.


Читать: https://habr.com/ru/post/711206/
How to get multiple prediction outputs for an Oracle Machine Learning model in Oracle Analytics Cloud

This blog describes how to get multiple prediction outputs for an OML model as part of the scoring process in dataflows in OAC.

Read: https://blogs.oracle.com/analytics/post/how-to-get-multiple-output-predictions-for-an-oml-model-in-oac
Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.


Читать: https://habr.com/ru/post/709688/
Важные исследования в области AI в 2022 г

Данная статья представляет собой свободный перевод раздела "Исследования" из доклада State of the Art 2022 (октябрь). Доклад State of the Art публикуется уже пятый год. Это подборка самых интересных вещей в мире AI, (конечно с точки зрения авторов). Отчет включает в себя несколько блоков:


Читать: https://habr.com/ru/post/711512/
Компьютерное зрение: загрузка и подготовка данных Fashion MNIST

Глубокое обучение — это набор методов, которые особенно хорошо работают с задачами компьютерного зрения и обработки естественного языка. DL является частью более широкой области, называемой машинным обучением (ML).

В данной практике мы хотим распознавать разные предметы одежды, обученные на наборе данных, содержащем 10 различных типов — по сути, проблема классификации изображений, а не данные, напоминающие что-то вроде набора данных Iris, который мы далее рассмотрим.


Читать: https://habr.com/ru/post/711852/
Configure Private Printer in Oracle Analytics Cloud using Public OCI Load Balancer

In Oracle Analytics Cloud you can enable IPP printing through a private printer running from a Common UNIX Printing System (CUPS) server or directly via IPP.

Read: https://blogs.oracle.com/analytics/post/configure-a-private-printer-in-oracle-analytics-cloud
Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse

Привет, Хабр! Меня зовут Федор Тюрин, я руководитель команды продуктовой аналитики в Учи.ру. Мы проводим очень много А/Б-тестов (десятки запусков в неделю и сотни в течение года). В таких условиях очень важна автоматизация процесса анализа и подведения итогов теста.


Читать: https://habr.com/ru/post/712192/
Обзор книги «Data Science. Наука о данных с нуля», отличная книга для начинающих

Всем доброго времени суток! Так как о Data Science мы слышим всё чаще и чаще, предлагаю вам обзор книги, что будет полезна для начинающих.

Публикую обзор книги с моего телеграмм-канала IT-старт t.iss.one/it_begin на книгу "Data Science.Наука о данных для начинающих".

Автор книги Джоэл Грас.

Стоит читать? Да! Почему? Опишу в статье.


Читать: https://habr.com/ru/post/712388/
👍3
Как не попасть в яму с помощью нейронных сетей: технологии приходят на помощь коммунальщикам

Привет, Хабр! Меня зовут Андрей Соловьёв, я DS в Сбере. Вероятно, практически каждый читатель этой статьи сталкивался с проблемными дорогами, если вы автомобилист, или тротуарами, если вы пешеход. Плохие дороги — одна из актуальнейших проблем любой страны. Сегодня поговорим о том, как технологии могут помочь решить эту проблему.

Задача состоит в распознавании повреждений дорожного покрытия. Общая дорожная сеть Российской Федерации — 1,5 млн км, из которых примерно 75% — дороги общего пользования. При этом около 65% таких дорог имеют твёрдое покрытие, однако 55% из них не соответствуют нормативным требованиям. Иными словами, большинство национальных дорог содержит различные дефекты, и это становится серьёзной опасностью как для владельцев транспортных средств, так и для самого транспорта, а также для пешеходов. Что делать? Конечно же, привлечь нейросети. Как — рассказываю под катом.


Читать: https://habr.com/ru/post/712502/
👍2
Big Data МТС запускает хакатон по ML с призовым фондом 650 тысяч рублей

2 месяца участники ML-хакатона будут разрабатывать решения для определения пола и возраста человека по cookie. Самые успешные получат приз.

Читать: «Big Data МТС запускает хакатон по ML с призовым фондом 650 тысяч рублей»
Топ-5 трендов управления производственными активами

Мы в Factory5 постоянно исследуем рынок и отмечаем тенденции развития не только отечественного, но и зарубежного рынка цифровых решений для промышленности. 2022 год стал поворотным в истории многих предприятий: компаниям приходилось трансформироваться под новые реалии, пробовать новое и принимать быстрые решения. Представляем вашему вниманию обзор актуальных трендов рынка применения систем класса EAM (Enterprise Asset Management). Такие системы применяются для автоматизации бизнес-процессов учета, технического обслуживания и ремонта основных фондов промышленных компаний.


Читать: https://habr.com/ru/post/712782/
Заповеди начинающего DS

Привет! Меня зовут Mashkka Тихонова. Я - Senior Data Scientist, а еще я активно преподаю все, что связано с ML, DS и DL - помогаю людям начать свой путь в Data Science!

За годы преподавания у меня накопилось много советов для тех, кто только-только начинает свой путь в DS. Этими советами я всегда делюсь со студентами, а теперь решила собрать их в одном посте, написанном по мотивам моей серии постов в tg .

Советы эти совсем простые (уровня не заваливай горизонт на фото, когда фоткаешь пейзаж), но очень часто именно про такие базовые вещи на первых этапах забывают рассказать.В свое время я сама наступала на эти грабли, так как мне их никто не рассказал. Буду рада, если помогу вам этих ошибок избежать!


Читать: https://habr.com/ru/post/712592/
Виброакустический мониторинг дорожной обстановки

В России впервые в мире внедрили систему акустического мониторинга по волоконно-оптическим линиям на действующей автомобильной дороге протяженностью около 240 километров. Система позволяет в режиме реального времени отслеживать большое количество событий на дороге с точностью до 1 метра по акустическим следам от участников дорожного движения.

Проект был реализован компанией "СМАРТС", за программную часть отвечала ИТ-компания Haulmont. Собственно далее рассказ пойдет от лица разработчиков о сложностях и нюансах этого уникального проекта.


Читать: https://habr.com/ru/post/712788/
Зачем мы моделируем импульсные нейронные сети и с помощью чего это делаем

Привет, Хабр! На связи Михаил Киселев, руководитель направления в отделе ИИ компании «Цифрум» (Росатом) и руководитель лаборатории нейроморфных вычислений в Чувашском государственном университете. Сегодня подниму тему импульсных нейронных сетей. Общее представление о том, что такое искусственные нейронные сети, есть, наверное, у всех. Многие представляют, зачем они нужны, как устроены, как работают. Речь пойдет об одной их разновидности – импульсных нейронных сетях (ИНС). Нейросети вообще мыслились их создателями как компьютерные модели ансамблей нервных клеток мозга – это и из их названия следует. У разных типов нейросетей степень этого сходства разная. Так вот, ИНС – это самый похожий на биологический мозг тип нейронных сетей.

За счет этой похожести достигаются немалые преимущества. Прежде всего – энергоэкономичность нейропроцессоров. Почему же тогда мы не видим вокруг себя эти импульсные сети – в смартфонах, камерах, умных часах, умных утюгах?
и узнать, почему же

Читать: https://habr.com/ru/post/712244/
Как структурировать процессы контроля качества для аннотаций медицинских снимков

При создании любой модели компьютерного зрения командам разработчиков машинного обучения требуются высококачественные массивы данных с высококачественными аннотациями, чтобы обеспечить хорошую точность модели.

Однако когда дело касается создания моделей искусственного интеллекта для применения в здравоохранении, ставки становятся ещё выше — эти модели могут непосредственно влиять на жизни людей. Их необходимо обучать на данных, аннотированных опытными медицинскими специалистами, у которых не очень много свободного времени. Также они должны удовлетворять высоким научным и нормативным стандартам, поэтому чтобы вывести модель из разработки в продакшен, командам разработчиков ML необходимо обучать их на лучших данных с лучшими аннотациями.

Именно поэтому у любой компании, занимающейся компьютерным зрением (особенно если она создаёт модели для медицинской диагностики), должен существовать процесс контроля качества аннотаций медицинских данных.


Читать: https://habr.com/ru/post/705558/