Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
S3 не сразу строилось

Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть


Читать: https://habr.com/ru/articles/754340/
👍1
14 типов атак, которые должны выявлять системы лицевой биометрии

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.


Читать: https://habr.com/ru/articles/750326/
Apache Spark 3.4 для Databricks Runtime 13.0

Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.


Читать: https://habr.com/ru/companies/southbridge/articles/754464/
Analytics Learning Library - Check out the Oracle Analytics YouTube Videos

Oracle Analytics YouTube Videos

Read: https://blogs.oracle.com/proactivesupportepm/post/oracle-analytics-youtube-videos
Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов

Рынок онлайн-образования постоянно растет. Загляните хотя бы в эту статью — сплошь растущие графики. Лучше всего в онлайне развиваются те ниши, в которых сложно получить классическое образование: например, IT.

Что не так с IT в университетах? Коротко: многие учебники устарели, преподаватели не всегда работают по профессии, долгая учёба и мало практики. За те 4 года, что студент получает знания, например, по программированию, принципы профессии уже поменялись.

12 лет назад мы решили обучать айтишников актуальным навыкам с отработкой полученных знаний на реальных задачах и проектах бизнеса. Для качественной подготовки курса нужны крутые эксперты, которые помогут составить грамотную программу курса, расскажут, что же актуально и как это использовать. Но как привлечь состоявшихся специалистов в образование?

Именно об этом — под катом. Пятеро создателей курса Нетологии «Data Science с нуля до middle» расскажут, почему пришли в эдтех, как ищут успешные решения в современном образовании и почему им всё это нравится.


Читать: https://habr.com/ru/specials/753982/
Какой язык программирования выбрать? Часть 4: Spark

Особенность Spark в том, что другого такого фреймворка нет в принципе. Flink, Apache NiFi и другие инструменты закрывают не все задачи. Лично моё мнение – Spark на голову выше их всех. Он уникален, широко распространён и де-факто является стандартом индустрии обработки больших данных.


Читать: https://habr.com/ru/companies/kryptonite/articles/754486/
Зачем инструмент dbt нужен аналитику

Представляем подробный гайд по dbt — Data Build Tool — одному из лучших фреймворков для трансформации данных.

Читать: «Зачем инструмент dbt нужен аналитику»
Oracle Fusion Analytics Event Notifications with OCI Functions

Configuring email notifications with OCI Functions and Oracle Fusion Analytics Event notifications

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-event-notifications-with-oci-functions
Фантастические pandas

Размышления о том, как перейти от тяжёлых мыслей о конкуренции в IT к любви к фантастическим мишкам и восклицательным знакам, если правильно и вовремя импортируешь нужные библиотеки.


Читать: https://habr.com/ru/articles/748556/
Каталог данных на примере DataHub. Часть I

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных.

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.
Погнали 🚀

Читать: https://habr.com/ru/articles/748350/
Единая нейросетевая модель кредитного скоринга

Сейчас в Альфа-Банке при построении моделей используется множество различных источников данных. Мы в Лаборатории машинного обучения уже несколько лет применяем нейронные сети на последовательностях для решения задачи кредитного скоринга и построили модели на данных карточных транзакций, транзакций расчетного счета и кредитных историй. Повышение качества в задаче кредитного скоринга позволяет банку выдавать большее количество кредитов при неизменном уровне риска, что напрямую влияет на его прибыль.

Моделей становится все больше, и возникает вопрос: почему бы нам не смешивать модели не на уровне их предсказаний, а на некотором более низком уровне? Эта идея приводит нас к новому способу смешивания - построению единой нейросетевой модели, работающей со всеми источниками последовательных данных и учитывающей их взаимное влияние друг на друга. В этой статье мы расскажем, как нам удалось разработать такую модель и каких результатов она позволяет добиться в задаче кредитного скоринга.


Читать: https://habr.com/ru/companies/alfa/articles/748824/
Департамент Big Data Tele2 научил ИИ анализировать автомобильный трафик по всей России

И не просто анализировать, а делать выводы о социально-демографических характеристиках автомобилистов.


Читать: https://habr.com/ru/companies/tele2/articles/749094/
Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Привет, Хабр! Легендарная команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем опасном бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.


Читать: https://habr.com/ru/companies/magnit/articles/748680/
Сравниваем модели машинного обучения с применением статистических тестов

При изучении учебных программ по machine learning я заметила недостаток материалов, посвященных сравнению моделей. Меня зовут Виолетта, я как data scientist в QIWI ежедневно занимаюсь оценкой данных и обучением моделей машинного обучения. В этой статье я рассмотрю три метода сравнения моделей.

Материал будет полезен для сравнения классических моделей, таких как регрессионные модели или модели классификации, на больших таблицах. Акцент в тексте я сделала на методике сравнительного анализа, без учета оптимизации времени тестирования.


Читать: https://habr.com/ru/companies/qiwi/articles/749274/
Modus BI Cloud: работа с данными в облаке

Привет, Хабр, на связи product owner компании Modus Александр Чебанов. Сегодня поговорим про работу и анализ данных в облаке, а еще об архитектуре нашего нового облачного BI для малого и среднего бизнеса.


Читать: https://habr.com/ru/companies/modusbi/articles/749432/
Как мы снизили нагрузку на SAP HANA незаметно для пользователей

Объем информации в корпоративном хранилище данных (КХД) со временем неизбежно начинает превышать запланированные изначально мощности. Обычно эта проблема решается тем, что докупаются недостающие мощности (будет дорого). Когда с такой ситуацией столкнулся наш клиент, мы предложили ему другое решение. Оно позволило сэкономить бюджеты и сделать переходный период максимально безболезненным.

Читайте, что именно мы сделали и какой был результат.


Читать: https://habr.com/ru/companies/sapiens_solutions/articles/747142/
Обновление Дельта BI. ChatGPT, PixelPerfect, коннекторы и визуализации

Совсем недавно вышло обновление платформы для бизнес-аналитики Дельта BI с решениями, знаковыми для всей отрасли. Учитывая нашу реальность и недоступность глобальных продуктов, обновление ощутимо увеличивает отрыв Дельта BI от ближайших конкурентов на российском рынке. Показываем и рассказываем, почему.


Читать: https://habr.com/ru/articles/749996/
Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана

Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта, проектной документации, ценности для бизнеса и требованиях. О том, как начинать с малого и быстро отказываться от слабых идей. Руководство пригодится дата-сайентистам, специалистам по машинному обучению, руководителям отделов, техническим руководителям или тем, кто хочет дорасти до этого уровня.


Читать: https://habr.com/ru/companies/vk/articles/749850/