Data Analysis / Big Data
2.83K subscribers
561 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как мы делаем SOC as a service: привлекаем большие данные и собственный SIEM на помощь клиентам

В работе с публичными облаками много плюсов, но с точки зрения ИБ — есть свои риски по сравнению с on‑premises. Минимизировать их помогает выделенный Security Operation Center (SOC). При этом создать его у себя не так просто: для эффективной работы SOC в Yandex Cloud понадобилось несколько лет разработки, а также технологии и мощности Яндекса, которые развивались годами.

Поскольку у клиентов облака не всегда есть ресурсы и экспертиза, чтобы создать подобный SOC у себя, мы не только строили свой центр, но и параллельно делали на его основе управляемый сервис Yandex Cloud Detection & Response (YCDR). В процессе разработки мы должны были позаботиться о том, чтобы даже привилегированные учётные записи не могли обойти семь слоёв облачной безопасности, — и в итоге многие компоненты написали самостоятельно.

Первая часть статьи для тех, кому важны механизмы безопасной изоляции ресурсов. Покажем, как мы строили SOC c учётом особенностей облачной защиты.

Вторая часть для тех, кто интересуется большими данными. Продемонстрируем, что скрывает под капотом сервис, обрабатывающий более полумиллиона событий в секунду. А также расскажем, почему нам потребовалось создать для него собственную SIEM‑систему.


Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/936258/

#ru

@big_data_analysis | Другие наши каналы
Куда двигаться после изучения Django: советы для Python-разработчиков

В статье разбираемся, почему Django — далеко не финиш в карьере, и в каких направлениях можно двигаться Python-разработчику.

Читать: «Куда двигаться после изучения Django: советы для Python-разработчиков»

#ru

@big_data_analysis | Другие наши каналы
Hybrid RAG: методы реализации ч.1 — Поиск

С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.

В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.


Читать: https://habr.com/ru/articles/913418/

#ru

@big_data_analysis | Другие наши каналы
Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Привет, Хабр! На связи Марк – ведущий архитектор группы компаний "ГлоуБайт". В этой статье я поделюсь результатами нагрузочного тестирования, которое мы с коллегами провели для сравнения Greenplum 6 с Greenplum 7 и Cloudberry.


Читать: https://habr.com/ru/companies/glowbyte/articles/936384/

#ru

@big_data_analysis | Другие наши каналы
This media is not supported in your browser
VIEW IN TELEGRAM
Взгляните на IT-мир по-новому

12 сентября. Топовые IT-компании. Закулисье разработок и доклады экспертов. Ещё не знаете, о чём речь? Сейчас расскажем!

Приглашаем вас на big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые компании одновременно откроют двери офисов ночью и покажут IT-специалистам, где рождаются технологии.

▶️ В московских офисах организаторов вы:
• послушаете доклады топовых экспертов,
• обсудите новейшие разработки,
• познакомитесь с крутыми профессионалами,
• и просто повеселитесь.

▶️ Если не сможете прийти офлайн, big tech night организует онлайн-студию. Зрители смогут:
• посмотреть выступления спикеров от каждой компании,
• послушать дебаты о технологиях,
• поучаствовать в интерактивах,
• получить записи докладов после мероприятия.

Регистрируйтесь на сайте и присоединяйтесь к нам 12 сентября с 18:00 до 00:00!

Подписывайтесь:
big tech night

Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543

Это #партнёрский пост
Big Data Expert Mode: митап для опытных инженеров

43Tech совместно с Яндекс глубоко погрузятся во все технические аспекты Apache Spark и Apache Iceberg и расскажут подробнее о том, как Spark работает в YTsaurus.

Ведущие дата инженеры представят практические кейсы и экспертные решения по работе с большими данными.

В программе митапа:

• Оптимизация SQL-запросов: как Catalyst использует статистику Iceberg и какие типы оптимизаций существуют.

• Переход с партицированного Parquet: опыт внедрения Iceberg для борьбы с дублированием данных и компакцией, а также инкрементальное чтение данных в Spark Structured Streaming.

• Интеграция Spark в YTsaurus: особенности работы в сравнении с Hadoop и S3

Присоединяйтесь к BigData Meetup 15 августа в Санкт-Петербурге и онлайн.

Участие бесплатное, необходима регистрация.

Это #партнёрский пост
ИИ под контролем: Guardrails как щит от рисков в агентных системах

Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.

Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.

В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!


Читать: https://habr.com/ru/articles/936156/

#ru

@big_data_analysis | Другие наши каналы
Как построить эффективную MDM-систему для бизнеса - рассказываем на Сезоне MDM

В этой серии видео-вебинаров вы узнаете, как определить ключевые бизнес-задачи и настроить MDM-систему. Вас будут ждать живые демо и экспертные мнения о реальной ценности MDM. Первые три выпуска уже доступны для просмотра на VK видео и Rutube!

Не пропустите - впереди еще три серии. Подписывайтесь на чат-бота в телеграм, чтобы получать уведомления о новых выпусках!

Реклама
О рекламодателе
ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных


Читать: https://habr.com/ru/articles/937196/

#ru

@big_data_analysis | Другие наши каналы
Как государственная служба Великобритании оптимизирует управление данными

Один из крупнейших британских органов здравоохранения использует Oracle Fusion Data Intelligence для анализа данных, что помогает улучшить управление финансами, кадровыми ресурсами и цепочками поставок.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новая интеграция объединяет мощные аналитические возможности Databricks с удобной платформой визуализации OAC, дополненной искусственным интеллектом для запросов на естественном языке. Это открывает новые горизонты для эффективного анализа данных в организациях.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.

Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.

Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.


Читать: https://habr.com/ru/companies/magnus-tech/articles/937470/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как выбрать облако под стартап: от серверов до биллинга

Запускаете стартап? Разбираем, какое облако подойдет под ваш проект — подборка платформ.

Читать: «Как выбрать облако под стартап: от серверов до биллинга»

#ru

@big_data_analysis | Другие наши каналы
7 взаимозаменяемых решений, которые мгновенно ускорят ваши рабочие процессы Data Science на Python

Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.

Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.


Читать: https://habr.com/ru/articles/937542/

#ru

@big_data_analysis | Другие наши каналы