Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Будущее, в котором ИИ — герой, а не злодей

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике.

К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти.

Для начала короткое описание того, что такое AI: это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией.

А теперь коротко о том, чем AI не является: это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах.

И еще короче о том, чем AI может стать: способом сделать лучше всё, что нам действительно важно.


Читать: https://habr.com/ru/articles/933024/

#ru

@big_data_analysis | Другие наши каналы
Мгновенный доступ к данным для 1 000 + директоров с помощью ИИ. Кейс ритейлера

В этой статье расскажем о том, как компания Лэтуаль столкнулась с необходимостью организовать быстрый доступ к аналитике для управленческого состава, с какими сложностями столкнулась и к чему пришла в итоге (и как пригодился ИИ).

Одной из ключевых задач компании является ускорение реакции на изменения показателей в течение дня для всех уровней управленческой вертикали — от топ-менеджмента до управляющих оффлайн-магазинов. Для этого нужен быстрый и удобный доступ к оперативным показателям деятельности каждого магазина.

В компании был реализован механизм рассылок отчетности, однако он не удовлетворял всем требованиям.


Читать: https://habr.com/ru/companies/sapiens_solutions/articles/935068/

#ru

@big_data_analysis | Другие наши каналы
Разработа DWH с нуля – особенности архитектуры

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчетности и аналитики.

В статье расскажу, как мы выстроили архитектуру DWH, какие подходы использовали на каждом уровне, с какими подводными камнями столкнулись и как обеспечили стабильную поставку данных для аналитики.


Читать: https://habr.com/ru/articles/935212/

#ru

@big_data_analysis | Другие наши каналы
👍1
StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.


Читать: https://habr.com/ru/articles/935216/

#ru

@big_data_analysis | Другие наши каналы
Поисковые подсказки: подход «генератор-дискриминатор»

Всем привет! Меня зовут Федор Курушин, я занимаюсь машинным обучением в поиске Wildberries. Прямо сейчас я работаю над развитием сервиса персональных поисковых подсказок.

Недавно вместе с коллегой мы представляли нашу совместную работу Product Search Prompts: Generator-Discriminator Approach на конференции FICC 2025.

О подходе, который мы разработали для создания поисковых подсказок и для поиска релевантных похожих запросов для разных бизнес-сценариев, и пойдет речь в этой статье.


Читать: https://habr.com/ru/companies/wildberries/articles/934674/

#ru

@big_data_analysis | Другие наши каналы
Как внедрить векторный поиск в Oracle Analytics: пошаговое руководство. В статье подробно объясняется процесс настройки и использования векторного поиска в Oracle Analytics, что поможет улучшить аналитические возможности и ускорить обработку данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Волны автоматизации в IT: эволюция требований рынка

Развитие ИТ с 1950 до наших дней рассмотрим 5 волн развития, что было со специалистами и технологиями. Попробуем угадать тренды и сделать рекомендации по развитию

Читать: «Волны автоматизации в IT: эволюция требований рынка»

#ru

@big_data_analysis | Другие наши каналы
⚙️ Как запускать инференс без перегрузки и лишней настройки

Мы часто видим, с чем сталкиваются разработчики: медленная генерация, нестабильный интерфейс, конфликты зависимостей и сложности при смене пайплайнов на локальной машине.⠀

В immers.cloud всё проще:

💰 Посекундная тарификация: тарифы от 23 руб/час, платите только за время, когда сервер реально работает.
⚡️ Быстрый старт: нужный сервер поднимается за пару минут.
📈 Гибкость и масштабируемость: 12 моделей видеокарт на выбор
🔧 Удобство: готовые образы для ваших задач, чтобы не тратить время на настройку.

А если нужно прерваться — можно просто заморозить ВМ с помощью функции Shelve: данные сохранятся, а платить за простои не придется.⠀

Если вам важен результат, а не настройка серверов — в immers.cloud всё готово для ваших проектов.⠀

🔗Начать и получить +20 % к первому пополнению
111
Как AI-редактор Cursor меняет процесс разработки — и стоит ли ему доверять

Одним из крупнейших сдвигов в современном софтверном девелопменте стало стремительное распространение AI-инструментов для написания кода. Эти решения помогают как разработчикам, так и людям без технического бэкграунда быстрее писать код, запускать прототипы и готовые приложения. Среди таких инструментов достаточно быстро привлёк внимание Cursor, почти сразу он занял позицию одного из лидеров рынка.

В этой статье я подробнее рассмотрю Cursor, его сильные и слабые стороны, а также сравню его с другими AI-редакторами кода. Это будет практический гайд, в котором я поделюсь своим опытом использования Cursor для создания to-do приложения. К концу материала у вас сложится четкое представление о том, подходит ли Cursor для вашего собственного девелоперского workflow.

Поехали.


Читать: https://habr.com/ru/articles/935966/

#ru

@big_data_analysis | Другие наши каналы
Как мы делаем SOC as a service: привлекаем большие данные и собственный SIEM на помощь клиентам

В работе с публичными облаками много плюсов, но с точки зрения ИБ — есть свои риски по сравнению с on‑premises. Минимизировать их помогает выделенный Security Operation Center (SOC). При этом создать его у себя не так просто: для эффективной работы SOC в Yandex Cloud понадобилось несколько лет разработки, а также технологии и мощности Яндекса, которые развивались годами.

Поскольку у клиентов облака не всегда есть ресурсы и экспертиза, чтобы создать подобный SOC у себя, мы не только строили свой центр, но и параллельно делали на его основе управляемый сервис Yandex Cloud Detection & Response (YCDR). В процессе разработки мы должны были позаботиться о том, чтобы даже привилегированные учётные записи не могли обойти семь слоёв облачной безопасности, — и в итоге многие компоненты написали самостоятельно.

Первая часть статьи для тех, кому важны механизмы безопасной изоляции ресурсов. Покажем, как мы строили SOC c учётом особенностей облачной защиты.

Вторая часть для тех, кто интересуется большими данными. Продемонстрируем, что скрывает под капотом сервис, обрабатывающий более полумиллиона событий в секунду. А также расскажем, почему нам потребовалось создать для него собственную SIEM‑систему.


Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/936258/

#ru

@big_data_analysis | Другие наши каналы
Куда двигаться после изучения Django: советы для Python-разработчиков

В статье разбираемся, почему Django — далеко не финиш в карьере, и в каких направлениях можно двигаться Python-разработчику.

Читать: «Куда двигаться после изучения Django: советы для Python-разработчиков»

#ru

@big_data_analysis | Другие наши каналы
Hybrid RAG: методы реализации ч.1 — Поиск

С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.

В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.


Читать: https://habr.com/ru/articles/913418/

#ru

@big_data_analysis | Другие наши каналы
Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Привет, Хабр! На связи Марк – ведущий архитектор группы компаний "ГлоуБайт". В этой статье я поделюсь результатами нагрузочного тестирования, которое мы с коллегами провели для сравнения Greenplum 6 с Greenplum 7 и Cloudberry.


Читать: https://habr.com/ru/companies/glowbyte/articles/936384/

#ru

@big_data_analysis | Другие наши каналы
This media is not supported in your browser
VIEW IN TELEGRAM
Взгляните на IT-мир по-новому

12 сентября. Топовые IT-компании. Закулисье разработок и доклады экспертов. Ещё не знаете, о чём речь? Сейчас расскажем!

Приглашаем вас на big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые компании одновременно откроют двери офисов ночью и покажут IT-специалистам, где рождаются технологии.

▶️ В московских офисах организаторов вы:
• послушаете доклады топовых экспертов,
• обсудите новейшие разработки,
• познакомитесь с крутыми профессионалами,
• и просто повеселитесь.

▶️ Если не сможете прийти офлайн, big tech night организует онлайн-студию. Зрители смогут:
• посмотреть выступления спикеров от каждой компании,
• послушать дебаты о технологиях,
• поучаствовать в интерактивах,
• получить записи докладов после мероприятия.

Регистрируйтесь на сайте и присоединяйтесь к нам 12 сентября с 18:00 до 00:00!

Подписывайтесь:
big tech night

Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543

Это #партнёрский пост
Big Data Expert Mode: митап для опытных инженеров

43Tech совместно с Яндекс глубоко погрузятся во все технические аспекты Apache Spark и Apache Iceberg и расскажут подробнее о том, как Spark работает в YTsaurus.

Ведущие дата инженеры представят практические кейсы и экспертные решения по работе с большими данными.

В программе митапа:

• Оптимизация SQL-запросов: как Catalyst использует статистику Iceberg и какие типы оптимизаций существуют.

• Переход с партицированного Parquet: опыт внедрения Iceberg для борьбы с дублированием данных и компакцией, а также инкрементальное чтение данных в Spark Structured Streaming.

• Интеграция Spark в YTsaurus: особенности работы в сравнении с Hadoop и S3

Присоединяйтесь к BigData Meetup 15 августа в Санкт-Петербурге и онлайн.

Участие бесплатное, необходима регистрация.

Это #партнёрский пост
ИИ под контролем: Guardrails как щит от рисков в агентных системах

Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.

Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.

В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!


Читать: https://habr.com/ru/articles/936156/

#ru

@big_data_analysis | Другие наши каналы
Как построить эффективную MDM-систему для бизнеса - рассказываем на Сезоне MDM

В этой серии видео-вебинаров вы узнаете, как определить ключевые бизнес-задачи и настроить MDM-систему. Вас будут ждать живые демо и экспертные мнения о реальной ценности MDM. Первые три выпуска уже доступны для просмотра на VK видео и Rutube!

Не пропустите - впереди еще три серии. Подписывайтесь на чат-бота в телеграм, чтобы получать уведомления о новых выпусках!

Реклама
О рекламодателе
ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных


Читать: https://habr.com/ru/articles/937196/

#ru

@big_data_analysis | Другие наши каналы
Как государственная служба Великобритании оптимизирует управление данными

Один из крупнейших британских органов здравоохранения использует Oracle Fusion Data Intelligence для анализа данных, что помогает улучшить управление финансами, кадровыми ресурсами и цепочками поставок.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новая интеграция объединяет мощные аналитические возможности Databricks с удобной платформой визуализации OAC, дополненной искусственным интеллектом для запросов на естественном языке. Это открывает новые горизонты для эффективного анализа данных в организациях.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1