Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Oracle признан лидером в Gartner Magic Quadrant 2025 по аналитике и BI, благодаря инновациям и интеграции AI. Новые функции на базе генеративного ИИ и Fusion Data Intelligence помогают компаниям эффективнее использовать данные для принятия решений.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.


Читать: https://habr.com/ru/articles/920150/

#ru

@big_data_analysis | Другие наши каналы
Путь к современному MDM на примере клиентского домена данных

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM.

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.


Читать: https://habr.com/ru/companies/datasapience/articles/920306/

#ru

@big_data_analysis | Другие наши каналы
Как бег помогает навести порядок в голове и в коде

Личный опыт о том, как бег помогает держать ум в тонусе, находить фокус, идеи и энергию — и в работе, и в жизни.


Читать: https://habr.com/ru/articles/920730/

#ru

@big_data_analysis | Другие наши каналы
MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.


Читать: https://habr.com/ru/articles/920972/

#ru

@big_data_analysis | Другие наши каналы
База про юнит-тесты в C# на xUnit v3

Привет, Хабр!

Сегодня разберёмся с юнит‑тестами в C# на основе xUnit v3 — библиотеки, которая стала практически стандартом де‑факто в.NET‑среде.

Почему именно xUnit? Всё просто: его создали Джим Ньюкирк и Брэд Уилсон — разработчики NUnit. Они решили выкинуть всю архаику вроде [SetUp], [TearDown] и прочих рудиментов и построили фреймворк с нуля, строго под TDD. Весной вышла xUnit v3 2.0.2, в которой завезли Assert.MultipleAsync, полностью обновили сериализацию. А в.NET 9 уже штатно продвигается Microsoft.Testing.Platform (MTP) — сверхлёгкий тестовый рантайм, с которым xUnit v3 работает прямо из коробки. Короче говоря, это самый нативный выбор под.NET 9 на сегодня.


Читать: https://habr.com/ru/companies/otus/articles/918942/

#ru

@big_data_analysis | Другие наши каналы
«Облачные хранилища: как выбрать идеальное решение для бизнеса» (2 часть)

В первой части нашего исследования мы провели сравнительный анализ облачных хранилищ, рассматривая предложения различных провайдеров, включая крупные компании и менее известные игроки на рынке. Мы изучили ключевые аспекты, такие как уровень технической поддержки, доступные конфигурации серверов и дополнительные услуги, что позволило оценить сильные и слабые стороны различных решений в контексте конкурентной среды.

Теперь мы переходим ко второй части нашего анализа, в которой сосредоточимся на ценовой политике облачных хранилищ. Мы сравним тарифные планы различных провайдеров, чтобы выяснить, как они позиционируются на рынке с точки зрения стоимости услуг. Этот анализ поможет понять, насколько конкурентоспособны цены и как они соотносятся с качеством предоставляемых услуг.


Читать: https://habr.com/ru/articles/921518/

#ru

@big_data_analysis | Другие наши каналы
ClearML | Туториал

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля


Читать: https://habr.com/ru/articles/691314/

#ru

@big_data_analysis | Другие наши каналы
10 критериев выбора BI-платформы для миграции по версии ex-Accenture

Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько  соответствует им Visiology сегодня.
Узнать, каким должен быть российский BI...

Читать: https://habr.com/ru/companies/visiology/articles/661789/

#ru

@big_data_analysis | Другие наши каналы
Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.


Читать: https://habr.com/ru/companies/evraz/articles/682046/

#ru

@big_data_analysis | Другие наши каналы
Как ускорить дашборды в Oracle Analytics Cloud с HTTP/2. В статье раскрывают способы повышения скорости работы дашбордов в Oracle Analytics Cloud, независимо от того, используются ли публичные или приватные эндпоинты. Советы помогут улучшить общую производительность платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Тимлид, вам слово 📢 Приглашаем на митап по управлению командами

Воспользуйтесь летним затишьем, чтобы посмотреть на практику коллег, промониторить «погоду» в своей команде и, возможно, обновить стратегию работы. Обсудим дела тимлидские на офлайн-встрече TeamLead Talks в офисе Lamoda.

✔️Обменяемся опытом, разберем кейсы командного управления и выберем лучшие решения.

🍕 Наладить непринужденное общение помогут нетворкинг-разогрев, игра «IT-бункер», закуски и напитки.

Присоединяйтесь к Team Lead Talks:

📅 2 июля в 19:00.

📍Офлайн, Москва, офис Lamoda.

✏️Регистрируйтесь по ссылке, количество мест ограничено.

Реклама
О рекламодателе
Как технологии Oracle помогают раскрыть потенциал данных и ИИ

В статье рассказывается о работе Эби Джайлз-Хэйг, которая применяет технологии Oracle для развития аналитики, искусственного интеллекта и поддержки женщин в IT. Ее опыт вдохновляет на новые достижения в цифровой сфере.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обновление Oracle Analytics Cloud июля 2025 года добавляет генеративный ИИ для пользователей, улучшенные инструменты моделирования данных для авторов и расширенные возможности визуализации. Улучшена безопасность и интерфейс администрирования, что повышает эффективность аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
16 перемен, которые уже меняют корпоративный подход к генеративному ИИ

В 2023 году генеративные ИИ стремительно ворвались в потребительский сегмент, достигнув миллиарда долларов пользовательских расходов за рекордно короткий срок. В 2024-м, по нашим оценкам, потенциал выручки в enterprise-сегменте будет в несколько раз выше.

Пока в прошлом году потребители часами общались с новыми AI-компаньонами или создавали изображения и видео с помощью diffusion-моделей, корпоративное внедрение genAI, казалось, ограничивалось лишь очевидными кейсами и выпуском «GPT-оберток» в виде новых SKU. Скептики задавались вопросами: действительно ли genAI может масштабироваться в enterprise? Разве мы не застряли а трёх одинаковых сценариях? Способны ли стартапы вообще зарабатывать на этом деньги? А вдруг это просто хайп?

За последние несколько месяцев мы пообщались с десятками топ-менеджеров компаний из списка Fortune 500 и других лидеров enterprise-сегмента, а также провели опрос среди ещё 70 компаний, чтобы понять, как они используют genAI, как покупают решения и как планируют бюджеты. Мы были поражены тем, насколько сильно изменилась структура инвестиций и отношение к генеративным ИИ всего за полгода. Хотя у этих лидеров всё ещё остаются определённые опасения по поводу внедрения generative AI, они почти утроили бюджеты, расширили число рабочих кейсов, реализованных на меньших open-source моделях, и начали активно выводить задачи из стадии эксперимента в продакшн.

Для фаундеров это колоссальная возможность. Мы убеждены: те AI-стартапы, которые, во-первых, ориентируются на стратегические AI-инициативы корпораций с учетом их болевых точек, и, во-вторых, трансформируют сервисную модель в масштабируемые продуктовые решения, — именно они смогут захватить значительную долю нового инвестиционного потока и закрепиться на рынке.


Читать: https://habr.com/ru/articles/923630/

#ru

@big_data_analysis | Другие наши каналы
Участие Газпромбанка в Международном молодежном экономическом форуме «День будущего» на ПМЭФ

Рассказываем, как прошла дискуссия на «Дне будущего» в рамках ПМЭФ-2025 — о страхах, ошибках, первых шагах и поддержке молодых профессионалов на пути к успеху.

Читать: «Участие Газпромбанка в Международном молодежном экономическом форуме «День будущего» на ПМЭФ»

#ru

@big_data_analysis | Другие наши каналы
💊1
Сквозь тернии к апдейту: история о том, как мы обновляли стриминг ОК

Стриминговые данные — важная часть многих современных ИТ-платформ. Они активно используются в разных разделах социальной сети Одноклассники уже более 10 лет. И за это время используемый нами стриминговый фреймворк успел заметно измениться, поэтому настало время обновить его в нашем проекте. Но на пути обновления легаси-систем иногда возникают сложности.

Меня зовут Алина Шестакова. Я разработчик в команде разработки DataPlatform единой облачной платформы One-сloud. В этой статье расскажу о том, как устроен стриминг данных в ОК, а также обо всех патчах и челленджах, возникших в процессе обновления стримингового фреймворка.


Читать: https://habr.com/ru/companies/vk/articles/924650/

#ru

@big_data_analysis | Другие наши каналы
Часть 4: Mamba — State Space Models vs трансформеры

Mamba — революция в обработке длинных последовательностей! Mamba — State Space Models vs трансформеры, что лучше?!


Читать: https://habr.com/ru/articles/925416/

#ru

@big_data_analysis | Другие наши каналы
DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе

Проект построения хранилища данных — это не просто внедрение технологий, а глубокая трансформация подходов к данным и аналитике, учитывающая текущее состояние процессов, стратегические цели, ресурсы и компетенции команды.

Рассказываем про индивидуальный подход как основу успешного проекта DWH и делимся реальными кейсами внедрения:

✔️ Кейс 1. Свой коннектор к Oracle: когда Debezium подвел​
✔️ Кейс 2. Миграция с Qlik: DWH между командами (в условиях командной фрагментации)​
✔️ Кейс 3. Бюрократия против DWH: проект в около-госсекторе


Читать: https://habr.com/ru/articles/925652/

#ru

@big_data_analysis | Другие наши каналы
Линеризация в офлайн-тестах: как не стереть сигнал вместе с шумом

Работаете с офлайн A/B-тестами в ресторанах? Тогда вы знаете, как шумят метрики: трафик скачет, дисперсия зашкаливает, а эффект тонет в данных.

Я, Елена Малая, и это моя третья статья об офлайн-тестах (первая здесь: "Офлайн А/Б тесты в ресторанах фастфуда"). Моя задача — анализировать данные ресторанов (меньше 1000 точек, наблюдения — ресторан-день), где рандомизация невозможна, а мэтчинг — пока единственный вариант. Сегодня разберём, как линеризация помогает снизить дисперсию для метрик вроде среднего чека (ср. чек = выручка/чеки) и почему в офлайне она требует особой осторожности.


Читать: https://habr.com/ru/articles/925666/

#ru

@big_data_analysis | Другие наши каналы