Data Internals
163 subscribers
28 photos
1 video
38 links
Канал профессиональной конференции по инженерии данных, базам данных, системам хранения и обработки данных

Data Internals X 2025 пройдёт 23 сентября 2025 в Москве datainternals.ru

Чат: t.iss.one/dataengineershub
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥5❤‍🔥3
«Как мы решардим петабайтные кликхаузы в MyTracker: удаляй и властвуй»
Медленные процессы решардинга при работе с большими данными, высокие затраты ресурсов на перенос петабайтных объемов и приостановка работы сервисов во время миграции данных...

На докладе Алексея Захожего вы сможете не только услышать экспертное мнение об этих проблемах, но и получить готовую инструкцию по их устранению:

- Уникальное решение для работы с экстремальными объемами данных — десятки петабайт
- Неожиданная техника решардинга через DELETE вместо традиционных подходов
- Готовые алгоритмы и практические подходы для масштабирования ClickHouse без остановки сервиса

Подробнее о программе конференции и спикерах можно узнать на нашем сайте

Подписывайтесь
💬@dataconference
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3👍3
Data Internals X будет только через 2 месяца, но делиться полезными материалами мы хотим уже сейчас

Предлагаем провести вам 40 минут с максимальной пользой и посмотреть видео доклада Максима Чудновского "Как мигрировать тысячи сервисов между любыми дистрибутивами Kubernetes?" с Saint HighLoad++ 2024

После ухода ряда известных вендоров у многих возникла задача миграции между платформами контейнеризации в рамках импортозамещения. В выступлении Максим поделился опытом решения этой задачи и рассказал, как свести к минимуму зависимости приложений от конкретной версии и/или реализации Kubernetes.

Подписывайтесь
💬@dataconference
📱 Data Internals
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32
Теперь векторный поиск доступен для всех
Яндекс запустил векторный поиск в новой версии YDB

Теперь в СУБД есть две версии векторного поиска — точный и приближённый. Приближённый поиск может работать с миллиардами векторов, если использовать векторный индекс. Такая технология есть у небольшого количества технологических компаний в мире.

В этой статье Александр Зевайкин из YDB рассказал про векторный поиск, индекс, RAG и о том, как эти технологии применяются в Алисе.

А для тех, кто хочет погрузиться в тему еще глубже, Александр выступит на Data Internals X с докладом "Как мы выбирали реализацию векторного индекса YDB"
🔥52
Розыгрыш онлайн-билета на Data Internals X

Data Internals X — профессиональная конференция по инженерии данных, базам данных и системам хранения и обработки данных. Хардкорное мероприятие с акцентом на технических инсайтах от создателей СУБД, практических решениях, оптимизации на уровне железа и реальном опыте импортозамещения.

Для участия в розыгрыше нужно выполнить всего два простых условия:

1) Быть подписанным на наш канал @dataconference
2) Поставить в комментарии к этому посту «+» как подтверждение участия

5 августа мы выберем победителя рандомным способом

Счастливчику будут доступны все опции онлайн-участия:

✦ Все презентации спикеров
✦ Видеозаписи всех докладов
✦ Прямая трансляция всех докладов в день конференции
✦ Вопросы к спикерам в telegram-чате

Участвуйте в розыгрыше и приглашайте друзей!

Подробности о конференции на сайте
🔥72
Как съездить на конференцию за счёт своей компании?

В вашем профессиональном развитии заинтересованы не только вы, но и ваш работодатель. Чтобы получить компенсацию за участие в профессиональной конференции, вам нужно лишь тактично и аргументированно поговорить об этом с руководством.

А для того, чтобы сделать это было легче, мы подготовили чек-лист “Как получить одобрение компании и компенсацию стоимости на участие в конференции Data Internals X”.

Подписывайтесь
💬@dataconference
📱 Data Internals
🔥42
Друзья, загибайте пальцы!
С чем из нижеперечисленного вам приходилось сталкиваться в работе?

Ручной контроль качества данных, реактивный подход к проблемам с данными, отсутствие автоматизации проверок и алертов... Если вам не понаслышке знакомо хотя бы одно из этих препятствий, тогда приглашаем вас на доклад Александра Бергера “Data Quality как distributed-система: алерты, аномалии и автоматизация”

Во время выступления Александра вы получите:
- знания о современных подходах к контролю качества данных с использованием LLM для автогенерации проверок
- готовые решения для enterprise-масштаба: автоматические алерты, системы карантина данных, интеграцию с ML для детекции аномалий
- архитектуру системы, которая экономит 80% времени на управление качеством данных. Data Quality как distributed-система: алерты, аномалии и автоматизация

📌 Подробнее ознакомиться с программой и приобрести билет на конференцию
5👍2
YTsaurus SPYT: внедряем Spark SQL в массы

Убедитесь в качестве наших докладов! Делимся записью лекции спикера Saint HighLoad++ 2024 Алексея Шишкина о том, как сделать собственный клиент к Spark и на уровне сетевого протокола отправлять к нему запросы из удобного веб-интерфейса.

... иногда хочется оперативно выполнить SELECT на пару строчек, проверив гипотезу, и продолжить заниматься своими делами. Именно для этой цели в YTsaurus развивается модуль Query Tracker, позволяющий прямо в браузере запускать SQL-like-запросы на разных движках: полноценном MapReduce, Clickhouse или Spark


Подписывайтесь
📱 @dataconference
📱 Data Internals
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Спикер Saint TeamLead Conf и TeamLead Conf++ Владимир Лещенко о конференциях Онтико:

«...это одно из важнейших направлений развития — посещение таких конференций.

Первое это нетворкинг. Нигде, ни в какой точке, если это не Москва-Сити, мы не увидим такую концентрацию разных компаний, разных специалистов. Второе это безусловно интереснейшие доклады на все темы: на разные темы с разным углублением, с разной сложностью, с разным ракурсом. И третье это некий такой трек, это же серия конференций <...> как сериал, хороший сериал, в котором участники участвуют сами»
👍32
This media is not supported in your browser
VIEW IN TELEGRAM
👍2🔥2
До повышения цены осталось 3 дня

До конференции осталось чуть меньше 2 месяцев. В августе стоимость билетов станет выше, но всё остальное останется неизменным: всего за 1 день на Data Internals Х вы получите экспертные знания по архитектуре современных СУБД, методам оптимизации систем обработки петабайтных данных, опыту внедрения Data Governance в крупных российских компаниях. А также сможете изучить отраслевую экспертизу (финтех, ретейл, телеком, госсектор), практики миграции на отечественные решения и кейсы построения высоконагруженных аналитических платформ

Вы можете приобрести билет прямо сейчас, а можете зафиксировать текущую цену, если забронируете билет до 31 июля. После брони у вас будет ещё несколько дней на принятие окончательного решения и оплату.

Хорошая возможность для тех, кто хочет ознакомиться с полной программой Data Internals Conf X перед покупкой.

Изучить расписание и приобрести билеты можно на нашем сайте
1
Возможно ли за одну лекцию перенять опыт по масштабу 6 млрд событий в день?

Да

На докладе Сергея Волкова из Сбера «Все еще ходите за метриками в BI? Как мы экспериментировали с LLM и не пRAGадали».

Помимо опыта и действительно интересного доклада, вы получите готовое решение для автоматизации работы с BI-системами через LLM-агентов. А также узнаете практические подходы к интеграции GigaChat с корпоративными мессенджерами для поиска метрик 🤝🏻

Изучить полную программу конференции и приобрести билеты

Подписывайтесь
📱 @datainternals
📱 Data Internals X
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Ключевые преимущества Data Internals Х 👀

Создавая программу, мы не пытались пройтись "широкими мазками" по общим трендам и темам. Программа конференции разрабатывалась специально для специалистов, которые хотят понять, как работают данные на самом низком уровне и получить конкретные решения для масштабирования систем до петабайтных объемов.

Наши спикеры говорят не об академическом подходе и теории, а о реальных кейсах и методах, которые проверены лично ими.

Подробнее о программе конференции и спикерах можно узнать на нашем сайте
4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
❤‍🔥1🔥1
Спикер DevOpsConf, TeamLead Conf++ и Saint TeamLead Conf Анастасия Граф о пользе дискуссий после докладов:

«Всё самое классное рождается в обсуждениях после доклада. Вопросы, которые ты сам себе не задал, или вопросы, которые ты не придумал как задать спикеру, заставляют тебя задуматься и придумать решение какой-то своей проблемы <…> Ты бы пришел к этому когда-нибудь, а возможно и никогда»
🔥1
Что получится, если соединить YTsaurus, YQL и динамические таблицы?

Часто в ETL-процессах возникает потребность «считать часть данных не в batch-режиме, а в NRT». Из записи доклада Филиппа Козьмина «YTsaurus и аналитические витрины с актуальностью в 15 минут» вы узнаете, как эффективно реализовать такой процесс для big-data-инфраструктур на базе YTsaurus и, при этом, не наплодить параллельные вселенные для батча и стриминга.

Триплет технологий YTsaurus + YQL + динамические таблицы позволили найти архитектуру поставок данных, повторяющую подход к обработке данных, заложенный в стриминге, но упрощающий реализации. Это дало нам достаточную скорость обработки данных в минуты, помноженную на технологии с невысоким входом и прозрачную для потребителя структуру промежуточных и конечных данных. И — вишенкой на торте — такие поставки интегрированы по данным классическим с T-1-поставками и их можно легко пересчитывать
1