HighLoad++
5.99K subscribers
2.3K photos
138 videos
15 files
2.13K links
Официальный канал профессиональной конференции разработчиков высоконагруженных систем

Встречаемся 6 и 7 ноября в Москве на HighLoad++ 2025: https://highload.ru/moscow/2025

Общаемся в чатике https://t.iss.one/HighLoadTalks
Download Telegram
Алексей Кузнецов и Михаил Лепешкин расскажут, как они разместили 200+ дата-саентистов в кластере K8S

📋 https://bx.vc/m7q6gn

Они создали удобное рабочее окружение для 200+ дата-сайентистов при помощи jupyterhub и k8s, которое:

- легко масштабируется
- в меру отказоустойчивое
- имеет централизованное управление
- легко тарифицируется в мультитенант-среде
- имеет единую точку входа

Узнаем:

- как запускать Spark driver в K8S в режиме m̶a̶s̶t̶e̶r̶ y̶a̶r̶n̶ deploy-mode client
- как организовать персональные окружения для команд аналитиков/разработчиков
- о контроле за использованием ресурсов и возможности их гарантировать
- как это все мониторится

Какие проблемы они решили:

- проблемы сетевой связности при работе Spark Driver в K8S
- доступность Spark UI
- перенос пользовательских данных при переходе между командами

Цель доклада - показать, как при небольших изменениях можно получить результат, максимально удовлетворяющий вашим требованиям.

Программа ML-трека - https://bx.vc/d9zb6n

До встречи 🙌
🔥3
➡️ Как собрать облачную AutoML-платформу для создания голосовых роботов на базе трансформеров? Узнаем из доклада Артема Бондаря

📋 https://bx.vc/gf3gnz

Сегодня коммуникационными роботами на базе NLU уже никого не удивишь: есть и коробочные решения вроде DialogFlow от Google, и OpenSource-фреймворки вроде Rasa, да и каждый уважающий себя ML-инженер хоть раз да и файн-тюнил BERT'а на задачу текстовой классификации. В Voximplant захотелось собрать лучший опыт и дать возможность использовать state-of-the-art-модели и подходы людям, далеким от машинного обучения — и все не покидая браузера в рамках облачной платформы.

Артем расскажет о тонкостях создания облачного AutoML-решения, какими трюками они добивались низкой стоимости, сохранив возможность использовать тяжелые нейросети, кастомизированные под каждого клиента, как они работали с разными языками и как подошли к задаче few-shot-learning, пряча от клиента под ковер всю игру с гиперпараметрами.

Программа ML-трека - https://bx.vc/40v00k

До встречи 🙌
👍1🔥1
Media is too big
VIEW IN TELEGRAM
🔥 В интервью Олег Бартунов, ведущий разработчик PostgreSQL, отвечает на вопросы:

- Что для Вас значит конференция HighLoad?
- Что сейчас заботит разработчиков? Какие вызовы и перспективы?
- Какую пользу от конференции Вы видите?

Встречаемся 22 и 23 сентября на Saint HighLoad++ ➡️ https://bx.vc/vmkw9j
Филипп Мальковский, программист-разработчик в команде VK Видео расскажет, как они адаптировали существующий пайплайн по распознаванию речи для работы в инфраструктуре VK Видео, внедряли новые компоненты и оптимизировали получившееся решение

📋 https://bx.vc/9ywdjn

Узнаем:

- как инкапсуляция и переиспользование компонентов на C++ помогли найти компромисс между максимальным переиспользованием существующего решения и минимизацией трафика между серверами
- как реализация в виде нативного процесса позволила гибко и независимо масштабировать пайплайн в инфраструктуре обработки видео и распространить распознавание речи на все популярные и загружаемые ролики
- как выбирали формат субтитров и способ их отображения на клиентах
- с какими неожиданностями при доставке контента через CDN столкнулись после запуска и как все быстро поправили

А также, какие возможности для развития продукта открывает распознавание речи, встроенное в пайплайн обработки видео.

Программа ML-трека - https://bx.vc/g1hptr

До встречи 🙌
Про централизованный self-service ETL. О системе автоматизации, умеющей эффективно и дешево двигать данные между десятками систем расскажет Андрей Гончаров

📋 https://bx.vc/6nnvkc

С ростом продукта и развитием data-driven-подхода команда Garage Eight хочет обеспечивать своих коллег простым и удобным способом автоматизировать трансформацию и батч-транзит данных между системами с целью изучать их и проводить продуктовую/бизнес-аналитику.

Из доклада узнаем про:

▫️Автоматизацию расчетов для нового интересного отчета за 15 минут.
▫️Простой способ обеспечить Data quality.
▫️20+ видов интеграций с информационными системами для отправки и получения данных.
▫️Прозрачный Data lineage.
▫️Возможность запустить любой код как часть графа задач.
▫️Удобный инструментарий для запуска задач и мониторинга.
и многое другое

Программа конференции и билеты здесь – https://bx.vc/zntk0u

До скорой встречи на Saint HighLoad++ 🙌
👍2
📍 Про автоматический подбор параметров для Spark-приложений: как запускать больше на ограниченном кластере и не тратить времени расскажет Валерия Дымбицкая - техлид команды ML Data в OneFactor

📋 https://bx.vc/sni1xh

Валерия с командой научились каждой модели автоматически выдавать оптимальные ресурсы в Hadoop-кластере без участия человека. В их кластере запускаются сотни ежедневных и тысячи ежечасных Spark-расчётов, все очень разные и со своим SLA. В такой ситуации тюнить силами инженеров нереально. Поэтому они построили и внедрили полностью автоматическую систему тюнинга, а в результате увеличили пропускную способность кластера в четыре раза.

Узнаем, как устроен подбор параметров и что позволяет ему работать автономно, а также поделится проблемами, с которыми они столкнулись в процессе внедрения и эксплуатации.

Встречаемся 22 и 23 сентября 🙌

Программа ML-трека - https://bx.vc/iqnpzl
Мне нужна твоя поддержка: как запустить чат-бот на пяти языках, быстро без разметки и смс – тема доклада Алексея Принькова на Saint HighLoad++

📋 https://bx.vc/xkd0uz

Узнаем, как они решили проблему увеличения нагрузки на клиентские сервисы продукта, а именно — на агентов поддержки в чатах. Им не подошло проприетарное решение из-за специфики мультиязычности — это сложно; тарификации каждого решенного чата — это дорого, а переход на новую систему поддержки из-за выстроенных процессов оценивался как трудоемкий и долгий. Алексей с командой разработали собственный чат-бот, способный общаться с клиентами на нескольких языках и самостоятельно закрывать чаты, решая вопросы клиентов.

Перед имплементацией решения за короткое время им удалось проверить гипотезу о том, что чаты, в принципе, могут быть закрыты ботом, оценить, с какой эффективностью это может происходить и как можно выделить направления для автоматизации сценариев.

🙌 Встречаемся 22 и 23 сентября

Программа ML-трека - https://bx.vc/zc3zgr
👍2
➡️ Алексей Васильев расскажет о том, как с помощью их фреймворка RePlay можно быстро и удобно построить рекомендательную систему, а также как сравнить существующие решения с бейзлайнами

📋 https://bx.vc/mej0wm

Отличительными особенностями библиотеки являются удобный интерфейс и возможность масштабирования за счет встраивания pyspark внутрь фреймворка. Алексей покажет несколько примеров использования. Мы обсудим этапы создания рекомендательных систем, какие варианты выбора подходов могут быть на каждом этапе. Также поговорим о том, что даже всем известные метрики могут считаться по-разному.

👉 Встречаемся 22 и 23 сентября на Saint HighLoad++

Программа ML-трека - https://bx.vc/trww12
👍2
👉 Алан Савушкин, Data Scientist в Лаборатории Касперского, расскажет про частотный и байесовский подходы оценки TPR при неполной разметке данных

📋 https://bx.vc/2lupb8

Практически в каждом проекте, в котором применяются модели машинного обучения, присутствует необходимость оценивать метрики онлайн, отражающие качество модели. В случае доступности полной разметки данных, с точки зрения статистики, достаточно просто получить оценки и построить доверительные интервалы для этих оценок. Но что, если решается задача фильтрации данных, полная разметка для отфильтрованных объектов отсутствует и необходимо оценить TPR?

На примере задачи фильтрации данных мы рассмотрим проблему оценки TPR при отсутствии полной разметки отфильтрованных объектов, и какая здесь возникает особенность. Алан покажет, как можно решить данную проблему.

Встречаемся на Saint HighLoad++ уже 22 и 23 сентября 🙌

Программа конференции и билеты здесь - https://bx.vc/xatahf
👍2
Владимир Меркулов и Василий Вологдин расскажут, как они подружили биореакторы и ML

📋 https://bx.vc/z7f2ep

Когда речь заходит о машинном обучении в фармацевтических компаниях, таких как BIOCAD, то большинство специалистов подразумевает участие Data Scientist'ов в процессе разработки лекарственных препаратов. В докладе Владимир и Василий посмотрят на этот вопрос немного под другим углом и расскажут о том, какие еще задачи решаются при помощи машинного обучения в фармацевтических компаниях, в том числе как алгоритмы машинного обучения помогают решать задачи на производственных линиях и какую архитектуру они для этого используют.

Также узнаем о том, с какими трудностями они столкнулись при разработке, и каким образом выстраивалось взаимодействие между специалистами службы АСУ ТП и специалистами по машинному обучению.

Ждем вас 22 и 23 сентября в Петербурге 🙌

Программа ML-трека - https://bx.vc/0vv6ae
👍1
👋 Геолокация при помощи триангуляции по сотовым вышкам в прошлом! Артем Кравчук расскажет про геолокацию по WiFi/GSM в больших городах на базе ML для 30-ти миллионов пользователей

📋 https://bx.vc/sh1eqe

Крупные города содержат миллионы Wi-Fi-точек. Современные статистические методы позволяют рассчитывать честные двумерные карты сил сигналов, а современные инженерные приёмы — строить сотни миллионов таких карт и использовать для позиционирования десятков тысяч пользователей в секунду. Подход команды Артема позволил улучшить точность геолокации по Wi-Fi/GSM более чем в 2 раза там, где GPS неточен или недоступен.

Из доклада узнаем, как симбиоз data science и инженерных решений позволил построить экономную по аппаратным ресурсам систему силами небольшой команды для 30+ М пользователей c нагрузочной ёмкостью 10K+ RPS.

📍Ждем вас 22 и 23 сентября на Saint HighLoad++

Программа ML-трека - https://bx.vc/w1ivee
👍3🔥1
🔥 Крутая новость

Друзья, при поддержке генерального партнера Garage Eight на Saint HighLoad++ 22 и 23 сентября пройдет открытая трансляция главного зала. Доступно абсолютно всем, просто подключайтесь и смотрите лучшие выступления 🙌

Подробности, расписание и подключиться здесь - https://bx.vc/0t38x1

До встречи в эфире!
🔥7👍1
Сергей Хорошеньких, тимлид группы разработки в Яндекс. Доставке, расскажет доклад на тему: Сверхскорость. Единая платформа экспресс-доставки Яндекса

📋 https://bx.vc/ywfoxh

Он расскажет, как устроена единая платформа для экспресс-доставки в Яндексе.

В докладе рассмотрим архитектуру, которая позволяет объединить разные алгоритмы диспатча разных сервисов с учетом их бизнес-требований. Также, мы более подробно поговорим про один из таких алгоритмов, который призван решить задачу экспресс-доставки в общем виде: мы обсудим, почему это сложнее, чем обобщенная задача о назначениях, и как они комбинируют особенности предметной области с методами дискретной оптимизации.

Ждем вас 22 и 23 сентября на Saint HighLoad++

Программа конференции и билеты здесь - https://bx.vc/kt82dl
👍1
В рамках ML-трека, который пройдет на Saint HighLoad++ 2022 при поддержке VK, Александр Прошунин расскажет о применении машинного обучения в анализе научных данных

📋 https://bx.vc/yngrru

Александр продемонстрирует применение МО в области анализа спектров в сравнении с классическими подходами. Будет описан полный путь от сбора данных, их подготовки и построения решения задачи с нетипичным функционалом ошибки, который полностью строится, исходя из задачи.

Второй задачей будет рассмотрена классификация режимов сложных динамических систем. Применение метода показателей Ляпунова полностью отвечает на этот вопрос. Расчет данного показателя является сложной задачей, однако применение машинного обучения существенно снижает затраты на вычисления. Построение методом генерации обучающих данных и сравнение по вычислениям с другими классическими подходами.

Программа ML-трека – https://bx.vc/pbivf9

До скорой встречи в Питере 🙌
👍1😁1
Авторы в Дзене и как мы ищем их аудиторию – тема доклада Анастасии Павловской

📋 https://bx.vc/ij8vnd

Дзен — это площадка, где пользователь находит контент для себя, а авторы — свою аудиторию. Задача Анастасии и команды — с помощью механизмов рекомендаций облегчить поиск аудитории для креатора.

На первый взгляд, задача очень похожа на задачу рекомендаций холодного контента, однако на практике она оказывается на порядок сложнее.

Если в «холодном старте» контента можно использовать статистики взаимодействия автора с пользователями и реакции подписчиков, которые первые видят айтем, то в их задаче такой коллаборативной информации нет. Стандартные контентные похожести айтемов использовать «из коробки» тоже не получится.

В докладе Анастасия расскажет, как они сталкивались с проблемами и решали их: как научились определять похожести авторов и автоматически подбирать для них подходящую аудиторию.

📍Встречаемся 22 и 23 сентября в Петербурге.

Программа ML-трека - https://bx.vc/exmjd4
🔥2
🚀 Друзья, мы рады объявить о старте профессиональной конференции для разработчиков высоконагруженных систем - Saint HighLoad++ 2022, которая пройдет сегодня и завтра в Санкт-Петербурге!

Как это будет?

🔹 Продолжительность мероприятия - два полных дня. Первый доклад начинается ежедневно в 10:00, а последний заканчивается в 18:50. Регистрация открывается в 8:30.

🔹Длительность докладов — 50 минут, включая ответы на вопросы, а еще 10-20 минут заложены на перерывы и смену аудитории.

🔹Онлайн-участники смогут задавать вопросы авторам докладов в чате трансляции.

👉 Расписание можно увидеть здесь: https://bx.vc/oeug0r

😉 Ждём вас! Открытие конференции уже в 09:30!
👍6
А у нас регистрация уже началась!
Для того, чтобы пройти её подготовьте, пожалуйста, любой документ, удостоверяющий личность, или заранее распечатанный билет.
После регистрации вы сможете выпить чашечку бодрящего кофе (или чая, на выбор), чтобы зарядиться энергией и окончательно проснуться.
Друзья, ловите актуальное расписание конференции на все два дня!
👉 https://bx.vc/oeug0r
Мы начинаем нашу конференцию! Сразу после открытия в 10:00 стартуют первые доклады Saint HighLoad++ 2022!

🏰 В «Зале 00. Башня» Александр Тоболь (ВКонтакте) расскажет про архитектуру: история и будущее на примере ВКонтакте

🔸 В «Зале 01. Желтый» от Кирилла Горелова (Яндекс) узнаем про надёжность высоконагруженных C++-приложений в Яндекс.Маркете

🔹 В «Зале 03. Синий» Артем Кравчук (2GIS) расскажет про геолокацию по Wi-Fi/GSM в больших городах на базе ML для 30 миллионов пользователей

🔺 В «Зале 04. Красный». С Артемом Исмагиловым (Яндекс) обсудим дедупликацию 5 миллионов событий в секунду на YDB в АппМетрике

В «Зале 06. Зеленый» Михаил Волков (VisionLabs) и Гусейн Римиханов (Московский метрополитен) расскажут про Face Pay — сервис полностью бесконтактной оплаты проезда с помощью распознавания лиц в Московском метрополитене.
🔵 При поддержке VK на Saint HighLoad++ представлен целый трек докладов на тему технологий машинного обучения. Поговорим о том, как на базе ML создавать практичные решения, готовые к большим нагрузкам.

Все доклады ML-трека пройдут в «Зале 03. Синий». Ловите первую часть докладов на сегодня:

🔹10:00. Артем Кравчук (2GIS) расскажет про геолокацию по Wi-Fi/GSM в больших городах на базе ML для 30 миллионов пользователей

🔹11:10. Из доклада Виталия Шутова (ВКонтакте) узнаем про распознавание речи для субтитров в VK Видео

🔹12:20. С Александром Прошуниным (ГК Иннотех) обсудим применение машинного обучения в анализе научных данных

🔹13:30. Марк Паненко (Работа.ру) поделится опытом о том, как выкатить в highload production сервис рекомендаций с BERT-like-моделью