HighLoad++
5.99K subscribers
2.3K photos
138 videos
15 files
2.13K links
Официальный канал профессиональной конференции разработчиков высоконагруженных систем

Встречаемся 6 и 7 ноября в Москве на HighLoad++ 2025: https://highload.ru/moscow/2025

Общаемся в чатике https://t.iss.one/HighLoadTalks
Download Telegram
🚩 Под красным флагом: как инженер может понять, что в проекте происходит что-то не то? Узнаем из доклада Даниила Подольского

📋 https://bx.vc/tsagam

Иногда в проекте происходит "что-то не то". Иногда это "не то" связано с ошибочными техническими решениями, принятыми руководством или даже коллегиально.

Иногда такое "не то" способно завести проект в тупик, а если и не весь проект, то карьеру инженера в этом конкретном проекте.

Как выглядит такое "не то", как его можно распознать, и как эти риски можно митигировать?

На примере нескольких сугубо типичных эпичных фейлов рассмотрим разные "не то" и, возможно, придумаем, что с этим делать.

Подробно о конференции, расписание и билеты здесь – https://bx.vc/m2xjh1

До скорой встречи в Петербурге или онлайн по всему миру 🙌
👍2
AI maturity index — как и зачем оценивают индекс ИИ-зрелости? Обсудим с Андреем Анисимовым. В Газпромбанке Андрей занимается монетизацией не только банковских данных, но и поступающих из экосистемы, в первую очередь из ГазпромбанкМобайла

📋 https://bx.vc/c2d1dz

AI maturity index — не еще один индекс в ИТ-отрасли, а международный опыт систематизации внедрения Data Science-подходов в бизнес-процессы.

В докладе рассмотрим, что это такое, почему вычисляют ИИ-зрелость, какие есть стадии внедрения и направления исследования для его формирования, а также какие возникают риски при его контроле.

Ждем вас 22 и 23 сентября 🙌

Подробно о конференции, расписание и билеты здесь - https://bx.vc/6gmucs
Про Dashboard as a code, или путь от правок в UI до grafonnet узнаем из доклада Антона Быстрова

📋 https://bx.vc/33avlj

Антон хочет поделиться, каким образом можно создавать и сопровождать дашборды, чтобы не погрязнуть в рутинных операциях.

Проведет краткий обзор инструментов, которые в разы могут облегчить процесс чтения кода и его проверки. Расскажет про их путь с командой — почему они выбрали grafonnet, и что из этого получилось.

Программа конференции и билеты по ссылке – https://bx.vc/7dvs4c

До скорой встречи в Питере 🙌
Про нагрузочное тестирование синтеза и распознавания речи в SberDevices расскажет Андрей Чернопятов.

📋 https://bx.vc/afx74v

Все уже привыкли что техника вокруг слышит нас и отвечает в ответ. В сети есть много информации о том, как собрать какой-нибудь движок для экспериментов, но что, если вам нужно бесперебойно обрабатывать миллиарды секунд звука с гарантированной скоростью? В этом докладе Андрей расскажет, как устроено нагрузочное тестирование синтеза и распознавания речи в SberDevices.

Узнаем:

- Проблемы метрик: что такое "быстрый, но качественный ASR/TTS"
- Как подружить скорость и стабильность
- Что может влиять на результат, если шаг вашей шкалы — десятки миллисекунд
- Какие сложности в нагрузочном тестировании встречаются в сервисах работы со звуком

Встречаемся 22 и 23 сентября на Saint HighLoad++ 🙌

Программа ML-трека - https://bx.vc/678yjd
👍3
Как и для чего делать свой переводчик в эпоху облачных решений? Узнаем из доклада Андрея Соколова.

📋 https://bx.vc/fmw231

Если пользователи вашего сервиса говорят на разных языках и при этом у вас много обновляющихся текстов — в каталоге товаров, новостях или, как ВКонтакте, в уникальных постах пользователей соцсети — то вам нужен автоматический перевод.

В докладе Андрей расскажет, как они ВКонтакте подошли к этой задаче и почему в результате разработали своё решение. С собственной системой перевода им больше не нужно никому за него платить, а производительность модели находится полностью под их контролем. Модель учитывает особенности языка пользователей и на основе оценки асессоров выигрывает в качестве. Андрей поделится лайфхаками и инструментами, которые позволили этого добиться и расскажет, на что в первую очередь обратить внимание, создавая свой машинный перевод или другие ML-решения.

Программа ML-трека - https://bx.vc/nwiel7

До встречи 22 и 23 сентября в Санкт-Петербурге 🙌
Как выкатить в highload production сервис рекомендаций с BERT-like-моделью? Расскажет Марк Паненко, TeamLead в Работа.ру.

📋 https://bx.vc/8f7kai

В Работа.ру они занимаются разработкой сервисов на основе машинного обучения для улучшения пользовательского опыта при поиске работы. Недавно они внедрили сервис рекомендаций, один из центральных сервисов их платформы.

Марк расскажет об опыте обучения и дистилляции мультиязычной, легковесной модели на основе архитектуры Transformer, адаптированной для HR-домена. О вариантах сервисов на базе этой модели и об их опыте развития архитектурных решений в зависимости от нагрузки.

После доклада у слушателя появится представление:

▪️о процессе обучения и дистилляции BERT-like-модели,
▪️о нескольких вариантах архитектуры сервисов на её основе,
▪️о производительности, которую можно ожидать от этих вариантов.

Программа ML-трека – https://bx.vc/ap57ll

Встречаемся уже 22 и 23 сентября в Питере 🙌
👍1
Face Pay — сервис полностью бесконтактной оплаты проезда с помощью распознавания лиц в Московском метрополитене. Подробно о сервисе расскажут Михаил Волков и Гусейн Римиханов

📋 https://bx.vc/wd6y9b

Технологическим партнером проекта выступила компания VisionLabs, один из лидеров в области компьютерного зрения и машинного обучения.

Face Pay — первый в России и в мире сервис по оплате проезда с помощью биометрии, запущенный в таком масштабе. Сервис доступен на всех 250 станциях метро, а с 16 марта 2022 года — на станции «Кутузовская» Московского центрального кольца.

Из доклада узнаем, как происходила разработка уникального сервиса, какие особенности в тестировании подобных решений, в чем заключалась адаптация технологий компьютерного зрения для сложных условий работы, а также о перспективах внедрения Face Pay на других видах транспорта.

Присоединяйтесь к нам 22 и 23 сентября на Saint HighLoad++

Подробная программа конференции и билеты на сайте - https://bx.vc/oa9kcy
Из доклада Виталия Шутова узнаем про распознавание речи для субтитров в VK Видео.

📋 https://bx.vc/y1qd1g

Виталий расскажет, как внутри устроена технология распознавания речи ВКонтакте. Чем распознавание коротких аудиосообщений отличается от распознавания длинных видео. Что такое речевой домен и почему модель может работать сильно хуже, чем должна, без видимых причин.

Покажет, какие модели пробовали, с какими трудностями столкнулись, как решали и что используют в итоге. Как они борятся с плохими расшифровками и что пришлось применить для матчинга текста с временной шкалой. И в целом — как можно использовать их опыт, чтобы собрать технологию ASR под свои задачи.

Программа ML-трека – https://bx.vc/sz35q0

Ждем вас в Питере 22 и 23 сентября 🙌
👍3🔥1
Какие архитектурные решения помогут сделать любую контентную платформу лучше для пользователей? Разбираемся в новой статье на Хабре: https://bx.vc/5ayu5r

В ней Александр Тоболь, технический директор ВКонтакте и VK Видео, обстоятельно проводит параллели между архитектурой и пользовательским опытом. Разбирает каждый этап пайплайна — от загрузки на платформу до показа пользователю — и объясняет, на какие метрики ориентироваться.

➡️ Читайте статью, и узнаете, как выбрать между HTTP/1, 2 или 3 для быстрого upload, как балансировать нагрузку на отдачу, как организовать CDN и где прикрутить ML (спойлер: везде).
Алексей Кузнецов и Михаил Лепешкин расскажут, как они разместили 200+ дата-саентистов в кластере K8S

📋 https://bx.vc/m7q6gn

Они создали удобное рабочее окружение для 200+ дата-сайентистов при помощи jupyterhub и k8s, которое:

- легко масштабируется
- в меру отказоустойчивое
- имеет централизованное управление
- легко тарифицируется в мультитенант-среде
- имеет единую точку входа

Узнаем:

- как запускать Spark driver в K8S в режиме m̶a̶s̶t̶e̶r̶ y̶a̶r̶n̶ deploy-mode client
- как организовать персональные окружения для команд аналитиков/разработчиков
- о контроле за использованием ресурсов и возможности их гарантировать
- как это все мониторится

Какие проблемы они решили:

- проблемы сетевой связности при работе Spark Driver в K8S
- доступность Spark UI
- перенос пользовательских данных при переходе между командами

Цель доклада - показать, как при небольших изменениях можно получить результат, максимально удовлетворяющий вашим требованиям.

Программа ML-трека - https://bx.vc/d9zb6n

До встречи 🙌
🔥3
➡️ Как собрать облачную AutoML-платформу для создания голосовых роботов на базе трансформеров? Узнаем из доклада Артема Бондаря

📋 https://bx.vc/gf3gnz

Сегодня коммуникационными роботами на базе NLU уже никого не удивишь: есть и коробочные решения вроде DialogFlow от Google, и OpenSource-фреймворки вроде Rasa, да и каждый уважающий себя ML-инженер хоть раз да и файн-тюнил BERT'а на задачу текстовой классификации. В Voximplant захотелось собрать лучший опыт и дать возможность использовать state-of-the-art-модели и подходы людям, далеким от машинного обучения — и все не покидая браузера в рамках облачной платформы.

Артем расскажет о тонкостях создания облачного AutoML-решения, какими трюками они добивались низкой стоимости, сохранив возможность использовать тяжелые нейросети, кастомизированные под каждого клиента, как они работали с разными языками и как подошли к задаче few-shot-learning, пряча от клиента под ковер всю игру с гиперпараметрами.

Программа ML-трека - https://bx.vc/40v00k

До встречи 🙌
👍1🔥1
Media is too big
VIEW IN TELEGRAM
🔥 В интервью Олег Бартунов, ведущий разработчик PostgreSQL, отвечает на вопросы:

- Что для Вас значит конференция HighLoad?
- Что сейчас заботит разработчиков? Какие вызовы и перспективы?
- Какую пользу от конференции Вы видите?

Встречаемся 22 и 23 сентября на Saint HighLoad++ ➡️ https://bx.vc/vmkw9j
Филипп Мальковский, программист-разработчик в команде VK Видео расскажет, как они адаптировали существующий пайплайн по распознаванию речи для работы в инфраструктуре VK Видео, внедряли новые компоненты и оптимизировали получившееся решение

📋 https://bx.vc/9ywdjn

Узнаем:

- как инкапсуляция и переиспользование компонентов на C++ помогли найти компромисс между максимальным переиспользованием существующего решения и минимизацией трафика между серверами
- как реализация в виде нативного процесса позволила гибко и независимо масштабировать пайплайн в инфраструктуре обработки видео и распространить распознавание речи на все популярные и загружаемые ролики
- как выбирали формат субтитров и способ их отображения на клиентах
- с какими неожиданностями при доставке контента через CDN столкнулись после запуска и как все быстро поправили

А также, какие возможности для развития продукта открывает распознавание речи, встроенное в пайплайн обработки видео.

Программа ML-трека - https://bx.vc/g1hptr

До встречи 🙌
Про централизованный self-service ETL. О системе автоматизации, умеющей эффективно и дешево двигать данные между десятками систем расскажет Андрей Гончаров

📋 https://bx.vc/6nnvkc

С ростом продукта и развитием data-driven-подхода команда Garage Eight хочет обеспечивать своих коллег простым и удобным способом автоматизировать трансформацию и батч-транзит данных между системами с целью изучать их и проводить продуктовую/бизнес-аналитику.

Из доклада узнаем про:

▫️Автоматизацию расчетов для нового интересного отчета за 15 минут.
▫️Простой способ обеспечить Data quality.
▫️20+ видов интеграций с информационными системами для отправки и получения данных.
▫️Прозрачный Data lineage.
▫️Возможность запустить любой код как часть графа задач.
▫️Удобный инструментарий для запуска задач и мониторинга.
и многое другое

Программа конференции и билеты здесь – https://bx.vc/zntk0u

До скорой встречи на Saint HighLoad++ 🙌
👍2
📍 Про автоматический подбор параметров для Spark-приложений: как запускать больше на ограниченном кластере и не тратить времени расскажет Валерия Дымбицкая - техлид команды ML Data в OneFactor

📋 https://bx.vc/sni1xh

Валерия с командой научились каждой модели автоматически выдавать оптимальные ресурсы в Hadoop-кластере без участия человека. В их кластере запускаются сотни ежедневных и тысячи ежечасных Spark-расчётов, все очень разные и со своим SLA. В такой ситуации тюнить силами инженеров нереально. Поэтому они построили и внедрили полностью автоматическую систему тюнинга, а в результате увеличили пропускную способность кластера в четыре раза.

Узнаем, как устроен подбор параметров и что позволяет ему работать автономно, а также поделится проблемами, с которыми они столкнулись в процессе внедрения и эксплуатации.

Встречаемся 22 и 23 сентября 🙌

Программа ML-трека - https://bx.vc/iqnpzl
Мне нужна твоя поддержка: как запустить чат-бот на пяти языках, быстро без разметки и смс – тема доклада Алексея Принькова на Saint HighLoad++

📋 https://bx.vc/xkd0uz

Узнаем, как они решили проблему увеличения нагрузки на клиентские сервисы продукта, а именно — на агентов поддержки в чатах. Им не подошло проприетарное решение из-за специфики мультиязычности — это сложно; тарификации каждого решенного чата — это дорого, а переход на новую систему поддержки из-за выстроенных процессов оценивался как трудоемкий и долгий. Алексей с командой разработали собственный чат-бот, способный общаться с клиентами на нескольких языках и самостоятельно закрывать чаты, решая вопросы клиентов.

Перед имплементацией решения за короткое время им удалось проверить гипотезу о том, что чаты, в принципе, могут быть закрыты ботом, оценить, с какой эффективностью это может происходить и как можно выделить направления для автоматизации сценариев.

🙌 Встречаемся 22 и 23 сентября

Программа ML-трека - https://bx.vc/zc3zgr
👍2
➡️ Алексей Васильев расскажет о том, как с помощью их фреймворка RePlay можно быстро и удобно построить рекомендательную систему, а также как сравнить существующие решения с бейзлайнами

📋 https://bx.vc/mej0wm

Отличительными особенностями библиотеки являются удобный интерфейс и возможность масштабирования за счет встраивания pyspark внутрь фреймворка. Алексей покажет несколько примеров использования. Мы обсудим этапы создания рекомендательных систем, какие варианты выбора подходов могут быть на каждом этапе. Также поговорим о том, что даже всем известные метрики могут считаться по-разному.

👉 Встречаемся 22 и 23 сентября на Saint HighLoad++

Программа ML-трека - https://bx.vc/trww12
👍2
👉 Алан Савушкин, Data Scientist в Лаборатории Касперского, расскажет про частотный и байесовский подходы оценки TPR при неполной разметке данных

📋 https://bx.vc/2lupb8

Практически в каждом проекте, в котором применяются модели машинного обучения, присутствует необходимость оценивать метрики онлайн, отражающие качество модели. В случае доступности полной разметки данных, с точки зрения статистики, достаточно просто получить оценки и построить доверительные интервалы для этих оценок. Но что, если решается задача фильтрации данных, полная разметка для отфильтрованных объектов отсутствует и необходимо оценить TPR?

На примере задачи фильтрации данных мы рассмотрим проблему оценки TPR при отсутствии полной разметки отфильтрованных объектов, и какая здесь возникает особенность. Алан покажет, как можно решить данную проблему.

Встречаемся на Saint HighLoad++ уже 22 и 23 сентября 🙌

Программа конференции и билеты здесь - https://bx.vc/xatahf
👍2
Владимир Меркулов и Василий Вологдин расскажут, как они подружили биореакторы и ML

📋 https://bx.vc/z7f2ep

Когда речь заходит о машинном обучении в фармацевтических компаниях, таких как BIOCAD, то большинство специалистов подразумевает участие Data Scientist'ов в процессе разработки лекарственных препаратов. В докладе Владимир и Василий посмотрят на этот вопрос немного под другим углом и расскажут о том, какие еще задачи решаются при помощи машинного обучения в фармацевтических компаниях, в том числе как алгоритмы машинного обучения помогают решать задачи на производственных линиях и какую архитектуру они для этого используют.

Также узнаем о том, с какими трудностями они столкнулись при разработке, и каким образом выстраивалось взаимодействие между специалистами службы АСУ ТП и специалистами по машинному обучению.

Ждем вас 22 и 23 сентября в Петербурге 🙌

Программа ML-трека - https://bx.vc/0vv6ae
👍1
👋 Геолокация при помощи триангуляции по сотовым вышкам в прошлом! Артем Кравчук расскажет про геолокацию по WiFi/GSM в больших городах на базе ML для 30-ти миллионов пользователей

📋 https://bx.vc/sh1eqe

Крупные города содержат миллионы Wi-Fi-точек. Современные статистические методы позволяют рассчитывать честные двумерные карты сил сигналов, а современные инженерные приёмы — строить сотни миллионов таких карт и использовать для позиционирования десятков тысяч пользователей в секунду. Подход команды Артема позволил улучшить точность геолокации по Wi-Fi/GSM более чем в 2 раза там, где GPS неточен или недоступен.

Из доклада узнаем, как симбиоз data science и инженерных решений позволил построить экономную по аппаратным ресурсам систему силами небольшой команды для 30+ М пользователей c нагрузочной ёмкостью 10K+ RPS.

📍Ждем вас 22 и 23 сентября на Saint HighLoad++

Программа ML-трека - https://bx.vc/w1ivee
👍3🔥1