Data Fusion

Лекторий 2 — это на втором этаже, после эскалаторов проходите прямо и потом налево. На всякий случай:)

❤2

2.26K views09:24

Data Fusion

Детали о статье победителя номинации «Научный прорыв» Data Fusion Awards. Спасибо за обзор, друзья!

2.24K views09:35

Data Fusion

Forwarded from Data Secrets

В лаборатории AIRI придумали способ легко масштабировать трансформеры на контекст 2 миллиона токенов

Вчера на конференции Data Fusion прошла церемония награждения Data Fusion Awards (запись). Премию за научный прорыв выиграл Айдар Булатов: он стал одним из авторов работы, в которой предложили способ расширения контекстного окна трансформеров при линейном росте вычислительных затрат.

Нас работа очень заинтересовала, и позже мы познакомились с Айдаром на постерной сессии лично, чтобы немного расспросить его о статье. Главная идея: соединить трансформеры и рекуррентный механизм памяти.

Мы разделяем текст на кусочки и обрабатываем их последовательно. При этом в начало каждого сегмента добавляются векторы памяти, которая обновляется на каждой следующей итерации. Таким образом, self‑attention считается только внутри сегмента, но при этом мы все равно с каждым разом храним все больше и больше информации о тексте.

Масштабируется это действительно хорошо: ребята обучали модель только на последовательностях длины до 3.5к токенов, но на тестах она спокойно выдерживает контекст до 2 миллионов (а позже и до 50 миллионов на модификациях)! Вот гитхаб и статья.

Кстати, на основе этой работы Айдар в команде с Юрием Куратовым и другими авторами также создали бенчмарк BABILong для оценки моделей на длинном контексте. Сейчас на этом бенчмарке тестируют свои модели многие ведущие лабы: Google, Meta, OpenAI. Мы, кстати, даже несколько раз о нем писали, но то, что он был сделан в AIRI, узнали только вчера. Эта работа тоже была в числе победителей премии.

Поздравляем 🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21❤8👍6

2.33K views09:35

Data Fusion

Гуманитарии (даже если только в душе), вам через 15 минут в 📍Молекулу.

⭐

Вадим Кулик проведет сессию «ИИ в эпоху постмодернизма».

Участники дискуссии:
🔵Философ Александр Дугин
🔵Декан факультета международных отношений МГИМО Андрей Сушенцов

🔵

Александр Крайнов (Яндекс)

🔵

⭐

Денис Суржко (ВТБ).

Предчувствуем интереснейшую беседу!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥12🔥4👍2❤1😱1

5.26K views10:45

Data Fusion

This media is not supported in your browser

VIEW IN TELEGRAM

2.29K views10:45

🔥4

Data Fusion

Только-только в зале 📍Физика стартовала дискуссия «Нужна ли России национальная биржа данных?»

Модератор — ⭐️ заместитель руководителя Технологического блока - старший вице-президент ВТБ Сергей Безбогов.

В составе участников представители Т-банка, «Сколково», АБД, ДОМ.РФ и других ключевых организаций с большим опытом в работе с данными.

Обсуждаем зарубежный опыт, коммерческий потенциал и централизацию/децентрализацию.

Ждем только вас!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥5

2.41K viewsedited 11:03

Data Fusion

📍 Молекула

2.3K views11:38

Data Fusion

This media is not supported in your browser

VIEW IN TELEGRAM

0:16

4.56K views11:38

Data Fusion

Через 10 минут в 📍Физике продолжаем обсуждать международные отношения, политику и влияние ИИ на общественное сознание.

Модератор — ⭐ старший вице-президент ВТБ Сергей Безбогов.

Успейте занять места!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.31K views12:05

Data Fusion

Кейс-стади по ключевым практическим направлениям ML — в этой подборке. 17 апреля в Лектории 2 подряд пройдет сразу несколько классных практико-ориентированных кейс-сессий. Рассказываем быстро и четко: 12.30 NLP. Модератор — Валентин Малых, руководитель…

В 15.40 ждём вас в Лектории 2 на обсуждение рекомендательных систем. Модератор — ⭐ Юлий Шамаев, ВТБ.

Спикеры и темы выступлений:

Евгений Иванов, Wildberries, Lead RecSys ML Engineer
Тема: Кластерные рекомендации и интересы в персонализации: как не разориться на инфраструктуре при постоянном росте количества пользователей

Данил Комаров, Lamoda Tech, Senior DS
Тема: Рекомендации с нуля: как мы в Lamoda превратили главную страницу в ключевую точку входа для персонализированного шоппинга

Сергей Кузнецов, MTS Digital, CTO RecSys Platform
Тема: Рантайм компоненты RecSys платформы

Анна Володкевич, Sber AI Lab, руководитель направления по исследованию данных
Тема: Does It Look Sequential? Анализ последовательных паттернов в датасетах для рекомендательных систем.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

2.45K viewsedited 12:25

Data Fusion

Через несколько минут начинаем в «Фотоне» обсуждать математическую оптимизацию.

Долго говорить не будем. Вот список спикеров:

Евгений Лепшин
Салават Муллабаев
Алексей Чернов
Роланд Хильдебранд
Юрий Дорн
Дмитрий Яроцкий
Дмитрий Ковалев
Денис Беломестный
Александр Гасников

В общем, это must-see. В «Фотоне» в 15.30 🚀

UPD: сессия в двух частях, сделаем перерыв в 17.05 и продолжим.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤1👍1

2.43K viewsedited 12:28

Data Fusion

Не можем не поделиться фотографиями нашего победителя — автора лучшего вопроса ученым в канале. Уже в призовой толстовке!

Первый шаг к знаниям — умение задать правильные вопросы 💚

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥54🤔3❤1😁1🥱1🥴1

2.85K views13:00

Data Fusion

Выходим на финишную прямую в кейс-стади в 📍Лектории 2. В 17.10 обсуждаем RAG.

Модератор — ⭐ Лев Меркушов, заместитель начальника управления перспективных алгоритмов машинного обучения ВТБ.

Спикеры и темы докладов:

Дмитрий Ильвовский, доцент НИУ ВШЭ
Тема: Адаптация GraphRAG для русского языка

Никита Мишнев, Just A, руководитель команды прикладной разработки
Тема: Наш путь в RAG: от прототипа до промышленного paas

Виктор Попов, РАНХиГС, ведущий специалист
Тема: Исследование уязвимостей корпоративных RAG-систем с накоплением данных

Егoр Аничков, РАНХиГС, руководитель научной группы
Тема: Исследование уязвимостей корпоративных RAG-систем с накоплением данных

Денис Рубакин, Т1, главный архитектор
Тема: Как ускорить процесс разработки и внедрения RAG-сервисов под высокой нагрузкой?

Алексей Незнанов, ООО "ТКШ", к.т.н., доцент факультета компьютерных наук НИУ ВШЭ, старший специалист по анализу данных
Тема: Мечтают ли андроиды о большом и чистом эксплицитном знании?

Узнаем в 17.10. Занимайте места!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6

2.51K views13:55

Data Fusion

Делимся обзорами авторов Telegram-каналов. Благодарим за добрые слова!

2.3K views14:12

Data Fusion

Forwarded from Big Ledovsky | блог DS лида

На Data Fusion

Итак, в этом году я наконец-то попал на Data Fusion. Во-первых, я получил приглашение (как блогер 😅) и офигенную толстовку. Во-вторых, я участвовал в соревнованиях Data Fusion этого года и поэтому хотел поучаствовать и в самой конфе. На этот раз не могу похвастаться призовыми, но задача определения категории была супер полезна c точки зрения опыта. Научился дообучать берт, замораживать и размораживать веса и вот это все.

Я немного шокирован масштабом программы, т.к. она состоит их двух полных дней по 7 параллельных треков с утра до вечера. Вот буквально с 9-30 до 20-00. Происходит все это дело в кластере Ломоносов - однозначно живописном месте. Забавный факт, что я долгое время был убежден, что кластер Ломоносов - это суперкомпьютер и не понимал как люди могли его посещать 😂

Встретил Никиту и моих старых коллег по DS консалтингу IBM Дениса и Артура

Ждите следующего поста с впечатлениями!

🔥16❤12🤩3

2.61K views14:12

About

Blog

Apps

Platform