Data Analysis / Big Data
2.84K subscribers
566 photos
3 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение

Автор оригинала: Грант Сандерсон, адаптация текста Джастин Сан

Данная статья представляет собой подробное введение в архитектуру трансформеров — ключевой технологии, лежащей в основе современных больших языковых моделей, таких как ChatGPT.

Статья подробно описывает архитектуру трансформера, включая блоки внимания (Attention Blocks), где векторы взаимодействуют друг с другом для обновления значений на основе контекста, и многослойные распознаватели (Перцептроны) (Feed-Forward Layers), где векторы обрабатываются параллельно. Объясняется, почему глубокие нейронные сети называются «глубокими» — из-за множества чередующихся слоёв этих операций.

Материал включает практические примеры на основе GPT-3 с её 175 миллиардами параметров, распределённых по почти 28,000 матрицам. Авторы тщательно отслеживают количество параметров на каждом этапе, помогая читателю понять масштаб современных языковых моделей.

Ключевая идея статьи заключается в том, что модель, обученная предсказывать следующее слово, способна генерировать связный текст путём повторяющегося процесса предсказания и выборки. Детально рассматривается процесс токенизации входных данных, когда текст разбивается на небольшие фрагменты — токены, которые затем преобразуются в векторы с помощью матрицы вложений.

Особое внимание уделяется концепции векторных представлений слов в многомерном пространстве, где направления имеют семантическое значение. Авторы демонстрируют, как модель обучается располагать слова со схожими значениями близко друг к другу, а также как векторная арифметика может отражать смысловые отношения между словами.

Завершается статья описанием процесса "вложений" и функции "softmax", которая преобразует выходные данные модели в распределение вероятностей для предсказания следующего токена. Особое внимание уделяется понятию «температуры», которое контролирует степень случайности при генерации текста.


Читать: https://habr.com/ru/articles/951534/

#ru

@big_data_analysis | Другие наши каналы
Разбираемся в профессиях: Data Analyst, Data Engineer, Analytics Engineer и BI Engineer

Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике.


Читать: https://habr.com/ru/articles/951454/

#ru

@big_data_analysis | Другие наши каналы
Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).


Читать: https://habr.com/ru/articles/951482/

#ru

@big_data_analysis | Другие наши каналы
GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.

За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».

В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.


Читать: https://habr.com/ru/companies/alfa/articles/947754/

#ru

@big_data_analysis | Другие наши каналы