Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика
Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.
Читать: https://habr.com/ru/articles/949338/
#ru
@big_data_analysis | Другие наши каналы
Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.
Читать: https://habr.com/ru/articles/949338/
#ru
@big_data_analysis | Другие наши каналы
ИИ-психопрофиль аудитории: как анализировать подписчиков в соцсетях с помощью GPT
Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.
Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.
Читать: https://habr.com/ru/articles/949416/
#ru
@big_data_analysis | Другие наши каналы
Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.
Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.
Читать: https://habr.com/ru/articles/949416/
#ru
@big_data_analysis | Другие наши каналы
Как мы наводим порядок в BI: опыт внедрения процесса ревью отчётов
В 2019 году центральная BI-команда нашей компании столкнулась с типичной задачей: как небольшой командой разработчиков обеспечить качественную аналитику для тысяч сотрудников в условиях быстро растущего бизнеса и высокой самостоятельности подразделений?
Мы сделали ставку на модель self-service BI: инструмент передали бизнес-пользователям, чтобы они могли сами строить отчёты. Идея «демократизации данных» поначалу казалась удачной. Но без чётких правил, стандартов и контроля всё быстро превратилось в BI-хаос: тысячи разрозненных отчётов, низкая производительность, противоречивые метрики и перегруженная инфраструктура на Premium P3. Пользователи жаловались, доверие к BI падало, а управлять этим потоком становилось всё сложнее.
В этой статье мы — Ринат Хабибрахманов, руководитель практики BI в Лемана Тех, и Лариса Фернандес, ведущий разработчик аналитических систем, — делимся опытом нашей команды. Расскажем, как мы шаг за шагом внедряли процесс ревью Power BI-отчётов, чтобы вернуть контроль, улучшить качество аналитики и восстановить доверие пользователей к BI-системе.
Ключевым шагом стало внедрение процесса ревью. Ниже подробно разберём, зачем он понадобился, какие цели мы ставили и как его организовали.
Читать: https://habr.com/ru/articles/948004/
#ru
@big_data_analysis | Другие наши каналы
В 2019 году центральная BI-команда нашей компании столкнулась с типичной задачей: как небольшой командой разработчиков обеспечить качественную аналитику для тысяч сотрудников в условиях быстро растущего бизнеса и высокой самостоятельности подразделений?
Мы сделали ставку на модель self-service BI: инструмент передали бизнес-пользователям, чтобы они могли сами строить отчёты. Идея «демократизации данных» поначалу казалась удачной. Но без чётких правил, стандартов и контроля всё быстро превратилось в BI-хаос: тысячи разрозненных отчётов, низкая производительность, противоречивые метрики и перегруженная инфраструктура на Premium P3. Пользователи жаловались, доверие к BI падало, а управлять этим потоком становилось всё сложнее.
В этой статье мы — Ринат Хабибрахманов, руководитель практики BI в Лемана Тех, и Лариса Фернандес, ведущий разработчик аналитических систем, — делимся опытом нашей команды. Расскажем, как мы шаг за шагом внедряли процесс ревью Power BI-отчётов, чтобы вернуть контроль, улучшить качество аналитики и восстановить доверие пользователей к BI-системе.
Ключевым шагом стало внедрение процесса ревью. Ниже подробно разберём, зачем он понадобился, какие цели мы ставили и как его организовали.
Читать: https://habr.com/ru/articles/948004/
#ru
@big_data_analysis | Другие наши каналы
MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM
Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.
Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно ы и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть актуальные задачи для пользователей.
Встречайте MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms.
Читать: https://habr.com/ru/companies/vk/articles/947892/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.
Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно ы и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть актуальные задачи для пользователей.
Встречайте MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms.
Читать: https://habr.com/ru/companies/vk/articles/947892/
#ru
@big_data_analysis | Другие наши каналы
Нейтральное сравнение StarRocks и Apache Doris
Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.
Читать: https://habr.com/ru/articles/950214/
#ru
@big_data_analysis | Другие наши каналы
Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.
Читать: https://habr.com/ru/articles/950214/
#ru
@big_data_analysis | Другие наши каналы
Лучшие фреймворки для машинного обучения в 2025 году
Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.
В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор.
Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.
Читать: https://habr.com/ru/companies/kryptonite/articles/950236/
#ru
@big_data_analysis | Другие наши каналы
Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.
В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор.
Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.
Читать: https://habr.com/ru/companies/kryptonite/articles/950236/
#ru
@big_data_analysis | Другие наши каналы
📊 Data Governance Meetup: точные данные для вашего бизнеса
Устали от хаоса в данных?
📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance.
В программе:
⚪️ демонстрации ИИ в управлении данными
⚪️ yправление справочниками, повышение качества данных, интеграция систем
⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB
Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс.
👉 Подробности и регистрация.
Устали от хаоса в данных?
📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance.
В программе:
⚪️ демонстрации ИИ в управлении данными
⚪️ yправление справочниками, повышение качества данных, интеграция систем
⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB
Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс.
👉 Подробности и регистрация.
👍1
Без тренировки, но с обучением: имплицитная динамика in-context learning
Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.
В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.
Читать: https://habr.com/ru/articles/949064/
#ru
@big_data_analysis | Другие наши каналы
Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.
В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.
Читать: https://habr.com/ru/articles/949064/
#ru
@big_data_analysis | Другие наши каналы
Создаем тест производительности для Oracle Analytics Cloud с помощью Apache JMeter. В статье подробно описан процесс подготовки и настройки тест-плана, который поможет оценить и улучшить работу аналитической платформы. Полезно для тех, кто работает с нагрузочным тестированием.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Deep Dive for Developing an Apache JMeter Performance Test Plan for Oracle Analytics Cloud
This post guides you in developing an Apache JMeter Performance Test Plan for Oracle Analytics Cloud.
Создайте адаптивные дашборды в Oracle Analytics, которые автоматически подстраиваются под любой экран. В статье рассказывается о лучших подходах к дизайну, оптимизации визуализаций и настройке точек перелома для удобства на десктопе, планшете и мобильных устройствах.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Responsive Dashboards in Oracle Analytics: Boost User Adoption
Master responsive design principles and Oracle's breakpoint tools to deliver critical insights on any screen size.
Вдохновляющая история Майлса Гиленана: от тенниса до руководителя направления данных и искусственного интеллекта в Apps Associates. Узнайте, как разные этапы карьеры привели его к вершинам в сфере аналитики и ИИ.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
A man with a passion for trying new things
From tennis, to accountancy, to data and analytics and AI – one man’s journey. A profile of Myles Gilsenan, Vice President of Data, Analytics and AI at Apps Associates.
Почему в космосе (пока) нет дата-центров. Часть третья: какие вычисления уже работают
Привет, Хабр! На связи снова Александр Токарев. И это третья часть из серии статей о том, почему в космосе нет дата-центров.
Во второй части мы разобрались, что главные барьеры для космических ЦОДов — вовсе не процессоры, а энергия, охлаждение, радиация и отсутствие устойчивых сетей. Но пока проекты с «настоящими» дата-центрами остаются в рендерах, в космосе уже крутятся рабочие вычисления. Давайте посмотрим, что из этого реально работает сегодня и какие горизонты впереди.
Читать: https://habr.com/ru/companies/oleg-bunin/articles/947134/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! На связи снова Александр Токарев. И это третья часть из серии статей о том, почему в космосе нет дата-центров.
Во второй части мы разобрались, что главные барьеры для космических ЦОДов — вовсе не процессоры, а энергия, охлаждение, радиация и отсутствие устойчивых сетей. Но пока проекты с «настоящими» дата-центрами остаются в рендерах, в космосе уже крутятся рабочие вычисления. Давайте посмотрим, что из этого реально работает сегодня и какие горизонты впереди.
Читать: https://habr.com/ru/companies/oleg-bunin/articles/947134/
#ru
@big_data_analysis | Другие наши каналы
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными.
Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты.
Обо всем это и хочется рассказать.
Читать: https://habr.com/ru/articles/950874/
#ru
@big_data_analysis | Другие наши каналы
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными.
Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты.
Обо всем это и хочется рассказать.
Читать: https://habr.com/ru/articles/950874/
#ru
@big_data_analysis | Другие наши каналы
Как мы научили нейросеть читать технические схемы и сразу считать их стоимость
Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.
Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала.
В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.
Читать: https://habr.com/ru/articles/951016/
#ru
@big_data_analysis | Другие наши каналы
Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.
Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала.
В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.
Читать: https://habr.com/ru/articles/951016/
#ru
@big_data_analysis | Другие наши каналы
Гайд по созданию качественных дата-продуктов от SYNQ: топ-4 советов
Принцип «тестируй все» не повышает, а разрушает качество данных. Сотни бесполезных алертов создают шум, в котором тонут действительно важные сигналы, а команда перестает на них реагировать. В Google и Monzo от этого уже отказались. Рассказываем, как перейти от тотального тестирования к точечным проверкам узлов с максимальным радиусом влияния и почему один правильный тест на источник важнее сотни проверок в витринах.
Читать: https://habr.com/ru/companies/postgrespro/articles/951048/
#ru
@big_data_analysis | Другие наши каналы
Принцип «тестируй все» не повышает, а разрушает качество данных. Сотни бесполезных алертов создают шум, в котором тонут действительно важные сигналы, а команда перестает на них реагировать. В Google и Monzo от этого уже отказались. Рассказываем, как перейти от тотального тестирования к точечным проверкам узлов с максимальным радиусом влияния и почему один правильный тест на источник важнее сотни проверок в витринах.
Читать: https://habr.com/ru/companies/postgrespro/articles/951048/
#ru
@big_data_analysis | Другие наши каналы
Собираем систему мониторинга ответов LLM на коленке
Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной.
Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.
Читать: https://habr.com/ru/companies/tochka/articles/949430/
#ru
@big_data_analysis | Другие наши каналы
Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной.
Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.
Читать: https://habr.com/ru/companies/tochka/articles/949430/
#ru
@big_data_analysis | Другие наши каналы
Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение
Автор оригинала: Грант Сандерсон, адаптация текста Джастин Сан
Данная статья представляет собой подробное введение в архитектуру трансформеров — ключевой технологии, лежащей в основе современных больших языковых моделей, таких как ChatGPT.
Статья подробно описывает архитектуру трансформера, включая блоки внимания (Attention Blocks), где векторы взаимодействуют друг с другом для обновления значений на основе контекста, и многослойные распознаватели (Перцептроны) (Feed-Forward Layers), где векторы обрабатываются параллельно. Объясняется, почему глубокие нейронные сети называются «глубокими» — из-за множества чередующихся слоёв этих операций.
Материал включает практические примеры на основе GPT-3 с её 175 миллиардами параметров, распределённых по почти 28,000 матрицам. Авторы тщательно отслеживают количество параметров на каждом этапе, помогая читателю понять масштаб современных языковых моделей.
Ключевая идея статьи заключается в том, что модель, обученная предсказывать следующее слово, способна генерировать связный текст путём повторяющегося процесса предсказания и выборки. Детально рассматривается процесс токенизации входных данных, когда текст разбивается на небольшие фрагменты — токены, которые затем преобразуются в векторы с помощью матрицы вложений.
Особое внимание уделяется концепции векторных представлений слов в многомерном пространстве, где направления имеют семантическое значение. Авторы демонстрируют, как модель обучается располагать слова со схожими значениями близко друг к другу, а также как векторная арифметика может отражать смысловые отношения между словами.
Завершается статья описанием процесса "вложений" и функции "softmax", которая преобразует выходные данные модели в распределение вероятностей для предсказания следующего токена. Особое внимание уделяется понятию «температуры», которое контролирует степень случайности при генерации текста.
Читать: https://habr.com/ru/articles/951534/
#ru
@big_data_analysis | Другие наши каналы
Автор оригинала: Грант Сандерсон, адаптация текста Джастин Сан
Данная статья представляет собой подробное введение в архитектуру трансформеров — ключевой технологии, лежащей в основе современных больших языковых моделей, таких как ChatGPT.
Статья подробно описывает архитектуру трансформера, включая блоки внимания (Attention Blocks), где векторы взаимодействуют друг с другом для обновления значений на основе контекста, и многослойные распознаватели (Перцептроны) (Feed-Forward Layers), где векторы обрабатываются параллельно. Объясняется, почему глубокие нейронные сети называются «глубокими» — из-за множества чередующихся слоёв этих операций.
Материал включает практические примеры на основе GPT-3 с её 175 миллиардами параметров, распределённых по почти 28,000 матрицам. Авторы тщательно отслеживают количество параметров на каждом этапе, помогая читателю понять масштаб современных языковых моделей.
Ключевая идея статьи заключается в том, что модель, обученная предсказывать следующее слово, способна генерировать связный текст путём повторяющегося процесса предсказания и выборки. Детально рассматривается процесс токенизации входных данных, когда текст разбивается на небольшие фрагменты — токены, которые затем преобразуются в векторы с помощью матрицы вложений.
Особое внимание уделяется концепции векторных представлений слов в многомерном пространстве, где направления имеют семантическое значение. Авторы демонстрируют, как модель обучается располагать слова со схожими значениями близко друг к другу, а также как векторная арифметика может отражать смысловые отношения между словами.
Завершается статья описанием процесса "вложений" и функции "softmax", которая преобразует выходные данные модели в распределение вероятностей для предсказания следующего токена. Особое внимание уделяется понятию «температуры», которое контролирует степень случайности при генерации текста.
Читать: https://habr.com/ru/articles/951534/
#ru
@big_data_analysis | Другие наши каналы
Разбираемся в профессиях: Data Analyst, Data Engineer, Analytics Engineer и BI Engineer
Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике.
Читать: https://habr.com/ru/articles/951454/
#ru
@big_data_analysis | Другие наши каналы
Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике.
Читать: https://habr.com/ru/articles/951454/
#ru
@big_data_analysis | Другие наши каналы
Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса
Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).
Читать: https://habr.com/ru/articles/951482/
#ru
@big_data_analysis | Другие наши каналы
Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).
Читать: https://habr.com/ru/articles/951482/
#ru
@big_data_analysis | Другие наши каналы
GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.
За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».
В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.
Читать: https://habr.com/ru/companies/alfa/articles/947754/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.
За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».
В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.
Читать: https://habr.com/ru/companies/alfa/articles/947754/
#ru
@big_data_analysis | Другие наши каналы