Как избавиться от проприетарных ETL: кейс миграции на dbtt
Несколько лет назад наш корпоративный слой данных жил на проприетарных технологиях. Данных было много, а основная СУБД — MPP-система Sybase IQ — долго не обновлялась. Мы регулярно сталкивались с тем, что у кластера «падали» ноды, каталог базы повреждался, порой даже терялись данные, а вендор не спешил выпускать исправления или даже признавать проблему. ETL-процессы работали через IBM DataStage, который также перестал развиваться. Все решения были закрыты, и мы не могли влиять на их улучшение. Vendor lock-in означает, что вы зависите от поставщика: если вендор не поддерживает нужные возможности, развитие замедляется, а долгоживущие ошибки остаются нерешенными. Такое положение становилось критичным.
Мы поняли, что для устойчивого развития платформы нужно срочно искать альтернативу: переходить на стек, которым мы можем управлять сами. При этом важно было сохранить команду: десятки разработчиков и аналитиков уже работали с существующей моделью. Новому решению следовало быть удобным для аналитиков, прозрачным для бизнеса и гибким для инженеров.
В этой статье рассказываем о том, как мы перешли с проприетарных ETL-инструментов на open-source на базе dbt, какие проблемы решали по ходу внедрения, и как построили экосистему вокруг dbt для автоматизации рутинных задач.
Читать: https://habr.com/ru/companies/gazprombank/articles/947124/
#ru
@big_data_analysis | Другие наши каналы
Несколько лет назад наш корпоративный слой данных жил на проприетарных технологиях. Данных было много, а основная СУБД — MPP-система Sybase IQ — долго не обновлялась. Мы регулярно сталкивались с тем, что у кластера «падали» ноды, каталог базы повреждался, порой даже терялись данные, а вендор не спешил выпускать исправления или даже признавать проблему. ETL-процессы работали через IBM DataStage, который также перестал развиваться. Все решения были закрыты, и мы не могли влиять на их улучшение. Vendor lock-in означает, что вы зависите от поставщика: если вендор не поддерживает нужные возможности, развитие замедляется, а долгоживущие ошибки остаются нерешенными. Такое положение становилось критичным.
Мы поняли, что для устойчивого развития платформы нужно срочно искать альтернативу: переходить на стек, которым мы можем управлять сами. При этом важно было сохранить команду: десятки разработчиков и аналитиков уже работали с существующей моделью. Новому решению следовало быть удобным для аналитиков, прозрачным для бизнеса и гибким для инженеров.
В этой статье рассказываем о том, как мы перешли с проприетарных ETL-инструментов на open-source на базе dbt, какие проблемы решали по ходу внедрения, и как построили экосистему вокруг dbt для автоматизации рутинных задач.
Читать: https://habr.com/ru/companies/gazprombank/articles/947124/
#ru
@big_data_analysis | Другие наши каналы
👍1
Spark Connect. А нужны ли перемены?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.
Читать: https://habr.com/ru/companies/arenadata/articles/921246/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.
Читать: https://habr.com/ru/companies/arenadata/articles/921246/
#ru
@big_data_analysis | Другие наши каналы
DOOH и RTB: как Russ развивает программатические закупки в наружной рекламе
Привет, Хабр! С вами команда Russtech. Сегодня мы хотим рассказать о работе Russ Programmatic, нашего подразделения, разработавшего систему продажи рекламного инвентаря с помощью аукционов в реальном времени. Программатик в DOOH имеет ряд отличий от традиционного digital-программатика. В этой статье мы обсудим эти ключевые особенности и поделимся нашим опытом внедрения программатических продаж.
Читать: https://habr.com/ru/companies/wildberries/articles/947376/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! С вами команда Russtech. Сегодня мы хотим рассказать о работе Russ Programmatic, нашего подразделения, разработавшего систему продажи рекламного инвентаря с помощью аукционов в реальном времени. Программатик в DOOH имеет ряд отличий от традиционного digital-программатика. В этой статье мы обсудим эти ключевые особенности и поделимся нашим опытом внедрения программатических продаж.
Читать: https://habr.com/ru/companies/wildberries/articles/947376/
#ru
@big_data_analysis | Другие наши каналы
Искусственный интеллект помогает энергокомпаниям анализировать погодные тенденции и точно прогнозировать потребление. Благодаря решениям OAC удаётся оптимизировать производство и обеспечить стабильное энергоснабжение. Узнайте, как это работает.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
AI-Powered Analytics for Utilities: From Forecasting to Smarter Energy Decisions
Discover how OAC’s AI-powered analytics enables utilities to analyze weather-driven consumption trends, forecast demand with confidence, optimize generation, and ensure reliable, efficient energy delivery.
Динамический выбор метрик в Oracle Analytics: как параметры помогают сравнивать данные по годам и кварталам. Такой подход повышает гибкость и информативность дашбордов, делая их удобными для аналитиков и разработчиков. Узнайте подробнее в статье.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Building Parameter-Driven Time Comparisons in Oracle Analytics
AI меняет бизнес: как технологии трансформируют компании. На Oracle AI World 2025 лидеры обсудят, как аналитика на базе искусственного интеллекта открывает новые горизонты для цифровой трансформации и развития бизнеса.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Discover the Impact of AI-Powered Analytics at Oracle AI World 2025
AI is reshaping the way organizations run and compete. At Oracle AI World 2025, enterprise leaders and innovators will come together to explore how AI-powered analytics are driving digital transformation and unlocking new opportunities for growth.
Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике
Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML.
В статье сегодня мы поговорим не о выборе алгоритмов, а о том, как автоматизировать весь процесс ML — от данных до деплоя и мониторинга, сократив время на подготовку с дней до часов. Мы разберем это на примере классической задачи с Titanic, реализованной на нашем фреймворке.
Приятного прочтения!
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/948584/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML.
В статье сегодня мы поговорим не о выборе алгоритмов, а о том, как автоматизировать весь процесс ML — от данных до деплоя и мониторинга, сократив время на подготовку с дней до часов. Мы разберем это на примере классической задачи с Titanic, реализованной на нашем фреймворке.
Приятного прочтения!
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/948584/
#ru
@big_data_analysis | Другие наши каналы
Селективная генерализация: улучшение возможностей при сохранении alignment
TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.
Читать: https://habr.com/ru/articles/945838/
#ru
@big_data_analysis | Другие наши каналы
TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.
Читать: https://habr.com/ru/articles/945838/
#ru
@big_data_analysis | Другие наши каналы
Особенности REMOVEFILTERS в DAX из Power BI
Привет, Хабр! Одной из важных функций-модификаторов в DAX является
Читать: https://habr.com/ru/articles/948294/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Одной из важных функций-модификаторов в DAX является
REMOVEFILTERS
, он позволяет, например, убрать фильтр для расчета знаменателя в доле. Однако логика REMOVEFILTERS
для столбцов может выглядеть неочевидной, например, REMOVEFILTERS
только для одного поля, по которому есть условие в FILTER
, не влияет на результат DAX запроса. Так, REMOVEFILTERS(customer[customer_id])
не влияет на FILTER
в SUMMARIZECOLUMNS
вида FILTER(customer, customer[customer_id] > 2)
и для сброса фильтра нужен REMOVEFILTERS(customer)
по всей таблице. В связи с этим удобно представить принципы работы REMOVEFILTERS
более формально, например, в виде ER диаграммы с подписанными связями. Для построения ER диаграммы был выбран Mermaid и генерация кода диаграммы реализована на C#. Интересующимся особенностями REMOVEFILTERS
— добро пожаловать под кат :)Читать: https://habr.com/ru/articles/948294/
#ru
@big_data_analysis | Другие наши каналы
Анализируем тренд: почему игрушки Фиксики Digital Collectible неожиданно стали объектом инвестиций?
От цифрового искусства к физическим активам: как NFT меняют парадигму коллекционирования и куда движется рынок.
Внезапный ажиотаж вокруг seemingly обычных детских игрушек — персонажей мультфильма «Фиксики» Digital Collectible — на маркетплейсе Ozon заставляет задуматься: мы наблюдаем спонтанный всплеск ностальгии или первый признак формирования принципиально нового инвестиционного тренда?
Всё указывает на последнее, и вот почему.
Читать: https://habr.com/ru/articles/949020/
#ru
@big_data_analysis | Другие наши каналы
От цифрового искусства к физическим активам: как NFT меняют парадигму коллекционирования и куда движется рынок.
Внезапный ажиотаж вокруг seemingly обычных детских игрушек — персонажей мультфильма «Фиксики» Digital Collectible — на маркетплейсе Ozon заставляет задуматься: мы наблюдаем спонтанный всплеск ностальгии или первый признак формирования принципиально нового инвестиционного тренда?
Всё указывает на последнее, и вот почему.
Читать: https://habr.com/ru/articles/949020/
#ru
@big_data_analysis | Другие наши каналы
End-to-end вместо трёх костылей: как мы обошли OCR и выиграли по скорости и точности
Ребята, вы когда-нибудь сталкивались с тем, что ваш шикарный AI-пайплайн для обработки документов спотыкается на самом простом — на чтении текста с картинки? OCR выдает абракадабру, цифры перепутаны, а дальше по цепочке летит вся ваша безупречная логика. Знакомо? У нас была точно такая же боль.
Читать: https://habr.com/ru/companies/datafeel/articles/948380/
#ru
@big_data_analysis | Другие наши каналы
Ребята, вы когда-нибудь сталкивались с тем, что ваш шикарный AI-пайплайн для обработки документов спотыкается на самом простом — на чтении текста с картинки? OCR выдает абракадабру, цифры перепутаны, а дальше по цепочке летит вся ваша безупречная логика. Знакомо? У нас была точно такая же боль.
Читать: https://habr.com/ru/companies/datafeel/articles/948380/
#ru
@big_data_analysis | Другие наши каналы
Практика alignment: данные, RLHF и UX как конкурентное преимущество
Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.
Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.
Читать: https://habr.com/ru/articles/948412/
#ru
@big_data_analysis | Другие наши каналы
Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.
Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.
Читать: https://habr.com/ru/articles/948412/
#ru
@big_data_analysis | Другие наши каналы
Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика
Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.
Читать: https://habr.com/ru/articles/949338/
#ru
@big_data_analysis | Другие наши каналы
Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.
Читать: https://habr.com/ru/articles/949338/
#ru
@big_data_analysis | Другие наши каналы
ИИ-психопрофиль аудитории: как анализировать подписчиков в соцсетях с помощью GPT
Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.
Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.
Читать: https://habr.com/ru/articles/949416/
#ru
@big_data_analysis | Другие наши каналы
Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.
Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.
Читать: https://habr.com/ru/articles/949416/
#ru
@big_data_analysis | Другие наши каналы
Как мы наводим порядок в BI: опыт внедрения процесса ревью отчётов
В 2019 году центральная BI-команда нашей компании столкнулась с типичной задачей: как небольшой командой разработчиков обеспечить качественную аналитику для тысяч сотрудников в условиях быстро растущего бизнеса и высокой самостоятельности подразделений?
Мы сделали ставку на модель self-service BI: инструмент передали бизнес-пользователям, чтобы они могли сами строить отчёты. Идея «демократизации данных» поначалу казалась удачной. Но без чётких правил, стандартов и контроля всё быстро превратилось в BI-хаос: тысячи разрозненных отчётов, низкая производительность, противоречивые метрики и перегруженная инфраструктура на Premium P3. Пользователи жаловались, доверие к BI падало, а управлять этим потоком становилось всё сложнее.
В этой статье мы — Ринат Хабибрахманов, руководитель практики BI в Лемана Тех, и Лариса Фернандес, ведущий разработчик аналитических систем, — делимся опытом нашей команды. Расскажем, как мы шаг за шагом внедряли процесс ревью Power BI-отчётов, чтобы вернуть контроль, улучшить качество аналитики и восстановить доверие пользователей к BI-системе.
Ключевым шагом стало внедрение процесса ревью. Ниже подробно разберём, зачем он понадобился, какие цели мы ставили и как его организовали.
Читать: https://habr.com/ru/articles/948004/
#ru
@big_data_analysis | Другие наши каналы
В 2019 году центральная BI-команда нашей компании столкнулась с типичной задачей: как небольшой командой разработчиков обеспечить качественную аналитику для тысяч сотрудников в условиях быстро растущего бизнеса и высокой самостоятельности подразделений?
Мы сделали ставку на модель self-service BI: инструмент передали бизнес-пользователям, чтобы они могли сами строить отчёты. Идея «демократизации данных» поначалу казалась удачной. Но без чётких правил, стандартов и контроля всё быстро превратилось в BI-хаос: тысячи разрозненных отчётов, низкая производительность, противоречивые метрики и перегруженная инфраструктура на Premium P3. Пользователи жаловались, доверие к BI падало, а управлять этим потоком становилось всё сложнее.
В этой статье мы — Ринат Хабибрахманов, руководитель практики BI в Лемана Тех, и Лариса Фернандес, ведущий разработчик аналитических систем, — делимся опытом нашей команды. Расскажем, как мы шаг за шагом внедряли процесс ревью Power BI-отчётов, чтобы вернуть контроль, улучшить качество аналитики и восстановить доверие пользователей к BI-системе.
Ключевым шагом стало внедрение процесса ревью. Ниже подробно разберём, зачем он понадобился, какие цели мы ставили и как его организовали.
Читать: https://habr.com/ru/articles/948004/
#ru
@big_data_analysis | Другие наши каналы
MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM
Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.
Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно ы и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть актуальные задачи для пользователей.
Встречайте MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms.
Читать: https://habr.com/ru/companies/vk/articles/947892/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.
Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно ы и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть актуальные задачи для пользователей.
Встречайте MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms.
Читать: https://habr.com/ru/companies/vk/articles/947892/
#ru
@big_data_analysis | Другие наши каналы
Нейтральное сравнение StarRocks и Apache Doris
Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.
Читать: https://habr.com/ru/articles/950214/
#ru
@big_data_analysis | Другие наши каналы
Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.
Читать: https://habr.com/ru/articles/950214/
#ru
@big_data_analysis | Другие наши каналы
Лучшие фреймворки для машинного обучения в 2025 году
Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.
В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор.
Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.
Читать: https://habr.com/ru/companies/kryptonite/articles/950236/
#ru
@big_data_analysis | Другие наши каналы
Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.
В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор.
Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.
Читать: https://habr.com/ru/companies/kryptonite/articles/950236/
#ru
@big_data_analysis | Другие наши каналы
📊 Data Governance Meetup: точные данные для вашего бизнеса
Устали от хаоса в данных?
📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance.
В программе:
⚪️ демонстрации ИИ в управлении данными
⚪️ yправление справочниками, повышение качества данных, интеграция систем
⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB
Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс.
👉 Подробности и регистрация.
Устали от хаоса в данных?
📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance.
В программе:
⚪️ демонстрации ИИ в управлении данными
⚪️ yправление справочниками, повышение качества данных, интеграция систем
⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB
Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс.
👉 Подробности и регистрация.
👍1
Без тренировки, но с обучением: имплицитная динамика in-context learning
Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.
В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.
Читать: https://habr.com/ru/articles/949064/
#ru
@big_data_analysis | Другие наши каналы
Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.
В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.
Читать: https://habr.com/ru/articles/949064/
#ru
@big_data_analysis | Другие наши каналы
Создаем тест производительности для Oracle Analytics Cloud с помощью Apache JMeter. В статье подробно описан процесс подготовки и настройки тест-плана, который поможет оценить и улучшить работу аналитической платформы. Полезно для тех, кто работает с нагрузочным тестированием.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Deep Dive for Developing an Apache JMeter Performance Test Plan for Oracle Analytics Cloud
This post guides you in developing an Apache JMeter Performance Test Plan for Oracle Analytics Cloud.