Глубокое сравнение StarRocks и ClickHouse в задачах аналитики в реальном времени и соображения по выбору
Статья представляет техническое сравнение StarRocks и ClickHouse для real‑time аналитики. На идентичных AWS‑кластерах с набором ~1 ТБ (Parquet, >3 млрд строк) смоделированы параллельные нагрузки (k6) и непрерывный поток UPSERT из PostgreSQL через CDC. Оцениваются субсекундная Latency, согласованность обновлений, полнофункциональные JOIN и операционная простота (TCO). ClickHouse с Replacing/CollapsingMergeTree обеспечивает eventual consistency и нередко требует FINAL/внешних потоковых компонентов. StarRocks с Primary Key Model дает нативный UPSERT с мгновенной видимостью изменений и асинхронным Compaction. В бенчмарках StarRocks показал до ~40% преимущество в длинных запросах, лучший p99/QPS и стабильность (без HTTP 5xx). В контексте Lakehouse StarRocks сильнее за счет внешних таблиц и записи в Apache Iceberg. Рекомендации: ClickHouse — для append‑only сценариев; StarRocks — для real‑time аналитики с частыми обновлениями.
Читать: https://habr.com/ru/articles/967214/
#ru
@big_data_analysis | Другие наши каналы
Статья представляет техническое сравнение StarRocks и ClickHouse для real‑time аналитики. На идентичных AWS‑кластерах с набором ~1 ТБ (Parquet, >3 млрд строк) смоделированы параллельные нагрузки (k6) и непрерывный поток UPSERT из PostgreSQL через CDC. Оцениваются субсекундная Latency, согласованность обновлений, полнофункциональные JOIN и операционная простота (TCO). ClickHouse с Replacing/CollapsingMergeTree обеспечивает eventual consistency и нередко требует FINAL/внешних потоковых компонентов. StarRocks с Primary Key Model дает нативный UPSERT с мгновенной видимостью изменений и асинхронным Compaction. В бенчмарках StarRocks показал до ~40% преимущество в длинных запросах, лучший p99/QPS и стабильность (без HTTP 5xx). В контексте Lakehouse StarRocks сильнее за счет внешних таблиц и записи в Apache Iceberg. Рекомендации: ClickHouse — для append‑only сценариев; StarRocks — для real‑time аналитики с частыми обновлениями.
Читать: https://habr.com/ru/articles/967214/
#ru
@big_data_analysis | Другие наши каналы
Полное руководство по управлению привилегиями в StarRocks
Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.
Читать: https://habr.com/ru/articles/967608/
#ru
@big_data_analysis | Другие наши каналы
Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.
Читать: https://habr.com/ru/articles/967608/
#ru
@big_data_analysis | Другие наши каналы
❤🔥1👍1
Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z
В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.
Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.
Читать: https://habr.com/ru/articles/967736/
#ru
@big_data_analysis | Другие наши каналы
В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.
Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.
Читать: https://habr.com/ru/articles/967736/
#ru
@big_data_analysis | Другие наши каналы
Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном
Проблема "статического планирования" в Spark
Представим ситуацию: мы спланировали маршрут до точки назначения, посмотрели карту как быстрее добраться, даже учли факт дорожной загрузки, чтобы объехать пробки, но неожиданно на самом свободном участке образовался затор из-за аварии в правом ряду. В этот момент понимаем что лучше бы я ехал по навигатору и какая-нибудь “Анфиса” предупреждала меня о дорожной ситуации, чтобы в определенный момент я мог изменить траекторию движения. Именно так годами чувствовали себя разработчики Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.
Читать: https://habr.com/ru/companies/gnivc/articles/967656/
#ru
@big_data_analysis | Другие наши каналы
Проблема "статического планирования" в Spark
Представим ситуацию: мы спланировали маршрут до точки назначения, посмотрели карту как быстрее добраться, даже учли факт дорожной загрузки, чтобы объехать пробки, но неожиданно на самом свободном участке образовался затор из-за аварии в правом ряду. В этот момент понимаем что лучше бы я ехал по навигатору и какая-нибудь “Анфиса” предупреждала меня о дорожной ситуации, чтобы в определенный момент я мог изменить траекторию движения. Именно так годами чувствовали себя разработчики Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.
Читать: https://habr.com/ru/companies/gnivc/articles/967656/
#ru
@big_data_analysis | Другие наши каналы
👍1
Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно
Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.
Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.
Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.
Читать: https://habr.com/ru/companies/datafeel/articles/968376/
#ru
@big_data_analysis | Другие наши каналы
Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.
Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.
Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.
Читать: https://habr.com/ru/companies/datafeel/articles/968376/
#ru
@big_data_analysis | Другие наши каналы
Почему ChatGPT не знает ваших внутренних данных и как это исправить: простое объяснение RAG
Вы думаете, ChatGPT стал идеальным? Может «загуглить» любой факт, анализировать документы, даже писать код? Попробуйте спросить его про внутренние API вашей компании, корпоративные гайдлайны или правила код-ревью. Он молчит — и не зря. Ведь около 80 % рабочего времени программист тратит на поиск информации во внутренних системах.
Сегодня расскажу о технологии, которая решает эту проблему — Retrieval Augmented Generation (RAG).
Читать: https://habr.com/ru/articles/968676/
#ru
@big_data_analysis | Другие наши каналы
Вы думаете, ChatGPT стал идеальным? Может «загуглить» любой факт, анализировать документы, даже писать код? Попробуйте спросить его про внутренние API вашей компании, корпоративные гайдлайны или правила код-ревью. Он молчит — и не зря. Ведь около 80 % рабочего времени программист тратит на поиск информации во внутренних системах.
Сегодня расскажу о технологии, которая решает эту проблему — Retrieval Augmented Generation (RAG).
Читать: https://habr.com/ru/articles/968676/
#ru
@big_data_analysis | Другие наши каналы
Atomic insert in Clickhouse
В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.
Читать: https://habr.com/ru/articles/969282/
#ru
@big_data_analysis | Другие наши каналы
В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.
Читать: https://habr.com/ru/articles/969282/
#ru
@big_data_analysis | Другие наши каналы
👍2
LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.
Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.
Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.
Читать: https://habr.com/ru/articles/969358/
#ru
@big_data_analysis | Другие наши каналы
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.
Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.
Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.
Читать: https://habr.com/ru/articles/969358/
#ru
@big_data_analysis | Другие наши каналы
Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора
Привет, Хабр!
В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты.
Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.
Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.
Читать: https://habr.com/ru/articles/969410/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты.
Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.
Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.
Читать: https://habr.com/ru/articles/969410/
#ru
@big_data_analysis | Другие наши каналы
Особенности SUMMARIZE в Power BI
Привет, Хабр! Некоторые функции DAX из Power BI могут выглядеть интуитивно понятными, но при детальном рассмотрении ведут себя не совсем ожидаемо. Например,
Читать: https://habr.com/ru/articles/969238/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Некоторые функции DAX из Power BI могут выглядеть интуитивно понятными, но при детальном рассмотрении ведут себя не совсем ожидаемо. Например,
SUMMARIZE не агрегирует «сразу», в месте использования, но SUMMARIZE реализуется через «виртуальную», «отложенную» агрегацию за счет сохранения состояния. Для суммы, т.е. SUM, промежуточное состояние и есть сумма и особенности SUMMARIZE не проявляются, но для любой другой агрегации (например, среднего AVERAGE) становится понятно, что в Power BI уже учитывается так называемое состояние для корректного расчета SUMMARIZE, т.е. данные по всем записям сохраняются в состоянии. В других СУБД единственный аналог — только State и Merge комбинаторы из ClickHouse, поэтому для иллюстрации состояний будет рассмотрен пример из ClickHouse, соответствующий DAX с SUMMARIZE и AVERAGE. Интересующимся особенностями SUMMARIZE в Power BI — добро пожаловать под кат :)Читать: https://habr.com/ru/articles/969238/
#ru
@big_data_analysis | Другие наши каналы
Властелин алгоритмов: сезон «ИИ в разработке» на Хабре
Он пришёл на пятый день с востока! Сезон «ИИ в разработке» на Хабре.
Искусственный интеллект становится соисполнителем в современной разработке, он берет на себя анализ кода, стратегическое планирование и другие задачи. И в этом сезоне мы предлагаем вам поделиться историями о том, как искусственный интеллект помогает решать реальные задачи, разгружать рутину и ускорять процессы в работе и жизни.
Под катом — условия, призы и детали участия.
Читать: https://habr.com/ru/specials/969726/
#ru
@big_data_analysis | Другие наши каналы
Он пришёл на пятый день с востока! Сезон «ИИ в разработке» на Хабре.
Искусственный интеллект становится соисполнителем в современной разработке, он берет на себя анализ кода, стратегическое планирование и другие задачи. И в этом сезоне мы предлагаем вам поделиться историями о том, как искусственный интеллект помогает решать реальные задачи, разгружать рутину и ускорять процессы в работе и жизни.
Под катом — условия, призы и детали участия.
Читать: https://habr.com/ru/specials/969726/
#ru
@big_data_analysis | Другие наши каналы
От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello
Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.
Читать: https://habr.com/ru/articles/970388/
#ru
@big_data_analysis | Другие наши каналы
Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.
Читать: https://habr.com/ru/articles/970388/
#ru
@big_data_analysis | Другие наши каналы
VK публикует датасет коротких видео для рекомендаций
Сейчас в открытом доступе мало крупных датасетов сервисов коротких видео, но это уникальный формат для рекомендательных алгоритмов. В отличие от музыки или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя реакцию. Даже если он не оставит лайк, досмотр видео до конца или пропуск уже считаются обратной связью. Именно поэтому мы выложили в открытый доступ датасет VK-LSVD. С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы.
Как работать с VK-LSVD
Читать: https://habr.com/ru/companies/vk/articles/970350/
#ru
@big_data_analysis | Другие наши каналы
Сейчас в открытом доступе мало крупных датасетов сервисов коротких видео, но это уникальный формат для рекомендательных алгоритмов. В отличие от музыки или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя реакцию. Даже если он не оставит лайк, досмотр видео до конца или пропуск уже считаются обратной связью. Именно поэтому мы выложили в открытый доступ датасет VK-LSVD. С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы.
Как работать с VK-LSVD
Читать: https://habr.com/ru/companies/vk/articles/970350/
#ru
@big_data_analysis | Другие наши каналы
6 лайфхаков при внедрении СУБД: учимся на чужих граблях
Привет, Хабр! Меня зовут Кирилл Тарасов, я — инженер данных в K2Tех. Наша команда Big Data & Bi работает с 2006 года, мы активно занимаемся Greenplum, Arenadata Hadoop/Streaming и внедряем собственные наработки, такие как ELT Framework. Также с 2012 года мы создаём аналитические системы и хранилища данных, и за это время моя команда столкнулась с самыми разными ситуациями, которые вызывали различные проблемы для реальной продуктивной эксплуатации СУБД. Некоторые из них были связаны с настройками баз данных, другие — с компонентами защиты, а третьи были настолько необычными, что их причиной оказалось исключительно странное и редкое поведение бизнес-логики, с которым разработчики хранилищ данных почти не сталкиваются. В этой статье вы найдете шесть кейсов, которые могут встретиться на любом проекте. Они помогут избежать попадания «ложки дегтя» в ваше хранилище.
Читать: https://habr.com/ru/companies/k2tech/articles/970874/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Кирилл Тарасов, я — инженер данных в K2Tех. Наша команда Big Data & Bi работает с 2006 года, мы активно занимаемся Greenplum, Arenadata Hadoop/Streaming и внедряем собственные наработки, такие как ELT Framework. Также с 2012 года мы создаём аналитические системы и хранилища данных, и за это время моя команда столкнулась с самыми разными ситуациями, которые вызывали различные проблемы для реальной продуктивной эксплуатации СУБД. Некоторые из них были связаны с настройками баз данных, другие — с компонентами защиты, а третьи были настолько необычными, что их причиной оказалось исключительно странное и редкое поведение бизнес-логики, с которым разработчики хранилищ данных почти не сталкиваются. В этой статье вы найдете шесть кейсов, которые могут встретиться на любом проекте. Они помогут избежать попадания «ложки дегтя» в ваше хранилище.
Читать: https://habr.com/ru/companies/k2tech/articles/970874/
#ru
@big_data_analysis | Другие наши каналы
Понимание и практические эксперименты с Tablet в StarRocks
внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.
Читать: https://habr.com/ru/articles/970880/
#ru
@big_data_analysis | Другие наши каналы
внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.
Читать: https://habr.com/ru/articles/970880/
#ru
@big_data_analysis | Другие наши каналы
Опросили 100 жертв мошенников. Записали реальные разговоры и их методы
Мы опросили 100 жертв и изучили их методы обмана.
Нам удалось пообщаться с реальными мошенниками и заглянуть внутрь этих процессов.
Сначала обсудим основные этапы обмана, а потом изучим схемы с реальными диалогами и примерами.
Читать: https://habr.com/ru/companies/femida_search/articles/970892/
#ru
@big_data_analysis | Другие наши каналы
Мы опросили 100 жертв и изучили их методы обмана.
Нам удалось пообщаться с реальными мошенниками и заглянуть внутрь этих процессов.
Сначала обсудим основные этапы обмана, а потом изучим схемы с реальными диалогами и примерами.
Читать: https://habr.com/ru/companies/femida_search/articles/970892/
#ru
@big_data_analysis | Другие наши каналы
Как мы помирили маркетинг и продажи с помощью BI-аналитики
Топ-менеджеры юрфирмы по банкроству физлиц тратили несколько часов в день на подготовку к еженедельной планёрке. Например, руководитель колл-центра делал кучу выгрузок в amoCRM, открывал каждую сделку вручную, копировал и вставлял её в Excel.
На еженедельных планёрках собирались сразу несколько отделов — маркетинг, колл-центр, продажи и отдел качества. Каждый отдел готовил отчёт вручную, опираясь на свои источники данных. В итоге на обсуждении цифры не сходились.
Маркетинг утверждал: «Мы привели лиды, а вы просто не умеете продавать». Продажи отвечали: «Ваши лиды — говно».
В статье я расскажу, как мы помогли собственнику разобраться, кто прав, кто виноват, и что делать, чтобы достичь плановых показателей.
Читать: https://habr.com/ru/articles/971290/
#ru
@big_data_analysis | Другие наши каналы
Топ-менеджеры юрфирмы по банкроству физлиц тратили несколько часов в день на подготовку к еженедельной планёрке. Например, руководитель колл-центра делал кучу выгрузок в amoCRM, открывал каждую сделку вручную, копировал и вставлял её в Excel.
На еженедельных планёрках собирались сразу несколько отделов — маркетинг, колл-центр, продажи и отдел качества. Каждый отдел готовил отчёт вручную, опираясь на свои источники данных. В итоге на обсуждении цифры не сходились.
Маркетинг утверждал: «Мы привели лиды, а вы просто не умеете продавать». Продажи отвечали: «Ваши лиды — говно».
В статье я расскажу, как мы помогли собственнику разобраться, кто прав, кто виноват, и что делать, чтобы достичь плановых показателей.
Читать: https://habr.com/ru/articles/971290/
#ru
@big_data_analysis | Другие наши каналы
Qwen3Guard: следующий шаг в модерации и контроле контента
Всем привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в лаборатории AI R&D в red_mad_robot. В мои задачи входит проверка гипотез и развитие наших продуктов. Однако недостаточно просто улучшать продукты, необходимо также чтобы они работали устойчиво и безопасно.
Ранее я рассказывал разработку идеального контент-фильтра на базе Guardrails. Но время не стоит на месте: появляются новые модели и новые практики их применения. Этому и будет посвящён наш сегодняшний разговор.
Читать: https://habr.com/ru/companies/redmadrobot/articles/971388/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в лаборатории AI R&D в red_mad_robot. В мои задачи входит проверка гипотез и развитие наших продуктов. Однако недостаточно просто улучшать продукты, необходимо также чтобы они работали устойчиво и безопасно.
Ранее я рассказывал разработку идеального контент-фильтра на базе Guardrails. Но время не стоит на месте: появляются новые модели и новые практики их применения. Этому и будет посвящён наш сегодняшний разговор.
Читать: https://habr.com/ru/companies/redmadrobot/articles/971388/
#ru
@big_data_analysis | Другие наши каналы
SQL vs NoSQL: реальный тест нагрузки на 1 млн запросов в минуту
В мире разработки баз данных часто возникает вечный спор: SQL или NoSQL? Теоретические статьи и маркетинговые блоги пестрят громкими обещаниями, но реальных цифр мало. В этой статье я делюсь реальным экспериментом, который мы провели в продакшене, чтобы проверить, как разные подходы справляются с нагрузкой 1 миллион запросов в минуту.
Читать: https://habr.com/ru/articles/971652/
#ru
@big_data_analysis | Другие наши каналы
В мире разработки баз данных часто возникает вечный спор: SQL или NoSQL? Теоретические статьи и маркетинговые блоги пестрят громкими обещаниями, но реальных цифр мало. В этой статье я делюсь реальным экспериментом, который мы провели в продакшене, чтобы проверить, как разные подходы справляются с нагрузкой 1 миллион запросов в минуту.
Читать: https://habr.com/ru/articles/971652/
#ru
@big_data_analysis | Другие наши каналы
Сравнительный анализ 18 LLM моделей: конец монополии?
🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025?
Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов.
Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude.
MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.
Читать: https://habr.com/ru/articles/971864/
#ru
@big_data_analysis | Другие наши каналы
🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025?
Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов.
Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude.
MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.
Читать: https://habr.com/ru/articles/971864/
#ru
@big_data_analysis | Другие наши каналы