Data Analysis / Big Data
2.83K subscribers
567 photos
4 videos
2 files
2.85K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

Разрабатывая AI-консультантов и ассистентов на базе RAG-архитектуры, работающих с корпоративными базами знаний на русском языке, мы столкнулись с вопросом: какие открытые эмбеддинг-модели дают лучший баланс качества семантического поиска на русском и скорости работы. Особенно это актуально, когда запросы и документы русскоязычные, но внутри часто попадаются фрагменты кода/SQL и англоязычной терминологии.

Мы прогнали 9 open-source эмбеддинг-моделей через несколько тестов, включающих проверки:


Читать: https://habr.com/ru/articles/961972/

#ru

@big_data_analysis | Другие наши каналы
Преодолевай нежно: проверенный метод обхода сопротивления при внедрении BI

По данным Gartner, до 70-80% BI-инициатив не достигают поставленных целей, доля активных пользователей не превышает 30-40% количества лицензий, а аналитики тратят половину своего времени не на инсайты, а на рутину. И главная причина этого фиаско кроется не в недостаточной производительности серверов, элегантности дашбордов и даже не в качестве данных. Проекты буксуют, а инвестиции не окупаются из-за людей: их привычек, страхов, устоявшихся ритуалов принятия решений и, как следствие, активного или пассивного сопротивления новым инструментам. В этой статье я расскажу о новом подходе, который позволяет системно подойти к вопросу работы с сопротивлением для CIO, CDO, руководители бизнес-функций, продакт-менеджеров BI и лидеров аналитики. В этой статье мы начнем знакомиться с системным, человекоцентричным подходом к преодолению сопротивления, который уже был неоднократно опробован на практике.


Читать: https://habr.com/ru/companies/visiology/articles/962024/

#ru

@big_data_analysis | Другие наши каналы
Data Quality в масштабе Big Data: как мы построили систему контроля качества данных в Hadoop

Качество данных — это не просто вопрос наличия значений в столбцах таблиц. Это вопрос доверия к данным в целом. Мы можем создавать сложные системы отчётности, но если на каком-то этапе ETL в данных возникают пропуски, дубликаты или они не соответствуют ожиданиям, вся система теряет доверие потребителей. В результате приходится тратить много времени на поиск и устранение причин таких проблем.


Читать: https://habr.com/ru/companies/ozontech/articles/962174/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как понять структуру зарплат: ключевые компоненты
В статье объясняют, почему частота выплат, фактор аннуализации, размеры окладов и диапазоны ставок по грейдам формируют основу компенсаций. Анализ этих элементов помогает оценить сроки и структуру выплат и общие затраты на персонал.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Биржи данных как движок экономики данных

Взгляд с высоты птичьего полета

Дисклеймер: несмотря на облегченный стиль, это не научпоп, это описание реальной исследовательской работы, ее мотивировок и подходов, которые часто остаются за кадром.

Этой публикацией мы начинаем серию статей, в которой хотим изложить наше видение пути, по которому сейчас идет развитие экономики данных, и возможных подходов к его рационализации. В первой статье рассматривается понятие биржи данных, которое мы считаем важным механизмом и двигателем развития экономики данных. Анализируется опыт текущих проектов по созданию платформ для обмена данными. Намечаются направления дальнейшего обсуждения.

Рискуя прослыть занудой, хочу напомнить, что выражение «экономика данных», относительно недавно введенное в оборот скорее как мем, чем как строгое научное понятие, обозначает новый этап развития мировой экономики, следующий после аграрной экономики, промышленной экономики, постиндустриальной (сервисной) экономики, информационной экономики. И вот, настала очередь экономики данных. Также полезно будет держать в уме описание смены технологических переделов, которые характеризуются как революции. Все они называются промышленными революциями, только после каждой из них само понятие промышленности (индустрии) кардинально меняется. По этой шкале мы переживаем четвертую промышленную революцию, если все еще верить Клаусу Швабу, председателю Всемирного экономического форума в Давосе, который, после того, как прослыл изрядным женолюбом, покинул пост после полувека правления.
довольно нудную аналитику...

Читать: https://habr.com/ru/companies/idx/articles/962598/

#ru

@big_data_analysis | Другие наши каналы
GDPval: измерение производительности AI-моделей на реальных задачах

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPval, потому что она вдохновлена концепцией валового внутреннего продукта (ВВП, англ. GDP) как ключевого экономического индикатора, а набор задач основан на типичных ролях в индустриях, которые вносят наибольший вклад в ВВП.

Люди часто рассуждают о масштабном влиянии AI на общество, но самый наглядный способ понять каков его потенциал, это посмотреть на то, что модели уже умеют делать на практике. История показывает, что крупным технологиям, от интернета до смартфонов, требовалось более десяти лет, чтобы пройти путь от изобретения до массового внедрения. Такие оценки, как GDPval, помогают приземлить разговоры о будущем ИИ на факты, а не на догадки, и дают возможность отслеживать прогресс моделей во времени.


Читать: https://habr.com/ru/articles/962702/

#ru

@big_data_analysis | Другие наши каналы
Тестирование AI-систем и роль MCP-сервера: теория и практика глазами QA

MCP — это язык, на котором AI учится общаться с инструментами. Но если дать ему слишком много «слов», получится хаос. В статье можно узнать, почему MCP нужно курировать, где начинаются риски безопасности и как этот протокол помогает сделать взаимодействие с AI осмысленным и надёжным.
Почему MCP важен ->

Читать: https://habr.com/ru/articles/963012/

#ru

@big_data_analysis | Другие наши каналы
Маршрутизация LLM: оптимизация путей обработки языка

В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM) стали мощными инструментами, способными понимать и генерировать текст, близкий к человеческому. По мере роста их сложности и масштаба критичной становится эффективная организация путей обработки. Маршрутизация LLM — это стратегическое распределение и оптимизация вычислительных ресурсов внутри таких систем. По сути, это выбор того, каким путём проходит входной текст через различные компоненты/ветки, чтобы получить максимально точный и релевантный результат. Умно направляя промпты и балансируя нагрузку, маршрутизация повышает эффективность, отзывчивость и общую производительность языковых моделей.


Читать: https://habr.com/ru/articles/963700/

#ru

@big_data_analysis | Другие наши каналы
Чипсы вместо поиска: рекомендации пользователям, когда о них ничего не известно

На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.


Читать: https://habr.com/ru/articles/964048/

#ru

@big_data_analysis | Другие наши каналы
Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.


Читать: https://habr.com/ru/companies/datasapience/articles/964052/

#ru

@big_data_analysis | Другие наши каналы
Яндекс Дзен или как он вдохнул новую жизнь в ВК

В 2022 году Дзен стал двигаться вместе с ВК, но что это означало под капотом?
Разберём внутрянку технологий рекомендаций Дзена и текущих продуктов ВК по докладам Дмитрия Погорелова до 2024 и самого свежего 2025 с PML.

Узнаем самые первые архитектуры Дзена, что начали делать с увеличением нагрузки и хотелок МЛщиков. Как пришлось выкручиваться, когда столкнулись с объемами ВК.

Спойлер: нам пригодится шардирование


Читать: https://habr.com/ru/articles/964384/

#ru

@big_data_analysis | Другие наши каналы
AI-драгдизайн: первая молекула прошла Фазу II

AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию


Читать: https://habr.com/ru/articles/964554/

#ru

@big_data_analysis | Другие наши каналы
Не только трансформеры: за пределами стандартных архитектур LLM

Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.

Каждая архитектура достаточно детально и глубоко разобрана, поэтому если вы интересуетесь LLMками, то будет очень интересно.


Читать: https://habr.com/ru/articles/964658/

#ru

@big_data_analysis | Другие наши каналы
Как работает цензура на государственном уровне? Разбираем на примере слитого китайского фаерволла. Часть 1

Мы скачали 500 ГБ утечку из Великого Китайского Файрвола чтобы вам не пришлось и решили их изучить. Разбираемся, как он работает, кого обслуживает и как его обходят.


Читать: https://habr.com/ru/companies/femida_search/articles/964664/

#ru

@big_data_analysis | Другие наши каналы
Что такое маршрутизатор LLM?

Большие языковые модели (LLM) стали основой современных ИИ-продуктов, обеспечивая работу всего - от чат-ботов и виртуальных ассистентов до исследовательских инструментов и корпоративных решений. Но LLM различаются по сильным сторонам, ограничениям и стоимости: одни лучше в рассуждениях, другие - в креативе, коде или работе со структурированными запросами. Здесь и нужен маршрутизатор LLM.

Маршрутизатор LLM работает как «умный диспетчер трафика»: он автоматически направляет промпты в наиболее подходящую модель под конкретную задачу. Вместо одной универсальной модели бизнес и разработчики повышают точность, скорость и снижают затраты, маршрутизируя запросы в реальном времени. По мере роста применения ИИ маршрутизация LLM становится обязательным слоем для масштабируемых, надёжных и эффективных систем.


Читать: https://habr.com/ru/articles/964832/

#ru

@big_data_analysis | Другие наши каналы
Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает.
Узнать про Substrait

Читать: https://habr.com/ru/companies/cedrusdata/articles/964800/

#ru

@big_data_analysis | Другие наши каналы
Как мы починили процессы в ML-команде и сократили T2M на 20%

Привет, Хабр! Меня зовут Василий Сизов. По образованию я инженер-конструктор, а сейчас работаю тимлидом в ВТБ и занимаюсь машинным обучением в CRM и проектами с LLM.

В какой-то момент мне доверили кросс-функциональную команду — и тут пришлось разбираться не только в моделях, но и в процессах, которые обеспечивают их жизнеспособность. В этой статье расскажу, как мы пересобрали эти процессы и сократили Time to Market на 20%. Возможно, вы узнаете в этих историях свои задачи и вызовы – и найдете идеи, которые помогут их решить.


Читать: https://habr.com/ru/companies/vtb/articles/964954/

#ru

@big_data_analysis | Другие наши каналы
Что лучше — код или drag-and-drop в BI? Дайте и то, и другое

В последние годы анализ данных прошел путь от диаграмм в Excel до сложных интерактивных дашбордов, которые помогают принимать взвешенные решения. Одновременно с этим сформировалось устойчивое представление о дашборде как о наборе диаграмм, таблиц и фильтров, собранных в визуальном редакторе методом drag-and-drop. Этот подход действительно сделал аналитику доступной: он быстрый, понятный и не требует знаний в программировании.

Но! В нашей работе все чаще появляются нетривиальные задачи, поэтому помимо Self-Service мы, команда интерактивной аналитики Инновационного центра «Безопасный транспорт», находим новые способы реализации интересных проектов. В этой статье мы хотим поговорить о том, какую пользу приносит разработка в BI.


Читать: https://habr.com/ru/companies/visiology/articles/965324/

#ru

@big_data_analysis | Другие наши каналы
This media is not supported in your browser
VIEW IN TELEGRAM
Бро, ты можешь тут реализоваться и т.д.

Став частью ОТП Банка, именно ты сделаешь сильнее всю команду! Расти, учись и пробуй новое — это твой шанс создать что-то по-настоящему крутое.

Присоединяйся к ребятам и делись роликом с теми, кто тоже готов к переменам 🚀
3D-карта вместо инстинктов: как робот учится ползать и прыгать

В Гонконге разработали технологию для передвижения четвероногих роботов. Теперь они почти как настоящие животные способны автономно преодолевать экстремально сложные препятствия. Роботы находят обходные пути там, где кажется, что пройти невозможно. Как это стало возможно и какие возможности открывает новая технология?


Читать: https://habr.com/ru/companies/cloud4y/articles/965758/

#ru

@big_data_analysis | Другие наши каналы