Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Игра будущего: Oracle Foosball Frenzy

На Oracle CloudWorld 2024 был представлен AI-проект, демонстрирующий возможности облачных технологий Oracle. Система преобразует игру в настольный футбол в аналитические данные в реальном времени, показывая, как AI может интегрироваться в физические игры и другие индустрии.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍2
💡 Овладейте продвинутыми приемами SQL для анализа данных

Узнайте, как 25 советов помогут улучшить ваши навыки работы с SQL. Статья раскрывает использование функций QUALIFY, GENERATE_SERIES, и CUBE, упрощающих создание масштабируемых запросов. Ознакомьтесь с операциями JOIN для более эффективного управления и анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Разметка изображений: самый полный гайд

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.


Читать: https://habr.com/ru/companies/data_light/articles/852848/

#ru

@big_data_analysis | Другие наши каналы
Оценка LLM: метрики, фреймворки и лучшие практики

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Что такое оценка LLM?

Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами.

Зачем вам нужно оценивать LLM?

Все просто: чтобы убедиться, что модель соответствует задаче и ее требованиям. Оценка LLM гарантирует, что она понимает и точно реагирует, правильно обрабатывает различные типы информации и общается безопасным, понятным и эффективным способом. Оценка LLM позволяет нам точно настроить модель на основе реальной обратной связи, улучшая ее производительность и надежность. Проводя тщательные оценки, мы гарантируем, что LLM полностью может удовлетворять потребности своих пользователей, будь то ответы на вопросы, предоставление рекомендаций или создание контента.


Читать: https://habr.com/ru/articles/852046/

#ru

@big_data_analysis | Другие наши каналы
Что такое DWH?

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться


Читать: https://habr.com/ru/articles/852910/

#ru

@big_data_analysis | Другие наши каналы
Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события.

В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть.

Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job.

Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже.

Список моих статей про Flink:


Читать: https://habr.com/ru/companies/ru_mts/articles/853200/

#ru

@big_data_analysis | Другие наши каналы
Чем можно заняться в IT

IT – это не пузырь, который может лопнуть. Оно уже настолько плотно вошло в нашу жизнь, что повсюду, куда бы мы ни посмотрели, мы видим его следы, и это не изменится.

В этой статье вы узнаете, что такое IT и чем можно заняться в IT помимо программирования.


Читать: https://habr.com/ru/articles/852224/

#ru

@big_data_analysis | Другие наши каналы
Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке

Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?

Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable ML). В статье расскажу, как мы упростили себе работу и часть рутинных задач, число которых росло как снежный ком с ростом количества применяемых моделей.


Читать: https://habr.com/ru/companies/alfa/articles/852790/

#ru

@big_data_analysis | Другие наши каналы
Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.


Читать: https://habr.com/ru/companies/data_light/articles/853372/

#ru

@big_data_analysis | Другие наши каналы
Какую архитектуру конвейера данных следует использовать?

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.

Данные важны для любого приложения и нужны для разработки эффективных конвейеров для доставки и управления информацией. Как правило, конвейер данных создаётся, когда вам необходимо обрабатывать данные в течение их жизненного цикла. Конвейер данных может начинаться там, где данные генерируются и хранятся в любом формате. Конвейер данных может обеспечивать анализ данных, их использования для целей бизнеса, долговременного хранения, а также для тренировки моделей машинного обучения.

Читать: https://habr.com/ru/companies/piter/articles/853400/

#ru

@big_data_analysis | Другие наши каналы
👍2
Как мы сделали систему для спасения интернета от токсичности

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):


Читать: https://habr.com/ru/articles/853586/

#ru

@big_data_analysis | Другие наши каналы
«Да будет свет!», — подумали мы. И стал свет. Краткая история обучения нейросветодизайнера нейросветодизайну

Давным-давно, скажем, этим летом, нас посетила удачная мысль включить повсюду свет и озарить ночные города. Так родился проект по обучению нейросети сложному искусству светодизайна.

Разумеется, мы были не первыми, кто до этого додумался, но поскольку бум ИИ удачно наложился на развитие инфраструктуры и появление новых зданий в разных городах РФ (а еще осень, темно, холодно) – было решено взяться за дело. Светодизайн зданий – сложная область, которая удачно сочетает в себе архитектурное проектирование, инженерные достижения, дизайн и человеческий гений. В помощь последнему мы решили добавить искусственный интеллект. Оказалось, что после долгих тренировок он способен:


Читать: https://habr.com/ru/articles/853552/

#ru

@big_data_analysis | Другие наши каналы
Как оценить LLM модель

В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.


Читать: https://habr.com/ru/articles/853542/

#ru

@big_data_analysis | Другие наши каналы
Интеграция Oracle Data Flow с Oracle Analytics

Узнайте, как связать Oracle Cloud Infrastructure Data Flow SQL Endpoint с Oracle Analytics Cloud. Погрузитесь в процесс интеграции и откройте новые возможности для анализа данных, превращая сложные задачи в простые решения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍1
Гайд по трекингу экспериментов в ML

Многие привыкли, что в качестве результата эксперимента достаточно метрик и просто сохранения обученной модели, однако в современном мире машинного обучения трекинг экспериментов имеет ключевое значение для обеспечения воспроизводимости, надежности и эффективности. Давайте рассмотрим главные этапы проведения эксперимента и проблемы, которые могут возникнуть. Мы обсудим основы трекинга экспериментов в машинном обучении и исследуем, как вы можете упростить свой рабочий процесс с помощью правильных инструментов и практик. В конце я также поделюсь преимуществами одного из инструментов.


Читать: https://habr.com/ru/companies/cinimex/articles/838888/

#ru

@big_data_analysis | Другие наши каналы
Как мы внедрили CockroachDB на DBaaS в компанию классических СУБД

Привет! Меня зовут Полина Кудрявцева, я инженер DBA в Авито. В этой статье я расскажу о том, как мы внедрили CockroachDB на DBaaS в компанию классических СУБД, а также опишу его плюсы, минусы и особенности работы.


Читать: https://habr.com/ru/companies/avito/articles/854732/

#ru

@big_data_analysis | Другие наши каналы
Как управлять большими командами? 3 совета для менеджера

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.


Читать: https://habr.com/ru/companies/data_light/articles/854882/

#ru

@big_data_analysis | Другие наши каналы
Ужасный код: если бы злодеи хорроров стали программистами

Мы погрузились в мрачный мир фантазий и представили, какие языки программирования и роли могли бы выбрать самые известные злодеи хоррор-фильмов, если бы они ворвались в IT.

Читать: «Ужасный код: если бы злодеи хорроров стали программистами»

#ru

@big_data_analysis | Другие наши каналы
👍2
Работа с календарями в BI — с DAX и без него

Привет, Хабр! При работе с Business Intelligence и дашбордами практически в любой предметной области встречаются даты и календари, поэтому от выбора представления дат и их составных частей (день, месяц, квартал, полугодие, год и т.д.), ключей дат и таблицы с датами зависит производительность всех дашбордов. В этой статье я расскажу о том, как можно оптимизировать работу с датами в Visiology — с использованием DAX и без него. Интересно? Добро пожаловать под кат! :)


Читать: https://habr.com/ru/companies/visiology/articles/855178/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer DBT

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.


Читать: https://habr.com/ru/articles/854990/

#ru

@big_data_analysis | Другие наши каналы