Data Analysis / Big Data
2.82K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Garak: инструмент Red-Team для поиска уязвимостей в LLM

«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться.

Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории LLM Security AI Talent Hub и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/843644/

#ru

@big_data_analysis | Другие наши каналы
Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.


Читать: https://habr.com/ru/companies/cedrusdata/articles/843882/

#ru

@big_data_analysis | Другие наши каналы
Из лингвиста в дата-сайентисты: личный опыт и детальный трек

Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом.


Читать: https://habr.com/ru/companies/lanit/articles/842136/

#ru

@big_data_analysis | Другие наши каналы
2
Как создать проект по работе с данными: пошаговая инструкция

Статья предоставляет пошаговое руководство по созданию проекта обработки данных с нуля. Она охватывает все этапы — от установки необходимого ПО и настройки окружения до структурирования кода и проверки его качества. Узнайте, как выбрать инструменты для обработки данных и построить архитектуру данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Начало работы с Oracle Analytics и AI

Текст поста: Узнайте, как быстро освоить Oracle Analytics с поддержкой искусственного интеллекта. В статье описаны три простых шага для начала работы. Легко и доступно для пользователей любого уровня.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как сделать так, чтобы ваши открытые данные были никому не интересны

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией.

Единственный выход в подобных случаях — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными.


Читать: https://habr.com/ru/companies/magnus-tech/articles/842232/

#ru

@big_data_analysis | Другие наши каналы
Не потеряться в данных: оптимизируем аналитику с помощью DataHub

Как не потеряться в данных для аналитики?

Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно).

Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать.

Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности.

Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.


Читать: https://habr.com/ru/companies/sravni/articles/844016/

#ru

@big_data_analysis | Другие наши каналы
Pet-проекты и данные для Data-Engineer

При изучении дата-инжиниринга часто возникает вопрос: "откуда брать данные?"

В данной статье вы узнаете про крутые инструменты, которые позволят вам создавать свои pet-проекты c использованием разнообразных данных.


Читать: https://habr.com/ru/articles/841940/

#ru

@big_data_analysis | Другие наши каналы
Полезные Youtube-каналы

Сегодня хотим поделиться с вами подборкой Youtube-каналов по ИИ, машинному обучению и математике. Если у вас есть еще рекомендации, обязательно дополняйте пост в комментариях!

ИИ и машинное обучение


Читать: https://habr.com/ru/articles/844818/

#ru

@big_data_analysis | Другие наши каналы
Пример DAX с точки зрения реляционной алгебры

Привет, Хабр!

Существует множество инструментов для решения задач Business Intelligence, одним из удобных инструментов является функциональный язык DAX, позволяющий работать с различными СУБД и выполнять достаточно сложные аналитические расчеты.

Поскольку язык DAX в рамках Power BI способен работать со множеством различных СУБД (например Oracle, MS SQL, MySQL, PostgresQL, ClickHouse и т.д.), т.е. работает со множеством диалектов SQL, то в некотором смысле DAX является "надмножеством SQL" и приближается в этом смысле к реляционной алгебре. В данной статье приводится разбор типичного DAX для получения записи этого DAX в нотации реляционной алгебры. Интересующимся погружением в DAX и его реляционное представление - добро пожаловать :)


Читать: https://habr.com/ru/articles/845236/

#ru

@big_data_analysis | Другие наши каналы
Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:
* «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
* Способы передачи входных промтов в LLM
* Способы интерпретации/сбора ответов
* Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!


Читать: https://habr.com/ru/articles/844974/

#ru

@big_data_analysis | Другие наши каналы
Цифровые двойники: от истока к будущему

Не так давно термин «цифровой двойник» был передовой, меняющей парадигму, но лишь концепцией, которая обещала произвести революцию в отраслях, предоставив динамическое цифровое зеркало физических систем. Сегодня эта инновация вышла далеко за рамки своей первоначальной предпосылки. Она созрела и превратилась в тонкую экосистему.


Читать: https://habr.com/ru/companies/sberbank/articles/845350/

#ru

@big_data_analysis | Другие наши каналы
2
Быстрое развертывание Oracle Analytics Cloud

Текст поста: Узнайте, как легко и быстро развернуть две примера среды Oracle Analytics Cloud с помощью Oracle Cloud Shell и провайдера OCI Terraform. Подробное руководство поможет вам понять ключевые шаги и упростить процесс. Не пропустите!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Рекомендательные системы и реализация Content-based системы

Введение в рекомендательные системы: идеи, типы, метрики, преимущества и недостатки. Реализация content based системы для аниме

Читать: «Рекомендательные системы и реализация Content-based системы»

#ru

@big_data_analysis | Другие наши каналы
FineBI 6: Обработка данных для начинающих пользователей — 2

Команда Business Intelligence GlowByte приветствует всех читателей сегодняшнего гайда по обработке данных в FineBI 6 версии. Меня зовут Александр Ларин,  руководитель центра поддержки и обучения BI-решений в GlowByte, и в этой статье я поделюсь полезными функциями, которые облегчат вашу работу по подготовке данных для их последующего анализа.

Гайд включает в себя 5 уроков, которые помогут вам ближе познакомиться с инструментами подготовки данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам. Если после прочтения вы захотите разобраться со всеми особенностями платформы, закрепить базовые знания и прокачать навыки создания сложных визуализаций, приглашаю на наши курсы.


Читать: https://habr.com/ru/companies/glowbyte/articles/845622/

#ru

@big_data_analysis | Другие наши каналы
❤‍🔥1
Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.


Читать: https://habr.com/ru/articles/845510/

#ru

@big_data_analysis | Другие наши каналы
Как выбрать проект для портфолио по работе с данными?

Выбор проекта для портфолио — это ключевое решение для повышения ваших навыков и улучшения шансов на трудоустройство. В статье описаны шаги от исследования вакансий до визуализации данных, чтобы продемонстрировать вашу экспертизу. Изучите инструменты, найдите или создайте наборы данных, и представьте проект красиво и понятно.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Collection. Темная сторона Data Science

Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!


Читать: https://habr.com/ru/companies/oleg-bunin/articles/845686/

#ru

@big_data_analysis | Другие наши каналы
👍2
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).

Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.

Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.


Читать: https://habr.com/ru/articles/846296/

#ru

@big_data_analysis | Другие наши каналы
Что такое Big Data | Биг Дата?

Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.


Читать: https://habr.com/ru/articles/845536/

#ru

@big_data_analysis | Другие наши каналы
50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

Всем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.


Читать: https://habr.com/ru/companies/X5Tech/articles/846298/

#ru

@big_data_analysis | Другие наши каналы