Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как AI помогает побороть монополию в спортивной рекламе и при чем тут GPU и выделенные серверы

Спортивные соревнования сегодня переполнены рекламой — от роликов на экранах до статичных логотипов компаний на рекламных щитах стадионов. Эфир охватывает множество стран, в которых представлены различные бренды и действуют разные законы о рекламе. Благодаря прорыву в развитии ИИ и AR-технологий появляется возможность замены информации на поле под каждую аудиторию, причем непосредственно во время трансляции матча.

Реклама на спортивных аренах изначально была статичной и предназначалась для людей, посещающих конкретное мероприятие в определенном городе. Позже появились LED-экраны, которые демонстрировали сменяющие друг друга рекламные ролики. Следующий шаг — в ролики на экранах начали вставлять на долю секунды «зеленый фон», с помощью которого ИИ определял пространство и подставлял уникальный текст.

Сейчас заменить можно что угодно на что угодно. Сложность заключается в том, чтобы замена выполнялась незаметно и реалистично. Крупнейшие игроки этого рынка применяют специальные камеры. По фотографиям можно прийти к выводу о наличии специализированных датчиков, считывающих информацию о позиционировании и юстировке. То есть у популярных решений все еще есть хардверные «костыли».

Все это требует огромных вычислительных мощностей, так как вводные сведения и исходная трансляция обрабатываются специализированным софтом в режиме онлайн. То есть к камерам и датчикам прибавляются сервера для вычислений. Оборудование дорогое, рынок «закрытый», технологии тоже. И тут на выручку приходят AI и облачные GPU-сервера.


Читать: https://habr.com/ru/companies/hostkey/articles/798823/

@big_data_analysis
Forwarded from Нейроканал
Если вы новичок, но уже обладаете базовыми знаниями, то это идеально время, чтобы начать пилить пет проекты. Но если вдруг у вас нет своей идеи, то не отчаивайтесь. Держите целую подборку таких идей, с примерами реализации:
 
1. Прогнозирование успеваемости студентов.
2. Суммаризация текста.
3. Проекты по CV на любой вкус.
4. Классификация болезней куриц.
5. Проекты классификации аудио (,, , ).
6. Проект по обработке и анализу данных.
7. Прогнозирование цен на жилье.
8. Приложение с использованием Langchain и Open AI.
9. Классификация заболеваний почек.
10. LLM для ответов на вопросы по PDF.

@neuro_channel #петпроекты
👍2
Оживляем SVG в POWER BI часть 1

Создание дашбордов на основе SVG макетов частая задача в PBI. На примере, дерева и столбчатой диаграммы, я покажу как это сделать, используя язык DAX и макеты в figma.


Читать: https://habr.com/ru/articles/800001/

@big_data_analysis
Oracle Analytics Cloud March 2024 update

This blog covers new Oracle Analytics Cloud (OAC) features from the March 2024 update and includes, data connectivity, data prep, modeling, data visualization, augmented analytics, machine learning, localization and embedding. It highlights upgrades to help users connect more sources, faster data prep, better visualizations, customized analytics and localized UIs.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-march-2024-update

@big_data_analysis
AI and the Evolution of Self-Service Analytics

Explore the evolution of self-service analytics with AI at Oracle. Discover how OAC leverages AI to enhance natural language interactions, generate insights, and revolutionize data storytelling. Dive into the future of analytics, where Oracle empowers users with seamless, intuitive experiences and groundbreaking formats like the Story Exchange, bridging the gap between data and impactful communication.

Read: https://blogs.oracle.com/analytics/post/ai-and-the-evolution-of-selfservice-analytics

@big_data_analysis
G2 Market Research vs Gartner: слон или тигр?

Мы в Кругах Громова любим исследования. Можно было бы даже сказать «собаку на них съели», но собакенов мы любим не меньше, чем исследования, и, конечно, есть никого не собираемся. Как бы там ни было, нам интересно – и, конечно, познавательно – наблюдать и изучать работу крупных мировых игроков. Сегодня решили поделиться с вами результатами сравнения двух «рапторов» – Gartner и G2 Market Research.


Читать: https://habr.com/ru/articles/800173/

@big_data_analysis
«Иногда твоя работа выглядит магией»: что делают дата-сайентисты в промышленности и почему так востребованы

Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения.

Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности.

В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит.


Читать: https://habr.com/ru/companies/netologyru/articles/800153/

@big_data_analysis
Пользовательские карты в Дельта BI

В функционале Дельты есть возможность импорта пользовательских карт, которые можно в дальнейшем использовать вместо стандартных форм, входящих  в геопространственную базу данных Дельты. Такая возможность может быть полезна, например, если требуется создать карту, отображающую крупные регионы, объединяющие несколько стран (Евросоюз, СНГ, страны Азиатско-Тихоокеанского региона и т.п.)

Или, как будет рассмотрено в данном примере, будет загружена карта административных округов Москвы.


Читать: https://habr.com/ru/companies/navicon/articles/800297/

@big_data_analysis
Forwarded from Веб-страница
Когда к резюме попросили приложить пример лично написанной программы:

@tproger_web
😁4
Проверь себя: Ты — знаток мира BI?

Привет, Хабр! А сейчас у нас на кону интересное развлечение. Мы предлагаем вам угадать двух тайных экспертов марафона по визуализции “Ничего Лишнего”, которые будут принимать участие в двух днях работы с участниками. Под катом — краткие характеристики наших героев, а также варианты ответов. Проверьте себя, насколько вы знаете мир BI (или проверьте свою интуицию, что тоже забавно).


Читать: https://habr.com/ru/companies/visiology/articles/800465/

@big_data_analysis
Элегантный стек данных для встроенной аналитики

Контекст

По работе мне доводилось иметь дело с аналитическими стеками любых конфигураций и размеров. Мы на собственном опыте изучили, что цена стека для встроенной аналитики данных, расположенного за фронтендом, может моментально вырасти настолько, что об окупаемости инвестиций и речи не будет. Такой риск существует, если тщательно не просчитать 1) модели ценообразования для разных технологий и затраты на единицу продукции, 2) реализованную стоимость 3) производительность труда разработчика.

Сейчас появилась целая волна инструментов, созданных специально для решений из области встраиваемой аналитики, поэтому я решил набросать этот пост, в котором покажу, как некоторые из этих инструментов сочетаются друг с другом, и почему они так хороши.

В этой статье будут исследованы соотношения затрат/ценности и преимущества нескольких стеков, ориентированных на работу с данными, а именно MotherDuck / Cube / React (MDCuRe)

Читать: https://habr.com/ru/companies/piter/articles/800515/

@big_data_analysis
Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

В предыдущих статьях https://habr.com/ru/articles/787098/, https://habr.com/ru/articles/795251/ и https://habr.com/ru/articles/781060/ мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.


Читать: https://habr.com/ru/articles/800809/

@big_data_analysis
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor). Мы строим скоринговые (credit scoring), лидогенерационные (lead generation) и антифрод (anti-fraud) модели на телеком данных, а также делаем гео-аналитику (geoanalytics).

В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.


Читать: https://habr.com/ru/companies/megafon/articles/800919/

@big_data_analysis
Два подхода моделирования исторических данных

Перевод статьи с Medium

В статье обсуждаются моделирование данных для хранения исторических данных, включая использование временных таблиц и исторических таблиц.

Временные таблицы добавляют две даты к каждой записи для определения периода актуальности данных, в то время как исторические таблицы сохраняют только последние записи в основной таблице, перемещая старые записи в отдельную историческую таблицу.

Это обеспечивает более четкий аудит изменений и улучшает производительность запросов к историческим данным, но требует дополнительного хранения и обслуживания.


Читать: https://habr.com/ru/articles/801067/

@big_data_analysis
Announcing Employee Health and Safety, Journeys, and HR Helpdesk Analytics in Oracle Fusion HCM Analytics

Announcing Employee Health and Safety, Journeys, and HR Helpdesk Analytics in Oracle Fusion HCM Analytics.

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-hcm-analytics-announcements

@big_data_analysis
👍2
EBS managed connector for Oracle Fusion Data Intelligence

Oracle Fusion Data Intelligence (FDI) has introduced multiple connectors to leverage the data pipeline infrastructure to extract data from external sources. This blog describes a use case to configure the Oracle EBS (E-Business Suite) connector to connect to EBS and utilize the FDIP Data Augmentation feature to extract transaction data from EBS into FDI's ADW (Autonomous Data Warehouse).

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-data-intelligence-platform-ebs-managed-connector

@big_data_analysis
👍1
Дом, милый дом: нюансы работы с ClickHouse. Часть 1

Всем привет, меня зовут Пётр, я инженер компании Nixys. На современных проектах используется огромное разнообразие баз данных: реляционные, ключ-значение, документоориентированные. Особое место среди них занимают колоночные базы данных, ярким представителем которых является ClickHouse. Это мощный инструмент, который способен обрабатывать миллиарды строк в секунду при минимальном времени ответа. Однако, для максимальной эффективности ClickHouse необходимо понимать ряд фундаментальных моментов для того, чтобы использовать его по назначению. В этой серии статей мы разберем особенности работы ClickHouse, которые помогут в выжимании максимума из этой базы. И сегодня начнём с фундаментальных теоретических моментов, чтобы составить максимально полное общее впечатление, которое поможет нам в дальнейшем.


Читать: https://habr.com/ru/companies/nixys/articles/801029/

@big_data_analysis