Data Analysis / Big Data
2.82K subscribers
570 photos
4 videos
2 files
2.68K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Мы писали ранее, что 12 сентября пройдёт big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые топовые IT-компании одновременно откроют двери офисов в Москве с 18:00 до 00:00 и покажут специалистам, где рождаются технологии.

Пора рассказать о тех, кто выйдет на сцену⚡️

📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках.

➡️ А подробнее про доклады рассказываем на сайте

Подписывайтесь:
💬 big tech night

Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Как t2 масштабировал BI-аналитику на 4500+ пользователей: кейс миграции на FineBI

Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике.


Читать: https://habr.com/ru/companies/glowbyte/articles/939470/

#ru

@big_data_analysis | Другие наши каналы
Интеграция OpenAI LLM с Oracle Analytics

В статье рассказывается, как подключить большие языковые модели OpenAI к Oracle Analytics. Подробно описан процесс получения API-ключей и настройки интеграции для расширения возможностей аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новая инициатива от команды Oracle Analytics Service Excellence направлена на поддержку и развитие сообщества Fusion Data Intelligence. Проект помогает создавать и распространять полезные аналитические артефакты, облегчая совместную работу и обмен знаниями. Узнайте подробнее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как Oracle Fusion Data Intelligence упрощает работу с документами

Статья рассказывает, как возможности Data Augmentation и Semantic Model Extension в Oracle Fusion Data Intelligence помогают напрямую получать ссылки на вложения в счетах, что снижает ручную работу и повышает прозрачность данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как крупные компании используют данные для стратегии? Финансовый директор Vopak Маргарета Хенрих-Квист делится опытом внедрения Oracle Fusion Data Intelligence для принятия важных управленческих решений и развития бизнеса.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Apache Superset — почему все топы рынка выбрали именно его?

Попытка по-иному ответить на вопрос "какую BI-системы выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую рынок предпочел


Читать: https://habr.com/ru/articles/939876/

#ru

@big_data_analysis | Другие наши каналы
Личный топ методов Pandas

Pandas — это изумительная библиотека на Python для анализа и обработки данных. Она настолько хороша, что проще сказать, чего она не умеет, чем перечислить все её возможности. В мире аналитики это настоящий швейцарский нож.

В этой статье я хочу поделиться личным топом методов, которые помогают в первичной обработке больших данных.


Читать: https://habr.com/ru/articles/940028/

#ru

@big_data_analysis | Другие наши каналы
Парсинг данных в Python: от простых строк до датасетов

В этой статье мы разберём основы парсинга данных в Python. Мы начнём с простых строк с помощью регулярных выражений, перейдём к парсингу HTML с использованием библиотеки BeautifulSoup, познакомимся с pandas для работы с данными и, наконец, соберём всё вместе, чтобы спарсить реальный датасет (например, топ фильмов с IMDb) и сохранить его в CSV-файл.


Читать: https://habr.com/ru/articles/940144/

#ru

@big_data_analysis | Другие наши каналы
Развёртывание боевого кластера Cassandra. Часть 3

Это продолжение цикла, рассказывающего о практике развёртывания небольшого, но вполне производственного кластера Cassandra. В первой и второй частях мы продвинулись вперед вот по такому плану:

1. Анализ рабочей нагрузки и требований
2.Разработка схемы данных
3. Настройка хостовых машин
4. Настройка конфигурации Cassandra
= ВЫ НАХОДИТЕСЬ ЗДЕСЬ =
5. Настройка топологии кластера
6. Подключение Prometheus Cassandra Exporter
7. Подключение Prometheus Node Exporter
8. Вывод всех метрик в Grafana
9. Проведение нагрузочного тестирования
10. Дополнительный тюнинг по результатам теста

Двинемся дальше?


Читать: https://habr.com/ru/articles/940268/

#ru

@big_data_analysis | Другие наши каналы
Неожиданный результат: ИИ замедляет опытных разработчиков

Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.

Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D[1].

Подробности — в полной версии статьи.


Читать: https://habr.com/ru/articles/936938/

#ru

@big_data_analysis | Другие наши каналы
Несогласованность эффектов или «Где деньги, Лебовски?»

В статье рассматриваются проблемы, возникающие при оценке эффектов A/B-тестов и Causal Inference в ритейле, когда необходимо анализировать изменения выручки по различным категориям товаров и общей (тотал-) категории. Мы подробно рассмотрим, почему простое суммирование оценок эффектов по категориям не всегда дает корректную оценку для тотал-категории, и предложим эффективный способ решения этой проблемы.


Читать: https://habr.com/ru/companies/X5Tech/articles/940488/

#ru

@big_data_analysis | Другие наши каналы
LLM-агенты против ручного ресерча: кейс Bioptic в биофарме

При разработке новых лекарств важно вовремя оценить конкурентную среду – какие препараты уже существуют или находятся в разработке для той же болезни. Такой анализ конкурентов обычно входит в due diligence проекта: инвесторы и фармкомпании вручную собирают данные из разных источников о всех потенциальных конкурентах целевого препарата.

Команда стартапа Bioptic (сооснователь — Андрей Дороничев) предложила автоматизировать эту рутинную работу с помощью агентной AI‑системы на базе больших языковых моделей (LLM).

Всем привет. Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO онлайн-университета zerocoder.ru. Сегодня узнал о еще одном важном шаге в деле ускорения анализа и сбора информации с помощью ИИ. На этом примере — в медицине.
Читать

Читать: https://habr.com/ru/articles/940806/

#ru

@big_data_analysis | Другие наши каналы
1
Forwarded from Типичный программист
Tproger объединились с Paradox и запустили совместный проект для комьюнити разработчиков
 
Мы сделали два дизайна — теперь ваш ход. Вы за типичный или за токсичный вайб? Голосуйте за один из вариантов до 30 августа на сайте.
 
В конце месяца объявим победителя — дизайн, который сообщество реально протащило в прод.
 
И да, всё самое интересное будет в канале. Среди голосующих разыграем призы — так что не только банке достанется апгрейд.
Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей».

Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с:

-недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом;

-отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной.

-особенностями сборок дистрибутивов;

Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.


Читать: https://habr.com/ru/companies/datasapience/articles/941046/

#ru

@big_data_analysis | Другие наши каналы
👍1
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR:

* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;

* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;

* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.


Читать: https://habr.com/ru/articles/941072/

#ru

@big_data_analysis | Другие наши каналы