Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :)

Первое, что рассмотрим - это конструктор кейс-класса

1. Конструктор SortMergeJoinExec


Читать: https://habr.com/ru/companies/gnivc/articles/914932/

#ru

@big_data_analysis | Другие наши каналы
Знакомьтесь — OTP Tech

Канал про IT в ОТП Банке. Если хочешь быть в теме и знать, как современные технологии и решения работают в международном финтехе, то подписывайся на OTP Tech.

Ребята активно развиваются, внедряют современные решения вроде ИИшек, заблаговременно думают о рисках и, например, первыми в России перешли на процессинг Solar, а еще активно формируют культуру работы с данными. И это только верхушка того, чем эксперты начали делиться у себя в ТГ. Подписывайтесь и добавляйте канал в папку «Полезное».

Подписаться

Это #партнёрский пост
Грязные данные для вечного сияния чистого ИИ

Эпиграф: Это хуже чем преступление. Это ошибка

Искусственный интеллект становится неотъемлемой частью современной жизни. Масштаб и скорость экспансии в различные сферы нашей жизни столь высокие (некоторые даже просят приостановить, что можно смело предположить будущее, где ИИ будет везде.

При этом согласно дорожной карте по развитию общего искусственного интеллекта от OpenAI, состоящей из 5 уровней, мы сейчас находимся на 1 уровне, когда ИИ только советует, а решение и ответственность остаётся за человеком. На следующем уровне он сможет рассуждать на уровне и вместо человека, а на третьем сможет действовать.

Скачок развития больших языковых моделей и нейросетей (технологий в основе ИИ) привёл к тому, что ИИ уже сейчас может говорить, рисовать картины, водить машину и даже пылесосить и мыть полы. Даже дети уже оживляют фотографии с помощью нейросетей.

Справедливо будет сказать, что все мы, согласно опросу ВЦИОМ, возлагаем на него большие надежды:

1. уменьшим затраты времени на рутину

2. повысим производительность труда

3. улучшим качество жизни

4. вырастет уровень безопасности

5. победит мировая революция

Одна из важных отраслей для применения ИИ - Здравоохранение.

В России принята Национальная стратегия в области искусственного интеллекта до 2030 года, в соответствии с которой, должны быть: "сняты отдельные административно-правовые барьеры, препятствовавшие внедрению технологий искусственного интеллекта в отдельных областях, включая здравоохранение, транспорт, государственно-частное партнёрство и другие области;"


Читать: https://habr.com/ru/articles/915170/

#ru

@big_data_analysis | Другие наши каналы
2❤‍🔥2🔥1
Data Mesh: ожидания vs реальность

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?


Читать: https://habr.com/ru/companies/lemana_tech/articles/913550/

#ru

@big_data_analysis | Другие наши каналы
1
Мультистек: как жить, когда ты и Фронт, и Бэк, и МЛ

Разбираем плюсы и минусы пути мультистек-инженера: когда это работает, где востребовано, и как развиваться, если не хочешь выбирать одно направление.

Читать: «Мультистек: как жить, когда ты и Фронт, и Бэк, и МЛ»

#ru

@big_data_analysis | Другие наши каналы
👍1
Многорукие бандиты: когда классическое тестирование не работает

Привет, Хабр! Мы команда ЖЦК, занимаемся машинным обучением в ВТБ. Сегодня расскажем про алгоритмическую магию, которая творится прямо у нас под носом. Авторами проекта этой магии в ВТБ стали дата-сайентисты Дмитрий Тимохин, Василий Сизов, Александр Лукашевич и Егор Суравейкин. Речь пойдет не о хитрых нейросетях с их миллионами параметров, а о простом подходе, который помог им и команде сэкономить много времени на решении задач, в которых раньше использовались классические методы тестирования.


Читать: https://habr.com/ru/companies/vtb/articles/915698/

#ru

@big_data_analysis | Другие наши каналы
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже  миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад.

Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals, профессиональной конференциипо инженерии, базам и системам хранения и обработки данных.

В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/915332/

#ru

@big_data_analysis | Другие наши каналы
👌2
MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?

В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.


Читать: https://habr.com/ru/articles/914774/

#ru

@big_data_analysis | Другие наши каналы
Пятый, юбилейный выпуск исследования «BI-круг Громова»

Пятый, юбилейный выпуск нашего исследования «Круги Громова» выходит в момент, когда рынок отечественных BI-платформ переживает волну бурного роста и трансформации. За два года, прошедшие с публикации предыдущего отчёта, импортозамещение перестало быть формальностью и стало стратегической необходимостью: доля внедрений российских BI-систем выросла почти в восемь раз, а зарубежных — упала до 23 %[1]. На этом фоне особенно важны объективные ориентиры, позволяющие ИТ-директорам и бизнес-пользователям выбрать платформу, которая останется актуальной на ближайшие несколько лет. Именно такую навигационную карту мы и предлагаем.


Читать: https://habr.com/ru/articles/915906/

#ru

@big_data_analysis | Другие наши каналы
Сравнение средних значений в BI: однофакторный критерий Кохрена-Кокса

В рамках BI решаются различные задачи, в том числе и с помощью статистических методов, для корректного выбора которых важно обращать внимание на содержание задачи. Например, если нужны только средние значения для графика, то действительно достаточно их рассчитать. Но иногда требуется решить другие задачи, например, не просто расчет средних значений двух выборок, но и сравнение средних двух выборок, чтобы узнать, в какой выборке среднее больше или меньше. Кроме того, данных для сравнения может быть столько, что они могут не умещаться на графике. В этом случае важно переключиться на подходящую статистическую гипотезу и использовать корректные статистические методы, намного более интересные, чем отображение средних значений на графике. Здесь могут быть эффективны методы дисперсионного анализа (ANOVA), или, в частном случае, когда речь идет о расчетах для одного фактора — методы сравнения средних двух выборок, и, например, метод Кохрена-Кокса. О том, какие результаты подобный подход дает на практике, а также о преимуществах работы с DAX при сравнении средних значений, читайте под катом.


Читать: https://habr.com/ru/companies/visiology/articles/916378/

#ru

@big_data_analysis | Другие наши каналы
RecSys + DSSM + FPSLoss is all you need

Упрощать и искать похожие детали, очень полезный навык! Предлагаю быстро пробежаться и попробовать найти ту самую серебряную пулю в RecSys !


Читать: https://habr.com/ru/articles/916632/

#ru

@big_data_analysis | Другие наши каналы
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе?

Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.

Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ru

@big_data_analysis | Другие наши каналы
👍2
От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов.

Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации.

Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security.
Читать

Читать: https://habr.com/ru/companies/pt/articles/908556/

#ru

@big_data_analysis | Другие наши каналы
Forwarded from Код найма
Хватит искать работу в одиночку!

Ты крутой айтишник, но поиск работы превращается в квест: бесконечные резюме, где важны не навыки, а кейворды, десятки собеседований и постоянный стресс. Знакомо? Всё это выматывает и демотивирует. Мы тебя понимаем — и готовы поддержать!

Команда Tproger открывает первое реалити-шоу в Телеграм о поиске работы — «Код найма».

Вместе с опытными менторами ты пройдешь все этапы найма:

➡️ Прокачаешь резюме так, чтобы его заметили
➡️ Научишься проходить собеседования без волнения
➡️ Получишь честную обратную связь от рекрутеров
➡️ И, главное, дойдёшь до оффера в компании мечты!

Весь путь будет проходить на глазах у подписчиков канала — они тоже смогут давать советы и поддерживать тебя.

Хочешь стать героем нашего реалити и получить шанс найти работу мечты?

✍️ Заполняй анкету

Мы выберем трёх участников, которым поможем пройти весь путь до оффера.

Присоединяйся к «Коду найма» — и пусть твой следующий оффер станет началом новой жизни!
Please open Telegram to view this post
VIEW IN TELEGRAM
Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).
Тесты, графики, инсайды

Читать: https://habr.com/ru/companies/arenadata/articles/915684/

#ru

@big_data_analysis | Другие наши каналы
Хочешь своего AI-бота? Пошаговый план для новичков и не только

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.


Читать: https://habr.com/ru/articles/914776/

#ru

@big_data_analysis | Другие наши каналы
Тренды 2025 года в сфере работы с данными и ИИ

Привет! Меня зовут Антон Моргунов, я академический руководитель программы онлайн-магистратуры Яндекса и МИФИ «Специалист по работе с данными и применению ИИ», которая стартует в сентябре 2025 года. В этой статье я расскажу об актуальных трендах, профессиях и навыках в сфере работы с данными.


Читать: https://habr.com/ru/companies/yandex_praktikum/articles/915322/

#ru

@big_data_analysis | Другие наши каналы
Будущее доставки Amazon: гуманоидные роботы

Amazon готовится к революции в доставке посылок, внедряя гуманоидных роботов, которые будут работать в связке с электрическими фургонами Rivian. По данным The Information, компания разрабатывает программное обеспечение на базе ИИ, которое позволит роботам выполнять функции курьеров, доставляя посылки прямо к дверям клиентов. В ближайшее время Amazon планирует начать реальные испытания этой технологии в новом специализированном центре.

Согласно анонимному источнику, участвующему в проекте, Amazon почти завершил строительство «парка гуманоидов» в одном из своих офисов в Сан-Франциско. Этот испытательный полигон размером с небольшую кофейню включает полосу препятствий и один фургон Rivian для тренировок. Цель — научить гуманоидных роботов перемещаться в фургонах Amazon и оперативно доставлять посылки к месту назначения.

Этот проект сопровождается созданием новой команды Amazon по агентному ИИ, которая занимается разработкой технологий для управления роботами в распределительных и логистических центрах. В заявлении для Silicon Valley компания сообщила: «Вместо узкоспециализированных роботов мы создаем системы, способные понимать и выполнять команды на естественном языке, превращая складских роботов в универсальных помощников».

Amazon уже использует автономных роботов в своих складских операциях, включая тестирование гуманоида Digit от Agility Robotics. Этот робот изначально разрабатывался для задач вроде доставки посылок из фургона и других логистических функций. Новый тренировочный центр Amazon направлен на реализацию этой концепции. По данным The Information, в центре будут тестироваться различные модели гуманоидных роботов, включая модель стоимостью $16 000 от китайской компании Unitree.


Читать: https://habr.com/ru/articles/918134/

#ru

@big_data_analysis | Другие наши каналы
Новый взгляд на интеграцию OGL и Oracle Analytics
Статья раскрывает возможности OGL Custom Extension для Oracle Analytics Cloud, показывая, как расширение облегчает взаимодействие между системами и повышает эффективность аналитики. Полезно для пользователей OAC.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые векторные СУБД и другие инструменты для МО

Ранее в блоге beeline cloud мы рассказывали об открытых СУБД для систем ИИ. Продолжим тему и рассмотрим еще несколько находок в этой области — разносторонние инструменты, упрощающие работу с эмбеддингами, семантическим поиском и RAG.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/918480/

#ru

@big_data_analysis | Другие наши каналы