Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Почему два переезда хранилища данных — это не «пожар», а уникальный опыт для прокачки стека

Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени. Сделать «здесь и сейчас» можно всегда, но чем дольше продолжается использование данных, тем больше в дальнейшем потребуется ресурсов и времени на оптимизацию при масштабировании нагрузки или внедрении новых источников в хранилище.

Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов для руководства?

Точного ответа у меня нет, но могу рассказать про наш опыт: мы смогли качнуть баланс равновесия между задачами операционными (Run) и связанными с изменениями (Change) в пользу вторых, используя переезд хранилища данных. Если в двух словах, то это будет история о том, как мы прокачали технологии и скиллы людей, которые занимаются построением DWH, в условиях двух переездов хранилища данных за два года. Буду говорить о преимуществах и недостатках такого способа прокачки.


Читать: https://habr.com/ru/companies/uchi_ru/articles/768874/
🔥1
«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.


Читать: https://habr.com/ru/companies/vtb/articles/765370/
Почему важна разметка данных: в основе ChatGPT лежит труд людей

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.


Читать: https://habr.com/ru/articles/766402/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за последнее время.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:
Читать дайджест

Читать: https://habr.com/ru/companies/uzum/articles/766574/
Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.
Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.


Читать: https://habr.com/ru/companies/vk/articles/769450/
Рынок данных в даркнете: как купить чужие и не потерять свои

Уже 3 года подряд компания Privacy Affairs публикует на своем сайте исследование рынка информационных услуг в даркнете. Первое исследование носило характер обзора и вышло в 2020 году. В 2021, 2022 и 2023 году специалисты компании анализировали динамику цен на те услуги, которые постоянно присутствуют в даркнете.

Исследование 2023 года содержит массу деталей, иллюстрирующих три закономерности: масштабы мошенничества с личными данными стабильно растут, цены пугающе снижаются, борьба правоохранительных органов с мошенниками не приносит значимых результатов. За несколько десятков долларов мошенники могут получить доступы от ваших карт и криптокошельков, а за несколько тысяч долларов можно «стать другим человеком»: заказать полный набор физических поддельных документов гражданина другой страны, получить данные банковских карт и логины-пароли от социальных сетей.

В этом обзоре мы воздержимся от морализаторства, ограничившись демонстрацией и анализом происходящего с короткими табличками и последними данными по видам и мошенничества, расценками черного рынка и примерами из российского даркнета.


Читать: https://habr.com/ru/companies/xeovo/articles/769652/
MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных

Привет, Хабр! В сегодняшнем дайджесте продолжаю делиться материалами, которые помогут вам лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Какие перспективы у LLM и BI? Куда Amazon и Google инвестировали более $4 млрд? Как организовать работу аналитических команд? Интересно узнать? Тогда читайте нашу статью. Еще больше полезных материалов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/770342/
Как мы собираемся дать ИИ и гражданам доступ в госуправление: кейс Татарстана

Центр цифровой трансформации Республики Татарстан запустил площадку публичных обсуждений проектов в сфере ИИ, в которой пользователи и предобученная большая языковая модель вместе обсуждают и оценивают инициативы в сфере ИИ.

В статье рассказываем, для чего нужна площадка и как она будет работать.


Читать: https://habr.com/ru/companies/digital_tatarstan/articles/770680/
Открытое письмо BI компаниям — проект “Dashboard.AI

Привет, аналитики, руководители и основатели Business intelligence компаний!

Я создаю сервис WikiBot, который обучается по документации и консультирует пользователей в чате, как специалист первой линии поддержки. Наш чат-бот понимает вопрос и отвечает как человек.

Весь мир двигается в сторону использования ИИ-помощников. Людям нравится получать результаты просто давая команды на родном языке.

Предлагаю вам, совместно с моей командой, создать продукт Dashboard.AI, который будет обладать следующим функционалом:


Читать: https://habr.com/ru/articles/770696/
This media is not supported in your browser
VIEW IN TELEGRAM
Астрологи объявили неделю ML-инженера 🔮

🎃 В канун Дня Всех Святых Старшие Арканы развернули инфраструктуру на ваших серверах — выясните, что они предсказывают!

Какая опасность ждёт ваши модели — переобучение или мод коллапс?

Сделайте скриншот экрана — узнайте, какая карта определит вашу судьбу в профессии и какой амулет поможет избежать бед 🧿

Скрин, скрин!
👍1
Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!


Читать: https://habr.com/ru/companies/megafon/articles/767820/
1👍1
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.


Читать: https://habr.com/ru/companies/slurm/articles/771036/
👍1
Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание

Вопрос о замене «умирающего» западного BI решения в своей организации на отечественную платформу становится с каждым месяцем все более актуальным. Мы уже писали раннее, что 2024 год будет бумом больших проектов по переходу на софт из реестра. Сейчас гонка вендоров по наращиванию количества фичей в самом разгаре. Такой бурный рост обязательно скажется на качестве самих продуктов и весь 2024 год еще придется лечить «детские» и «подростковые» болезни, поскольку багов будет много. Видимо в цене будут хорошие тестировщики и качественная оперативная техническая поддержка, которая должна будет взять весь этот гнев избалованных западными решениями пользователей на себя. Конечно ко всему этому нужно добавить задачи повышения производительности самих платформ, особенно интересно это будет увидеть на отечественных серверах и процессорах. Пока что много красивых картинок в презентациях и не понятно на чем основанных рекомендациях по сайзингу. Публичный документ с данными о нагрузке выкладывают единицы, как правило это тесты на своих серверах. Исходя из нашего понимания (конечно же это субъективное мнение группы людей, оно может не совпадать с Вашим), как будет развиваться рынок в следующем году, мы подготовили рекомендации. На что нужно обратить внимание при выборе платформы и подрядчика:


Читать: https://habr.com/ru/articles/771258/
Lego набор, который я всегда хотел

Все уже в курсе, что искусственный интеллект может многое. В этой статье я дам возможность ИИ собрать интересные наборы LEGO, которые я бы с удовольствие сам пособирал и в конце статьи, поделюсь инфо, как именно можно сгенерировать такие наборы своей мечты самостоятельно.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Итак, давайте смотреть, что удалось сгенерировать:


Читать: https://habr.com/ru/articles/771396/
Managing Permissions in Oracle Analytics Cloud

In a world of self-service analytics, everyone is an author, but often it's better to limit the scope of the types of content certain users can create.

Read: https://blogs.oracle.com/undefined/post/managing-permissions-in-oracle-analytics-cloud
Жук, нумерология, хеш или ничо? Оптимизация работы с путями

Привет, Хабр! Меня зовут Евгений Кузьмин, я Java-разработчик в CDEK. Надеюсь, все знают, что это за компания и чем она занимается. Давайте представим, что вам нужно отправить посылку с гостинцами родственнику в Москву из Новосибирска. Вы приходите в ближайший пункт приёма посылок и оформляете услугу доставки. Что же происходит дальше? Казалось бы, всё очевидно: посылка сразу летит или едет из Новосибирска в Москву. Но всё не так просто... Думаю, все согласятся, что не рационально гнать отдельную фуру с одной коробочкой для каждого заказа. Наша  задача выстроить логистику таким образом, чтобы по пути загрузить и выгрузить как можно больше посылок и поехать дальше. В этой статье я поделюсь с вами своим опытом оптимизации задачи по редактированию и поддержке в актуальном состоянии огромного количества данных типа "куда направить товар". Классическая задача программирования на практике логистики. При этом мы не будем выходить за рамки стандартного стека Java Springboot и Postgres. Статья будет интересна разработчикам (от джуна до сеньора), которым будет интересно погрузиться в трудовые будни разработчика в сфере транспортной логистики.


Читать: https://habr.com/ru/companies/cdek_blog/articles/771372/
Optimize Oracle Analytics Cloud Performance with Akamai Content Delivery Network

The Internet is far more complex than we perceive with data centers, peering points, public clouds, private clouds, and competing networks. These complexities impact the performance of reports for the end user. By configuring Oracle Analytics Cloud (OAC) with Akamai Content Delivery Network (CDN), organizations can take advantage of the benefits it provides and ensure analytics content is delivered quickly and securely assigns the request to the optimal edge server in the network.

Read: https://blogs.oracle.com/undefined/post/optimizing-oracle-analytics-cloud-performance-with-akamai-cdn
Что такое обучение без учителя? И нет, мы сейчас не про домашнее образование

Это один из методов в Machine Learning, при котором мы запускаем модель в «комнату» и она самостоятельно изучает какие объекты в ней есть. В статье разбираемся для каких задач этот метод подойдет и как он работает.
Как расширить компетенции аналитиков при работе с Big Data

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.


Читать: https://habr.com/ru/companies/neoflex/articles/771788/
6 Steps to Avoid Messy Data in Your Warehouse

Read: https://www.startdataengineering.com/post/n-steps-avoid-messy-dw/
🔥1