Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.71K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Полезные методы работы с данными в Pandas. Часть 2

В современном мире данных анализ временных рядов играет ключевую роль во многих отраслях, таких как финансы, розничная торговля, производство и маркетинг. Работа с временными рядами может стать сложным процессом из- за наличия трендов, сезонности и структурных изменений в данных.

Я продолжаю рассказывать о полезных, но менее известных методах работы с данными в Pandas, которые могут значительно повысить вашу эффективность при анализе и обработке данных. По данной ссылке вы можете прочитать первую статью.

В этой статье мы погрузимся в применение скользящих окон для вычислений и смещение данных для анализа временных рядов. Скользящие окна позволяют проводить агрегированные вычисления на подмножествах данных, что может быть полезно для определения трендов, сезонности и аномалий во временных рядах. Мы также изучим использование смещения данных для создания лаговых переменных и их применение в различных задачах прогнозирования.


Читать: https://habr.com/ru/companies/otus/articles/728118/
👍1
Производительность и стабильность Knime на слабых компьютерах

Наступают времена, когда офисному сотруднику недостаточно знать Word и Excel в качестве минимального обязательного базиса программных продуктов. No-code/Low-code платформы и продукты - вот что незаметно становится обязательным для владения каждым. Эти платформы есть самый быстрый на сегодня способ без изучения языков программирования овладеть навыками использования искусственного интеллекта, машинного обучения, анализа big data, причём очень бигдата - на сотни миллионов строк.

Платформа Knime - один из таких инструментов. На первый взгляд это улучшенный Excel+BI. Но, когда посмотришь поглубже его возможности, то, очевидно - это обязательный инструмент будущего, по крайней мере для тех кто не являясь программистом хочет получить навыки как у программиста. Для простоты - Knime это "графическое" программирование. Берёшь квадратики, размещаешь в виде бизнес-процесса, соединяешь их между собой и оп! - уже провёл анализ маркетингового плана или парсинг сайтов конкурентов или анализ рекламных текстов с помощью NLP. Или, даже строишь приборную доску управления производственного предприятия будучи простым менеджером/инженером. Или ведёшь обработку научных данных.

Knime позволяет, конечно, и код писать, причём на трёх языках Python, Java, R, но это не обязательно. Бизнес-процессы знаешь, рисуешь? Вперёд!

Разумеется, при работе с огромными массивами данных, требования к компьютерным ресурсам возрастают. И что делать, если вам доступен простенький офисный или домашний компьютер? Или, если вы видите что аренда облачного ресурса на месяц дороже, чем купить компьютер с 64Гб оперативной памяти и процессором гоняющим Atomic Heart или Hogwartz Legacy на среднемалках?


Читать: https://habr.com/ru/articles/728204/
NER: Как мы обучали собственную модель для определения брендов. Часть 2

Привет всем! Сегодня продолжим рассказ о том, как наша команда Data Science из CleverData начала выделять бренды в строках онлайн-чеков. Цель такого упражнения — построение отчета для бренд-анализа, о котором мы подробно рассказали в первой статье на эту тему. Из второй части вы узнаете, как на базе пайплайна (сводки с данными) для получения разметки по брендам мы обучили собственную NER-модель.


Читать: https://habr.com/ru/companies/lanit/articles/725960/
Evolving beyond data-driven

Many businesses proclaim, "We are a data-driven business" or "We make our decisions using data." But what does it really mean to be data-driven? Why is being Analytics-Driven the next step for businesses? In order to truly thrive in a modern analytics-driven culture, businesses need to evolve beyond just being data-driven and embrace modern analytics techniques like artificial intelligence and machine learning (AI/ML).

Read: https://blogs.oracle.com/analytics/post/evolving-beyond-datadriven
Подборка актуальных вакансий

Аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Product Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет

Аналитик
Где: удалённо
Опыт: от 2 лет

Service Delivery Manager
Где: удалённо
Опыт: от 3 лет

Системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Web-аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Full-stack аналитик
Где: удалённо
Опыт: от 2 лет

Системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Аналитик ПО Диасофт FA# (Digital Q)
Где: Москва, можно удалённо
Опыт: от 2 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Системный аналитик
Где: Москва
Опыт: от 1 года

Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

#вакансии #работа
Как мы создавали техкомьюнити

Мы – команда DataOffice Ростелекома. Мы занимаемся всеми большими данными нашей большой компании. Собираем данные из сотен систем источников, внедряем современные технологии, создаем собственные продукты для работы с данными и, конечно, используем технологии искусственного интеллекта.

Для того, чтобы заниматься большими данными такой большой компании нам нужна большая команда. У нас команда больше 300 человек и все они занимаются разными проектами, работают с разными технологиями, но все любят данные и очень любознательные.
Как мы создавали техкомьюнити

Читать: https://habr.com/ru/companies/rostelecom/articles/728128/
11 советов для начинающих в SQL

SQL является одним из основных инструментов, используемых при работе с базами данных. Однако, многие программисты не пользуются всеми возможностями SQL, что приводит к меньшей производительности и более сложной работе с базой данных в целом.

В этой статье мы разберем 11 практических советов, которые помогут вам в обучение SQL.


Читать: https://habr.com/ru/articles/728420/
AI-as-a-service: доступный ИИ и анализ данных

До недавнего времени многие компании отказывались от использования искусственного интеллекта в своем бизнесе, поскольку для этого требовались слишком большие затраты. Покупка необходимого оборудования и настройка программного обеспечения для запуска локального облачного ИИ обходится дорого. Добавьте к этому расходы на персонал, техническое обслуживание и перенастройку существующего оборудования, и ИИ станет непомерно дорогим для большинства организаций. Но все меняется с появлением такой услуги, как AI as a Service (AIaaS). О ней сегодня и поговорим.


Читать: https://habr.com/ru/companies/first/articles/728348/
Алгоритм рекомендаций Twitter: как он работает

Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.

В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.

Он подойдет:

- любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,

- Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.


Читать: https://habr.com/ru/articles/727786/
👍1
Почему объём данных важен для повышения стабильности модели глубокого обучения

Глубокое обучение — один из важнейших инструментов анализа огромных объёмов данных. Оно управляет принятием решений во всех сферах деятельности, адаптируясь к точности передаваемых ему людьми знаний.

Однако может случиться и так, что модели предоставят слишком большой объём информации, поскольку задача глубокого обучения заключается в нахождении паттернов и связей между примерами данных с целью ответов на вопросы и подтверждения гипотез. Чем же является уменьшение масштабов датасета ради стабильности и эффективности: недостатком или преимуществом?

Ниже мы расскажем о том, почему при повышении стабильности модели глубокого обучения так важен размер данных.


Читать: https://habr.com/ru/articles/725440/
FineBI 6.0: 9 полезных обновлений, о которых вы не знали

Хабр, привет! Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.


Читать: https://habr.com/ru/companies/glowbyte/articles/728680/
Пять примеров успешного использования ИИ на производстве

В октябре 2019 года компания Microsoft заявила о том, что искусственный интеллект помогает производственным компаниям обгонять по показателям конкурентов: использующие ИИ производители показывают результаты на 12% лучше, чем их соперники. Поэтому мы скорее всего увидим всплеск применения технологий ИИ на производстве, а также рост новых высокооплачиваемых должностей в этой области.

В статье мы расскажем о пяти примерах использования ИИ-технологий на производстве. Также мы поделимся историями успеха современных промышленных компаний, проанализировав, как внедрение ИИ помогло их бизнесу.


Читать: https://habr.com/ru/articles/727358/
Лучшие практики при работе с мастер-данными

Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.


Читать: https://habr.com/ru/companies/magnit/articles/728676/
Кто такой BI-аналитик и как им стать

Сегодня такой специалист очень востребован, ведь он собирает, интерпретирует и визуализирует данные. Это помогает бизнесу лучше понимать свои продукты и зарабатывать.

Подробнее о том, как устроена эта профессия и какие у неё перспективы рассказали специалисты КРОК:

https://tprg.ru/PtXN

#bi
👍1
Как устроен massively parallel processing (MPP) в Trino

Из нашей повседневной практики доподлинно известно, что массивно(массово?)-параллельные вычисления это круто. Но что именно означает этот термин, и как "массивность" и "параллельность" реализованы в конкретной системе? В данной статье мы ответим на оба вопроса, проанализировав внутреннюю архитектуру популярного MPP-движка для больших данных Trino.


Читать: https://habr.com/ru/companies/cedrusdata/articles/729004/
Дорожная карта для Дата-Инженера в 2023 году

Как я бы учился Data Engineering в 2023 году (если бы мог начать заново)

Начало карьеры в Data Engineering может быть ошеломляющим из-за большого количества инструментов и технологий доступных на рынке.

Часто возникают вопросы: "Следует ли мне сначала изучать Databricks или Snowflake? Стоит ли сосредоточиться на Airflow или Hadoop?"

В этой стате я расскажу вам обо всем, начиная с базового уровня и заканчивая продвинутым уровнем всех ресурсов и навыков, которые понадобятся вам для того, чтобы стать профессионалом в области Data Engineering.


Читать: https://habr.com/ru/articles/729006/
Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.


Читать: https://habr.com/ru/companies/mts_ai/articles/726012/
Как IT-специалисты-экологи спасут планету

Всем привет! Я тот самый человек, который учится на бакалавриате по направлению "Экология и природопользование" в обычном Российском ВУЗе. И будучи человеком, которому трудно утолить жажду знаний, мне приходится часто себя ловить на мыслях об улучшении и оптимизации многих процессов, в том числе и в образовании. В целом, образовательная программа моего ВУЗа достаточно неплоха, и мы получаем от преподавателей (конечно же, не от всех) информацию из научных кругов, говорим о инновационных исследованиях и приборах, которые дают новый толчок в изучении такой многокомпонентной науки как экология.

Я думаю, не трудно догадаться, что в современных реалиях все завязано на IT, в том числе и экология. Все меньше становится природных процессов, в которых не используются информационные технологии. Честно, даже затрудняюсь привести такой пример. И вот тут возникает реальная проблема подготовки квалифицированных кадров, которые должны отвечать современным требованиям. И я тут даже не про работодателей, а про жизнь – обычную человеческую бытовуху. Мир меняется бешенными темпами — это факт. Природные процессы меняются, как и мы с вами – также стремительно и безвозвратно. Научное сообщество даже не сразу успевает эти изменения детектировать и осмыслять, поэтому вопрос поиска и подготовки специалистов на стыке нескольких наук не менее актуальная проблема чем изменение климата.

С вашего позволения я попытаюсь рассмотреть некоторые проблемы и пути решения подготовки айтишников-экологов/экологов-айтишников, а также ответить на вопрос как IT-специалисты-экологи спасут планету.


Читать: https://habr.com/ru/articles/729268/
Create and schedule aggregates without an ETL tool in Oracle Fusion Analytics Warehouse

As enterprise data volumes surge, customers of Oracle Fusion Analytics Warehouse often need to create custom aggregate tables. This article addresses this critical need by outlining how custom aggregates can be created from transactional fact tables and scheduled automatically.

Read: https://blogs.oracle.com/analytics/post/create-schedule-aggregates