Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

568 photos

3 videos

2 files

2.9K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

А работают ли игровые механики?

Этот вопрос мне задают постоянно.

Привет, Хабр! Меня зовут Тагир Хайрутдинов, я старший аналитик данных в Альфа-Банке. За прошлый год я посетил примерно 10 профильных конференций и прочих мероприятий. Когда на мероприятиях я рассказываю людям о том, что такое геймификация и какое влияние она оказывает на бизнес на примере проектов Альфы, то самый частый вопрос от маркетологов, овнеров, аналитиков и прочих — «А это реально работает?»

Да, геймификация действительно работает. Об этом и пойдет сегодня речь — я расскажу, что такое геймификация, какой эффект от неё получает бизнес и как мы используем игровые механики в Альфе. Делать я это буду на примере игры «Симулятор мошенника», в которой мы предлагали клиентам в форме игры проверить своё умение распознавать мошенников. Статья будет больше интересна аналитикам, продакт овнерам, маркетологам.

Читать: https://habr.com/ru/companies/alfa/articles/727606/

659 views16:37

Data Analysis / Big Data

Data Engineering Weekly #126

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-126

583 views01:04

Data Analysis / Big Data

О чём все эти люди говорят, ChatGPT?

Всем привет! Я продуктовый аналитик компании Интерсвязь, и у меня, как и у многих, часто всплывает потребность в том чтобы «разложить по полочкам» кучу разных текстов. Например:

1. Я хочу знать, о чем вообще все отзывы в маркете про мой продукт.

2. У меня есть много писем от клиентов на разные темы, и я хочу их систематизировать.

3. Мне может понадобиться проанализировать старые обращения пользователей в техподдержку, которые не были размечены.

Читать: https://habr.com/ru/articles/727986/

👍1

607 views07:43

Data Analysis / Big Data

Полезные методы работы с данными в Pandas. Часть 2

В современном мире данных анализ временных рядов играет ключевую роль во многих отраслях, таких как финансы, розничная торговля, производство и маркетинг. Работа с временными рядами может стать сложным процессом из- за наличия трендов, сезонности и структурных изменений в данных.

Я продолжаю рассказывать о полезных, но менее известных методах работы с данными в Pandas, которые могут значительно повысить вашу эффективность при анализе и обработке данных. По данной ссылке вы можете прочитать первую статью.

В этой статье мы погрузимся в применение скользящих окон для вычислений и смещение данных для анализа временных рядов. Скользящие окна позволяют проводить агрегированные вычисления на подмножествах данных, что может быть полезно для определения трендов, сезонности и аномалий во временных рядах. Мы также изучим использование смещения данных для создания лаговых переменных и их применение в различных задачах прогнозирования.

Читать: https://habr.com/ru/companies/otus/articles/728118/

👍1

604 views13:46

Data Analysis / Big Data

Производительность и стабильность Knime на слабых компьютерах

Наступают времена, когда офисному сотруднику недостаточно знать Word и Excel в качестве минимального обязательного базиса программных продуктов. No-code/Low-code платформы и продукты - вот что незаметно становится обязательным для владения каждым. Эти платформы есть самый быстрый на сегодня способ без изучения языков программирования овладеть навыками использования искусственного интеллекта, машинного обучения, анализа big data, причём очень бигдата - на сотни миллионов строк.

Платформа Knime - один из таких инструментов. На первый взгляд это улучшенный Excel+BI. Но, когда посмотришь поглубже его возможности, то, очевидно - это обязательный инструмент будущего, по крайней мере для тех кто не являясь программистом хочет получить навыки как у программиста. Для простоты - Knime это "графическое" программирование. Берёшь квадратики, размещаешь в виде бизнес-процесса, соединяешь их между собой и оп! - уже провёл анализ маркетингового плана или парсинг сайтов конкурентов или анализ рекламных текстов с помощью NLP. Или, даже строишь приборную доску управления производственного предприятия будучи простым менеджером/инженером. Или ведёшь обработку научных данных.

Knime позволяет, конечно, и код писать, причём на трёх языках Python, Java, R, но это не обязательно. Бизнес-процессы знаешь, рисуешь? Вперёд!

Разумеется, при работе с огромными массивами данных, требования к компьютерным ресурсам возрастают. И что делать, если вам доступен простенький офисный или домашний компьютер? Или, если вы видите что аренда облачного ресурса на месяц дороже, чем купить компьютер с 64Гб оперативной памяти и процессором гоняющим Atomic Heart или Hogwartz Legacy на среднемалках?

Читать: https://habr.com/ru/articles/728204/

600 views22:17

Data Analysis / Big Data

NER: Как мы обучали собственную модель для определения брендов. Часть 2

Привет всем! Сегодня продолжим рассказ о том, как наша команда Data Science из CleverData начала выделять бренды в строках онлайн-чеков. Цель такого упражнения — построение отчета для бренд-анализа, о котором мы подробно рассказали в первой статье на эту тему. Из второй части вы узнаете, как на базе пайплайна (сводки с данными) для получения разметки по брендам мы обучили собственную NER-модель.

Читать: https://habr.com/ru/companies/lanit/articles/725960/

561 views07:07

Data Analysis / Big Data

Evolving beyond data-driven

Many businesses proclaim, "We are a data-driven business" or "We make our decisions using data." But what does it really mean to be data-driven? Why is being Analytics-Driven the next step for businesses? In order to truly thrive in a modern analytics-driven culture, businesses need to evolve beyond just being data-driven and embrace modern analytics techniques like artificial intelligence and machine learning (AI/ML).

Read: https://blogs.oracle.com/analytics/post/evolving-beyond-datadriven

533 views11:58

Data Analysis / Big Data

Подборка актуальных вакансий

— Аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

— Product Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет

— Аналитик
Где: удалённо
Опыт: от 2 лет

— Service Delivery Manager
Где: удалённо
Опыт: от 3 лет

— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

— Web-аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

— Full-stack аналитик
Где: удалённо
Опыт: от 2 лет

— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

— Аналитик ПО Диасофт FA# (Digital Q)
Где: Москва, можно удалённо
Опыт: от 2 лет

— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

— Системный аналитик
Где: Москва
Опыт: от 1 года

— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

#вакансии #работа

522 views13:00

Data Analysis / Big Data

Как мы создавали техкомьюнити

Мы – команда DataOffice Ростелекома. Мы занимаемся всеми большими данными нашей большой компании. Собираем данные из сотен систем источников, внедряем современные технологии, создаем собственные продукты для работы с данными и, конечно, используем технологии искусственного интеллекта.

Для того, чтобы заниматься большими данными такой большой компании нам нужна большая команда. У нас команда больше 300 человек и все они занимаются разными проектами, работают с разными технологиями, но все любят данные и очень любознательные.
Как мы создавали техкомьюнити

Читать: https://habr.com/ru/companies/rostelecom/articles/728128/

514 views14:05

Data Analysis / Big Data

Long live anonymity

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/04/long-live-anonymity.html

554 views14:08

Data Analysis / Big Data

11 советов для начинающих в SQL

SQL является одним из основных инструментов, используемых при работе с базами данных. Однако, многие программисты не пользуются всеми возможностями SQL, что приводит к меньшей производительности и более сложной работе с базой данных в целом.

В этой статье мы разберем 11 практических советов, которые помогут вам в обучение SQL.

Читать: https://habr.com/ru/articles/728420/

635 views16:18

Data Analysis / Big Data

AI-as-a-service: доступный ИИ и анализ данных

До недавнего времени многие компании отказывались от использования искусственного интеллекта в своем бизнесе, поскольку для этого требовались слишком большие затраты. Покупка необходимого оборудования и настройка программного обеспечения для запуска локального облачного ИИ обходится дорого. Добавьте к этому расходы на персонал, техническое обслуживание и перенастройку существующего оборудования, и ИИ станет непомерно дорогим для большинства организаций. Но все меняется с появлением такой услуги, как AI as a Service (AIaaS). О ней сегодня и поговорим.

Читать: https://habr.com/ru/companies/first/articles/728348/

571 views08:20

Data Analysis / Big Data

Алгоритм рекомендаций Twitter: как он работает

Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.

В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.

Он подойдет:

- любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,

- Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.

Читать: https://habr.com/ru/articles/727786/

👍1

570 views10:48

Data Analysis / Big Data

Почему объём данных важен для повышения стабильности модели глубокого обучения

Глубокое обучение — один из важнейших инструментов анализа огромных объёмов данных. Оно управляет принятием решений во всех сферах деятельности, адаптируясь к точности передаваемых ему людьми знаний.

Однако может случиться и так, что модели предоставят слишком большой объём информации, поскольку задача глубокого обучения заключается в нахождении паттернов и связей между примерами данных с целью ответов на вопросы и подтверждения гипотез. Чем же является уменьшение масштабов датасета ради стабильности и эффективности: недостатком или преимуществом?

Ниже мы расскажем о том, почему при повышении стабильности модели глубокого обучения так важен размер данных.

Читать: https://habr.com/ru/articles/725440/

582 views10:58

Data Analysis / Big Data

FineBI 6.0: 9 полезных обновлений, о которых вы не знали

Хабр, привет! Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.

Читать: https://habr.com/ru/companies/glowbyte/articles/728680/

554 views15:15

Data Analysis / Big Data

Пять примеров успешного использования ИИ на производстве

В октябре 2019 года компания Microsoft заявила о том, что искусственный интеллект помогает производственным компаниям обгонять по показателям конкурентов: использующие ИИ производители показывают результаты на 12% лучше, чем их соперники. Поэтому мы скорее всего увидим всплеск применения технологий ИИ на производстве, а также рост новых высокооплачиваемых должностей в этой области.

В статье мы расскажем о пяти примерах использования ИИ-технологий на производстве. Также мы поделимся историями успеха современных промышленных компаний, проанализировав, как внедрение ИИ помогло их бизнесу.

Читать: https://habr.com/ru/articles/727358/

639 views15:55

Data Analysis / Big Data

Лучшие практики при работе с мастер-данными

Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.

Читать: https://habr.com/ru/companies/magnit/articles/728676/

601 views06:15

Data Analysis / Big Data

Кто такой BI-аналитик и как им стать

Сегодня такой специалист очень востребован, ведь он собирает, интерпретирует и визуализирует данные. Это помогает бизнесу лучше понимать свои продукты и зарабатывать.

Подробнее о том, как устроена эта профессия и какие у неё перспективы рассказали специалисты КРОК:

https://tprg.ru/PtXN

#bi

👍1

666 views07:01

Data Analysis / Big Data

Как устроен massively parallel processing (MPP) в Trino

Из нашей повседневной практики доподлинно известно, что массивно(массово?)-параллельные вычисления это круто. Но что именно означает этот термин, и как "массивность" и "параллельность" реализованы в конкретной системе? В данной статье мы ответим на оба вопроса, проанализировав внутреннюю архитектуру популярного MPP-движка для больших данных Trino.

Читать: https://habr.com/ru/companies/cedrusdata/articles/729004/

620 views17:40

Data Analysis / Big Data

Дорожная карта для Дата-Инженера в 2023 году

Как я бы учился Data Engineering в 2023 году (если бы мог начать заново)

Начало карьеры в Data Engineering может быть ошеломляющим из-за большого количества инструментов и технологий доступных на рынке.

Часто возникают вопросы: "Следует ли мне сначала изучать Databricks или Snowflake? Стоит ли сосредоточиться на Airflow или Hadoop?"

В этой стате я расскажу вам обо всем, начиная с базового уровня и заканчивая продвинутым уровнем всех ресурсов и навыков, которые понадобятся вам для того, чтобы стать профессионалом в области Data Engineering.

Читать: https://habr.com/ru/articles/729006/

804 views17:50

Data Analysis / Big Data

Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.

Читать: https://habr.com/ru/companies/mts_ai/articles/726012/

683 views14:44