Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.71K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
11 советов для начинающих в SQL

SQL является одним из основных инструментов, используемых при работе с базами данных. Однако, многие программисты не пользуются всеми возможностями SQL, что приводит к меньшей производительности и более сложной работе с базой данных в целом.

В этой статье мы разберем 11 практических советов, которые помогут вам в обучение SQL.


Читать: https://habr.com/ru/articles/728420/
AI-as-a-service: доступный ИИ и анализ данных

До недавнего времени многие компании отказывались от использования искусственного интеллекта в своем бизнесе, поскольку для этого требовались слишком большие затраты. Покупка необходимого оборудования и настройка программного обеспечения для запуска локального облачного ИИ обходится дорого. Добавьте к этому расходы на персонал, техническое обслуживание и перенастройку существующего оборудования, и ИИ станет непомерно дорогим для большинства организаций. Но все меняется с появлением такой услуги, как AI as a Service (AIaaS). О ней сегодня и поговорим.


Читать: https://habr.com/ru/companies/first/articles/728348/
Алгоритм рекомендаций Twitter: как он работает

Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.

В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.

Он подойдет:

- любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,

- Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.


Читать: https://habr.com/ru/articles/727786/
👍1
Почему объём данных важен для повышения стабильности модели глубокого обучения

Глубокое обучение — один из важнейших инструментов анализа огромных объёмов данных. Оно управляет принятием решений во всех сферах деятельности, адаптируясь к точности передаваемых ему людьми знаний.

Однако может случиться и так, что модели предоставят слишком большой объём информации, поскольку задача глубокого обучения заключается в нахождении паттернов и связей между примерами данных с целью ответов на вопросы и подтверждения гипотез. Чем же является уменьшение масштабов датасета ради стабильности и эффективности: недостатком или преимуществом?

Ниже мы расскажем о том, почему при повышении стабильности модели глубокого обучения так важен размер данных.


Читать: https://habr.com/ru/articles/725440/
FineBI 6.0: 9 полезных обновлений, о которых вы не знали

Хабр, привет! Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.


Читать: https://habr.com/ru/companies/glowbyte/articles/728680/
Пять примеров успешного использования ИИ на производстве

В октябре 2019 года компания Microsoft заявила о том, что искусственный интеллект помогает производственным компаниям обгонять по показателям конкурентов: использующие ИИ производители показывают результаты на 12% лучше, чем их соперники. Поэтому мы скорее всего увидим всплеск применения технологий ИИ на производстве, а также рост новых высокооплачиваемых должностей в этой области.

В статье мы расскажем о пяти примерах использования ИИ-технологий на производстве. Также мы поделимся историями успеха современных промышленных компаний, проанализировав, как внедрение ИИ помогло их бизнесу.


Читать: https://habr.com/ru/articles/727358/
Лучшие практики при работе с мастер-данными

Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.


Читать: https://habr.com/ru/companies/magnit/articles/728676/
Кто такой BI-аналитик и как им стать

Сегодня такой специалист очень востребован, ведь он собирает, интерпретирует и визуализирует данные. Это помогает бизнесу лучше понимать свои продукты и зарабатывать.

Подробнее о том, как устроена эта профессия и какие у неё перспективы рассказали специалисты КРОК:

https://tprg.ru/PtXN

#bi
👍1
Как устроен massively parallel processing (MPP) в Trino

Из нашей повседневной практики доподлинно известно, что массивно(массово?)-параллельные вычисления это круто. Но что именно означает этот термин, и как "массивность" и "параллельность" реализованы в конкретной системе? В данной статье мы ответим на оба вопроса, проанализировав внутреннюю архитектуру популярного MPP-движка для больших данных Trino.


Читать: https://habr.com/ru/companies/cedrusdata/articles/729004/
Дорожная карта для Дата-Инженера в 2023 году

Как я бы учился Data Engineering в 2023 году (если бы мог начать заново)

Начало карьеры в Data Engineering может быть ошеломляющим из-за большого количества инструментов и технологий доступных на рынке.

Часто возникают вопросы: "Следует ли мне сначала изучать Databricks или Snowflake? Стоит ли сосредоточиться на Airflow или Hadoop?"

В этой стате я расскажу вам обо всем, начиная с базового уровня и заканчивая продвинутым уровнем всех ресурсов и навыков, которые понадобятся вам для того, чтобы стать профессионалом в области Data Engineering.


Читать: https://habr.com/ru/articles/729006/
Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.


Читать: https://habr.com/ru/companies/mts_ai/articles/726012/
Как IT-специалисты-экологи спасут планету

Всем привет! Я тот самый человек, который учится на бакалавриате по направлению "Экология и природопользование" в обычном Российском ВУЗе. И будучи человеком, которому трудно утолить жажду знаний, мне приходится часто себя ловить на мыслях об улучшении и оптимизации многих процессов, в том числе и в образовании. В целом, образовательная программа моего ВУЗа достаточно неплоха, и мы получаем от преподавателей (конечно же, не от всех) информацию из научных кругов, говорим о инновационных исследованиях и приборах, которые дают новый толчок в изучении такой многокомпонентной науки как экология.

Я думаю, не трудно догадаться, что в современных реалиях все завязано на IT, в том числе и экология. Все меньше становится природных процессов, в которых не используются информационные технологии. Честно, даже затрудняюсь привести такой пример. И вот тут возникает реальная проблема подготовки квалифицированных кадров, которые должны отвечать современным требованиям. И я тут даже не про работодателей, а про жизнь – обычную человеческую бытовуху. Мир меняется бешенными темпами — это факт. Природные процессы меняются, как и мы с вами – также стремительно и безвозвратно. Научное сообщество даже не сразу успевает эти изменения детектировать и осмыслять, поэтому вопрос поиска и подготовки специалистов на стыке нескольких наук не менее актуальная проблема чем изменение климата.

С вашего позволения я попытаюсь рассмотреть некоторые проблемы и пути решения подготовки айтишников-экологов/экологов-айтишников, а также ответить на вопрос как IT-специалисты-экологи спасут планету.


Читать: https://habr.com/ru/articles/729268/
Create and schedule aggregates without an ETL tool in Oracle Fusion Analytics Warehouse

As enterprise data volumes surge, customers of Oracle Fusion Analytics Warehouse often need to create custom aggregate tables. This article addresses this critical need by outlining how custom aggregates can be created from transactional fact tables and scheduled automatically.

Read: https://blogs.oracle.com/analytics/post/create-schedule-aggregates
Кто я аналитик данных или датасаентист?

По данным аналитической компании IDC, в 2020 году в мире было произведено более 64 зеттабайт данных (для справки: 1 зеттабайт равен 10²¹ байтов). По прогнозам, к 2025 году объем всех данных в мире составит 175 зеттабайт. Важно подчеркнуть, что эта тенденция растет, и правильное использование данных может сыграть решающую роль в развитии многих отраслей.  Глобальный рост объема информации еще раз подчеркивает незаменимость и актуальность профессий по работе с анализом данных.

Привет, Хабр! Меня зовут Алексей. И вот уже около 2 лет я работаю в компании Мегапьютер аналитиком данных. А есть еще одна профессия, связанная с обработкой данных – это Data Scientist.

В 50% статей в интернете написано, что аналитик данных и Data Scientist (датасаентист), это одно и тоже, а другие 50% за абсолютную разницу данных профессий. Одной из ключевых задач аналитика является обработка данных, такая же задач стоит и перед Data Scientist. Я решил понять к какой профессии я больше отношусь и почему.

Разбираемся. Big Data Analyst переводится как аналитик больших данных кем я работаю, а Data Scientist  переводиться как специалист по изучению или обработки данных. Яндекс Дзен дает такую формулировку и разбивает способности на такие критерии. Отличия аналитика данных от data scientist: в чем разница между специальностями (yandex.ru)


Читать: https://habr.com/ru/articles/729520/
👏1
Достучаться до ИИ: сезон больших данных на Хабре

Ладно, не заливай! Ни разу не был на берегах Data Lake?! Пойми, в IT только и говорят, что о Data Lake! Как оно бесконечно прекрасно. О бигдате и графах, которые они видели. О том, как дата-сайентист, погружаясь в море данных, преисполнился знания. Мы не хотим, чтобы Хабр там наверху окрестили как-нибудь не так, а потому ещё с начала года мощно прокачиваем ИИ-ландшафт самыми хардкорными и глубокими текстами: уже отгремел сезон ML, закончилась неделя нейроарта, а теперь совместно с Газпромбанком стартует сезон Big Data.


Читать: https://habr.com/ru/specials/729234/
Дайджест Python #7: аналоги ChatGPT и обновления фреймворков

Собрали лучшие новости о Python с 1 по 15 апреля. Узнайте, как написать свой Duolingo и как изменились фреймворки для работы с Big Data.

Читать: «Дайджест Python #7: аналоги ChatGPT и обновления фреймворков»
Visiology 3.2: вот теперь действительно можно в прод

Привет, Хабр! Сегодня мы делимся новшествами в нашем релизе Visiology 3.2, а также раскрываем улучшения, которые коснулись второй версии платформы в релизе 2.31. Самым важным событием этого обновления стоит считать отказ от маркировки Preview. Таким образом, начиная с Visiology 3.2 мы готовы предлагать нашу BI-платформу с поддержкой наиболее распространенных операторов DAX, визуальной моделью данных как альтернативу Microsoft Power BI и другим аналитическим системам. Под катом — новое в модели доступа, улучшение скорости на 60+%, подключение CSV, пользовательские виджеты и многое другое, в общем — подробный разбор улучшений в Visiology 3.2 и Visiology 2.31.


Читать: https://habr.com/ru/companies/visiology/articles/729582/
Геопространственные технологий для управления паспортом медицинского участка

Все началось с голосовых роботов. Во время борьбы с Ковидом наш коллцентр, носящий теперь гордое имя Центр телефонного обслуживания граждан 122, все чаще и чаще выстраивал очереди со временем ожидания ответа оператора свыше 30 минут. Нанять больше людей и начать стабильно укладываться в норматив ответа оператора менее 3-х минут не позволяли размеры помещения и фонда оплаты труда.

Стали пробовать решения для автоматизации контакт центров, которые можно было бы интегрировать с медицинской информационной системой (МИС). За 3 месяца пилотирования NLP продукта и его интеграции действующие в бизнес-процессы удалось добиться вменяемых результатов по распознаванию номеров медицинских полисов, адресов проживания и имени пациентов. Даже удалось удержать среднее время обслуживания одного звонка на уровне 100 секунд… Однако процент автоматических обслуженных обращений болтался в диапазоне от 11 до 30 процентов, и пациенты продолжали томится в ожидании ответа оператора.

Виной низкой эффективности проекта роботизации коллцентра послужило состояние адресной базы МИС и серьезные различия в бизнес правилах бюджетных медицинских учреждений. Мы с вами часто меняем место жительства и ни перед кем за это не отчитываемся. Строительные компании увлечены реновацией и на месте ветхих бараков, гаражных кооперативов или промышленных пустошей появляются многоэтажки, о заселении которых медицинские организации узнают по телефону, когда нам требуется врач. Про оперативное информационное взаимодействие органов внутренних дел, управлений архитектуры и органов охраны здоровья остается только мечтать.


Читать: https://habr.com/ru/articles/729612/
Дайджест Python #7: аналоги ChatGPT и обновления фреймворков

Собрали лучшие новости о Python с 1 по 15 апреля. Узнайте, как написать свой Duolingo и как изменились фреймворки для работы с Big Data.

Читать: «Дайджест Python #7: аналоги ChatGPT и обновления фреймворков»