Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
CDC (Сбор измененных данных): раскрытие и примеры возможностей интеграции данных в режиме реального времени

CDC (Сбор измененных данных): раскрытие и примеры возможностей интеграции данных в режиме реального времени.

В статье кратко раскрывается понятие CDC и примеры использования данного подхода.


Читать: https://habr.com/ru/articles/747560/
Прибытие тензорного поезда. Как достижения мультилинейной алгебры помогают преодолеть проклятие размерности

Привет! Меня зовут Глеб Рыжаков, я научный сотрудник Сколтеха. Я занимаюсь математикой, а точнее, линейной алгеброй, и её приложениями к практическим задачам. Сегодня я расскажу вам о нашем исследовании, которое может помочь справиться с проблемой проклятия размерности, которая возникает во множестве статистических задач, включая машинное обучение.

Понятие «проклятие размерности» появилось в середине прошлого века в пионерской работе Ричарда Беллмана, посвященной методам решения сложных задач путём разбиения их на более простые подзадачи. Сегодня оно понимается в более общем смысле, а именно как экспоненциальный — O(nd) — рост количества необходимых данных и, как следствие, количества памяти, необходимой для их хранения, с ростом размерности пространства d. Когда задачу можно свести к работе с многомерными массивами в общем случае комплексных чисел, удобно говорить о d-мерных тензорах и использовать достижения мультилинейной алгебры. Хорошая новость заключается в том, что там существует такая процедура, как тензорное разложение, которое в ряде случаев может помочь преодолеть проклятие размерности.


Читать: https://habr.com/ru/companies/airi/articles/747626/
What's the Difference Between AI, Machine Learning, and Deep Learning?

AI, machine learning, and deep learning - these terms overlap and are easily confused, so let’s explore them through fun examples and explanations.

Read: https://blogs.oracle.com//post/whatx27s-the-difference-between-ai-machine-learning-and-deep-learning
Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Эта сфера уже охватила не только оценку повреждений транспорта, но и другие виды собственности, например, недвижимость.

Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными. Из-за расширения области действия таких сервисов на разные регионы стало необходимым получение из каждого региона данных, аннотированных в точности согласно таксономии каждой страховой компании.


Читать: https://habr.com/ru/articles/744688/
Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.


Читать: https://habr.com/ru/companies/rosbank/articles/747816/
Oracle Fusion Analytics - Get notified when your data refresh completes using event notifications

FAW Event Producer Service is an effective automated solution for creating consolidated events and notification workflows, which can streamline your business operations in Oracle Fusion Analytics. This feature is available in Preview. By subscribing to data load completion and estimated load completion in Fusion Analytics, you can monitor and manage your workflows more effectively.

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-warehouseget-notified-when-your-data-load-completes-using-event-notifications
Как оптимизировать процесс привлечения клиентов B2B с помощью методов Продвинутой Аналитики

Мы, как Банк, привлекаем новых корпоративных клиентов по всей сети отделений Альфа-Банка в регионах/городах РФ. И чтобы это делать эффективно, требуются инструменты, которые позволят оценивать результат тех или иных управленческих действий в разрезе конкретных регионов нашего присутствия. У каждого региона есть определенная специфика: географическая, экономическая, рыночная. И нам необходимо понимать: сколько наших продуктов мы можем потенциально продать в этом регионе и получить новых клиентов, и какой ресурс для этого требуется.

Иначе говоря — бизнесу необходим инструмент эффективного управления численностью менеджеров с точки зрения того, сколько клиентов может привести каждый менеджер, и как это изменит рыночные показатели Альфы в динамике в среднесрочном и долгосрочном периоде. Например, оправдано ли стратегически решение об экспансии в регион на горизонте 3 лет? Удастся ли компенсировать понесённые затраты за счет роста доли рынка и количества активной клиентской базы? Эту задачу можно решить с помощью методов продвинутой аналитики.

В статье мы поделимся примером первого практического применения Продвинутой Аналитики в процессах стратегического бизнес-планирования численности ресурсов Сети для привлечения клиентов Юридических Лиц.


Читать: https://habr.com/ru/companies/alfa/articles/747742/
Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта

Собрали лучшие материалы по Python с 1 по 14 июля. Узнайте, как сделать из скрипта исполняемый файл и как настроить автопостинг в ВК.

Читать: «Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта»
Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта

Собрали лучшие материалы по Python с 1 по 14 июля. Узнайте, как сделать из скрипта исполняемый файл и как настроить автопостинг в ВК.

Читать: «Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта»
Нейронные сети врываются в медицину

Доброго времени суток habr, на связи Николай Иванов, студент-магистр 1 курса Сколтеха факультета Data Science. С почином, так как это моя первая, и, надеюсь, не последняя статья на habr. С того момента как я познакомился с областью Deep Learning прошло уже около двух лет. С самого начала мне была интересна область обработки естественного языка (Natural Laguage Processing, NLP), о некоторых задачах которой и результатах я попробую рассказать в этой статье. В мае 2023 года начался мой путь в Sber AI Lab в замечательном центре медицины. Мой рассказ будет в какой-то степени сравнением того что было сделано до меня и того, какие идеи мы развили, что получилось, а что не получилось. Хочу сослаться на замечательную статью Даниила (https://habr.com/ru/articles/711700/), который использовал модель RuBioBERTa для задач из MedBench. Я же буду использовать другое решение, посмотрим, чем оно лучше, чем хуже и вообще насколько подходит для NLP-задач в медицине.
Немного оффтопа

Я очень рад, что каждый месяц появляются новые, более сложные и интересные архитектуры, реализующие смелые идеи, которые двигают вперёд области Deep Learning, NLP и Computer Vision (CV), но сколько из них реально используются в прикладных задачах? Вот оценка внедрения AI решений по странам (на основании отчёта IBM Global AI Adoption Index 2022):


Читать: https://habr.com/ru/articles/748200/
Большие данные и огромные сомнения

Беллетристические размышления не-айтишника о том, бывает ли много данных, когда решил научиться чему-то новому, как побороть сомнения в своих способностях, с благодарностью вспомнить былое и крутануть в очередной раз шестерёнку.


Читать: https://habr.com/ru/articles/748238/
Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.


Читать: https://habr.com/ru/companies/sberbank/articles/748406/
1
Фантастические pandas

Размышления о том, как перейти от тяжёлых мыслей о конкуренции в IT к любви к фантастическим мишкам и восклицательным знакам, если правильно и вовремя импортируешь нужные библиотеки.


Читать: https://habr.com/ru/articles/748556/
Как «Строки» подбирают контент, который понравится читателям

Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС.

Читать: «Как «Строки» подбирают контент, который понравится читателям»
Что такое Data science? Простыми словами о сложном

Data science это о том, что нас окружает и влияет на наши решения. Это искусство получения знаний из данных, которое предстоит познать каждому в разной степени. Ведь сегодня наука о данных приобретает огромное значение для бизнеса, промышленности и исследований на фоне растущей диджатилизации. Впервые услышав о Data science, вам, скорее всего покажется это чем-то невероятно сложным и недоступным. Но стоит лишь немного разобраться в этой теме, вы откроете для себя эту дисциплину совершенно с другой стороны.


Читать: https://habr.com/ru/articles/748914/
Setting Up Custom Human Resource Analyst and Line Manager Data Security Access

Grant the least restrictive data access to line managers and enable them to have access to larger data sets than just their supervisory organization for user persona with human resource analyst and line manager groups.

Read: https://blogs.oracle.com/analytics/post/setting-up-custom-hr-analyst-and-line-manager