Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Нейронные сети врываются в медицину

Доброго времени суток habr, на связи Николай Иванов, студент-магистр 1 курса Сколтеха факультета Data Science. С почином, так как это моя первая, и, надеюсь, не последняя статья на habr. С того момента как я познакомился с областью Deep Learning прошло уже около двух лет. С самого начала мне была интересна область обработки естественного языка (Natural Laguage Processing, NLP), о некоторых задачах которой и результатах я попробую рассказать в этой статье. В мае 2023 года начался мой путь в Sber AI Lab в замечательном центре медицины. Мой рассказ будет в какой-то степени сравнением того что было сделано до меня и того, какие идеи мы развили, что получилось, а что не получилось. Хочу сослаться на замечательную статью Даниила (https://habr.com/ru/articles/711700/), который использовал модель RuBioBERTa для задач из MedBench. Я же буду использовать другое решение, посмотрим, чем оно лучше, чем хуже и вообще насколько подходит для NLP-задач в медицине.
Немного оффтопа

Я очень рад, что каждый месяц появляются новые, более сложные и интересные архитектуры, реализующие смелые идеи, которые двигают вперёд области Deep Learning, NLP и Computer Vision (CV), но сколько из них реально используются в прикладных задачах? Вот оценка внедрения AI решений по странам (на основании отчёта IBM Global AI Adoption Index 2022):


Читать: https://habr.com/ru/articles/748200/
Большие данные и огромные сомнения

Беллетристические размышления не-айтишника о том, бывает ли много данных, когда решил научиться чему-то новому, как побороть сомнения в своих способностях, с благодарностью вспомнить былое и крутануть в очередной раз шестерёнку.


Читать: https://habr.com/ru/articles/748238/
Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.


Читать: https://habr.com/ru/companies/sberbank/articles/748406/
1
Фантастические pandas

Размышления о том, как перейти от тяжёлых мыслей о конкуренции в IT к любви к фантастическим мишкам и восклицательным знакам, если правильно и вовремя импортируешь нужные библиотеки.


Читать: https://habr.com/ru/articles/748556/
Как «Строки» подбирают контент, который понравится читателям

Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС.

Читать: «Как «Строки» подбирают контент, который понравится читателям»
Что такое Data science? Простыми словами о сложном

Data science это о том, что нас окружает и влияет на наши решения. Это искусство получения знаний из данных, которое предстоит познать каждому в разной степени. Ведь сегодня наука о данных приобретает огромное значение для бизнеса, промышленности и исследований на фоне растущей диджатилизации. Впервые услышав о Data science, вам, скорее всего покажется это чем-то невероятно сложным и недоступным. Но стоит лишь немного разобраться в этой теме, вы откроете для себя эту дисциплину совершенно с другой стороны.


Читать: https://habr.com/ru/articles/748914/
Setting Up Custom Human Resource Analyst and Line Manager Data Security Access

Grant the least restrictive data access to line managers and enable them to have access to larger data sets than just their supervisory organization for user persona with human resource analyst and line manager groups.

Read: https://blogs.oracle.com/analytics/post/setting-up-custom-hr-analyst-and-line-manager
Каталог данных на примере DataHub. Часть I

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных.

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.
Погнали 🚀

Читать: https://habr.com/ru/articles/748350/
Единая нейросетевая модель кредитного скоринга

Сейчас в Альфа-Банке при построении моделей используется множество различных источников данных. Мы в Лаборатории машинного обучения уже несколько лет применяем нейронные сети на последовательностях для решения задачи кредитного скоринга и построили модели на данных карточных транзакций, транзакций расчетного счета и кредитных историй. Повышение качества в задаче кредитного скоринга позволяет банку выдавать большее количество кредитов при неизменном уровне риска, что напрямую влияет на его прибыль.

Моделей становится все больше, и возникает вопрос: почему бы нам не смешивать модели не на уровне их предсказаний, а на некотором более низком уровне? Эта идея приводит нас к новому способу смешивания - построению единой нейросетевой модели, работающей со всеми источниками последовательных данных и учитывающей их взаимное влияние друг на друга. В этой статье мы расскажем, как нам удалось разработать такую модель и каких результатов она позволяет добиться в задаче кредитного скоринга.


Читать: https://habr.com/ru/companies/alfa/articles/748824/
Подборка актуальных вакансий для аналитиков

Аналитик 1С в Гринатом
Где: удалённо
Опыт: можно без опыта

Системный аналитик в МТС
Где: удалённо
Опыт: от 1 года

Аналитик в Гринатом
Где: удалённо
Опыт: от 1 года

Системный аналитик в Открытие
Где: удалённо
Опыт: от 2 лет

Системный аналитик в Открытие
Где: удалённо
Опыт: от 2 лет

Full-stack аналитик в Открытие
Где: удалённо
Опыт: от 2 лет

Продуктовый аналитик в Открытие
Где: Москва, можно удалённо
Опыт: от 2 лет

Web-аналитик в Открытие
Где: Москва, можно удалённо
Опыт: от 2 лет

Системный аналитик в Открытие
Где: Москва, можно удалённо
Опыт: от 2 лет

Аналитик ПО Диасофт FA# (Digital Q) в Открытие
Где: Москва, можно удалённо
Опыт: от 2 лет

Системный аналитик в Открытие
Где: Москва, можно удалённо
Опыт: от 2 лет

Системный аналитик в Гринатом
Где: удалённо
Опыт: от 3 лет

Консультант-аналитик 1C:Документооборот в Гринатом
Где: удалённо
Опыт: от 3 лет

Аналитик / Технолог в Иннотех
Где: удалённо
Опыт: от 3 лет

#вакансии #работа
👍1
Share your data flows in Oracle Analytics Cloud

Learn how to use the data flow sharing feature to enable collaborative data preparation in Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/share-your-oac-data-flows
Департамент Big Data Tele2 научил ИИ анализировать автомобильный трафик по всей России

И не просто анализировать, а делать выводы о социально-демографических характеристиках автомобилистов.


Читать: https://habr.com/ru/companies/tele2/articles/749094/
Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Привет, Хабр! Легендарная команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем опасном бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.


Читать: https://habr.com/ru/companies/magnit/articles/748680/
1
Сравниваем модели машинного обучения с применением статистических тестов

При изучении учебных программ по machine learning я заметила недостаток материалов, посвященных сравнению моделей. Меня зовут Виолетта, я как data scientist в QIWI ежедневно занимаюсь оценкой данных и обучением моделей машинного обучения. В этой статье я рассмотрю три метода сравнения моделей.

Материал будет полезен для сравнения классических моделей, таких как регрессионные модели или модели классификации, на больших таблицах. Акцент в тексте я сделала на методике сравнительного анализа, без учета оптимизации времени тестирования.


Читать: https://habr.com/ru/companies/qiwi/articles/749274/
Modus BI Cloud: работа с данными в облаке

Привет, Хабр, на product owner компании Modus Александр Чебанов. Сегодня поговорим про работу и анализ данных в облаке, а еще об архитектуре нашего нового облачного BI для малого и среднего бизнеса.


Читать: https://habr.com/ru/companies/modusbi/articles/749432/
Как мы снизили нагрузку на SAP HANA незаметно для пользователей

Объем информации в корпоративном хранилище данных (КХД) со временем неизбежно начинает превышать запланированные изначально мощности. Обычно эта проблема решается тем, что докупаются недостающие мощности (будет дорого). Когда с такой ситуацией столкнулся наш клиент, мы предложили ему другое решение. Оно позволило сэкономить бюджеты и сделать переходный период максимально безболезненным.

Читайте, что именно мы сделали и какой был результат.


Читать: https://habr.com/ru/companies/sapiens_solutions/articles/747142/