Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.4K photos
119 videos
64 files
4.85K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Алгоритм кластеризации K-средних
Сначала рассмотрим проблему кластеризации с 1 измерением, а затем обобщим ее для нескольких измерений.

#статьядня

https://prglb.ru/3br99
​​Как профессионально вырасти аналитику? Можно заняться анализом big data или изучить машинное обучение. Как разработчику прокачать навыки и размять мозг? Можно выучить новый язык программирования — например, Python — и заняться нейронными сетями. Как менеджеру отвлечься от дашбордов и начать делать что-то интересное и полезное? Можно освоить новую профессию, востребованную на рынке.

Аналитик вы, разработчик или новичок в сфере IT — каждому будет полезна профессия data scientist. Многие знают про существование дата-сайентистов, но не все понимают, в чём заключается их работа и обязанности. Этот текст поможет разобраться, чем занимаются исследователи данных, чем они отличаются от аналитиков и как освоить эту востребованную профессию: https://clck.ru/GeYas
Набор данных с открытым исходным кодом Global Company на Kaggle

Для тех, кто разрабатывает платформу, инструмент, продукт или работает над проектом данных:
-LinkedIn URLs
-Domains
-Размер компании
-Текущее количество работников
-Расположение (город, штат, страна)

#статьядня

https://prglb.ru/3ujif
Kaggle TrackML Particle Tracking: трекинг частиц
Артур Фаттахов и Константин Гаврильчик рассказывают про конкурс на Kaggle по трекингу частиц, по результатам которого они в команде с Павлом Плесковым вошли в серебро.
Из видео вы сможете узнать:
 ⁃ Про нестандартную задачу и особенности данных
 ⁃ Различные подходы к решению и как выбрать лучший
 ⁃ Генерацию и отбор признаков
 ⁃ Детали лучшего решения

#статьядня

https://prglb.ru/4vipf
crowdAI IEEE Investment Ranking Challenge: предсказание доходности ценных бумаг
Кирилл Романов рассказывает про задачу предсказания доходности ценных бумаг.

#видеодня

https://prglb.ru/5m7en
Долгосрочная дорожная карта Data Science, которая НЕ поможет вам стать экспертом всего за несколько месяцев
Стать специалистом Data Science это не просто и не быстро и требует много усилий! Но если вы заинтересованы, это того стоит.

#статьядня

https://prglb.ru/2fvc2
Elements of Statistical Learning
Автор: Hastie, Tibshirani, Friedman

Теория статистического обучения играет ключевую роль во многих областях науки, финансов и промышленность. Вот несколько примеров проблем с обучением:

1. Предсказать, будет ли пациент, госпитализированный из-за сердечного приступа, иметь второй сердечный приступ. Прогноз должен быть основан на демографических, диетических и клинических измерениях для этого пациента.
2. Предсказать цену акции через 6 месяцев, исходя из показателей деятельности компании и экономических данные.
3. Определить факторы риска развития рака предстательной железы на основе клинических и демографических переменных и т.д.

#книгадня

https://prglb.ru/4nnmx
Разработан метод, который ускорит распознавание образов нейросетями

Российский исседователь Андрей Савченко создал метод, который позволяет ускорить распознавание образов на видео. Обученная по новому алгоритму нейросеть принимает решения в десять раз быстрее.

#статьядня

https://prglb.ru/4ymm7
Методы ансамблирования обучающихся алгоритмов
Автор: Гущин Александр Евгеньевич

Одним из наиболее общих и эффективных в смысле достигаемого качества методов ансамблирования является стекинг, идея которого состоит в использовании предсказаний базовых алгоритмов в качестве признаков для некоторого метаалгоритма.
В данной работе предлагается модификация стекинга, стремящаяся компенсировать эти недостатки.

#книгадня

Читать книгу:
https://prglb.ru/52o0h
Математика для Machine Learning

Книга разделена на две части:
1. Математические основы
2. Примеры алгоритмов машинного обучения, использующих математические основы

#книгадня

https://prglb.ru/3a6yd
Качественно новый уровень визуализации данных в Python
Для создания графиков на Python настали светлые времена!
После изучения доступных вариантов автор выбрал явного победителя (с точки зрения простоты использования, документации и функциональности) в лице библиотеки plotly.
В этой статье автор познакомит вас с данной библиотекой и научит делать более качественные графики за меньшее время — зачастую с помощью одной строки кода.

#статьядня

https://prglb.ru/4wwxb
Что «видят» нейронные сети с помощью FlashTorch
Набор инструментов визуализации данных с открытым исходным кодом для нейронных сетей в PyTorch

#статьядня

https://prglb.ru/czsy