Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.8K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
#книгадня

«Deep Learning» под авторством таких знаменитых в Data Science людей, как
Ian Goodfellow, Yoshua Bengio и Aaron Courville. Книга подробно рассказывает о различных глубоких нейросетевых архитектурах, погружая во всю математику, которая за ними стоит. В начале книги покрываются математические основы, используемые в нейросетях.

Читать: https://www.deeplearningbook.org
​​#алгоритмдня
Метод наименьших квадратов — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, а также для аппроксимации точечных значений некоторой функции.

Используйте этот алгоритм, чтобы соответствовать простым кривым/регрессии.

Полезные ссылки
Документация по numpy.linalg.lstsq
Документация по модулю numpy
Документация по модулю по numpy.polyfit
Вводный гайд по линейным регрессия от Стенфорда
jupyter notebook быстро стали популярными в data science сообществе и де-факто являются индустриальным стандартом в быстром прототипировании и исследовательском анализе. Ребята из Нетфликса пошли дальше и решили переосмыслить то, чем мог быть notebook, кто его может использовать, что они могут с ним делать.

Подробности в статье: https://medium.com/netflix-techblog/notebook-innovation-591ee3221233
Больше шпаргалок богу шпаргалок! Команда курса CS 229 Стенфордского университета приготовила шпаргалки на все случаи жизни:

Глубокое обучение — https://stanford.io/2BsQ91Q
Обучение с учителем — https://stanford.io/2nRlxxp
и без учителя — https://stanford.io/2MmP6FN
Трюки и советы — https://stanford.io/2MEHwFM
1👍1
Команда NVIDIA выложила модели нейросетей, применяемых в компьютерном зрении, NLP, рекомендательных системах, генеративно-состязательных сетях, а также их реализация с открытым кодом.

Используйте данные примеры для понимания принципов построения и обучения со своими собственными данными либо интегрируйте их в свои программные продукты.

https://developer.nvidia.com/deep-learning-examples
#советдня

Если вы используете модель из глубокого обучения, используйте малые скорости обучения для предобученных моделей.

Заранее настроенные веса – это не то же самое, что инициализированные случайным образом. Изменяйте их значения более деликатно. Выбор скорости зависит от модели обучения и того, насколько хорошо прошло предобучение.
#алгоритмдня

Ограниченная линейная регрессия
Метод наименьших квадратов может смутить выбросами, ложными полями и т. д. Нужны ограничения, чтобы уменьшить дисперсию линии, которую мы помещаем в набор данных. Правильное решение состоит в том, чтобы соответствовать модели линейной регрессии, которая гарантирует, что веса не будут вести себя “плохо”.

Модели могут иметь норму L1 (LASSO) или L2 (Ridge Regression) или обе (elastic regression).
Используйте этот алгоритм для соответствия линиям регрессии с ограничениями, избегая переопределения.

Полезные ссылки
Документация по обобщенным линейным моделям в sklearn
Ридж-регрессия
LASSO регрессия
Машинное обучение — как секс в старших классах. Все говорят о нем по углам, единицы понимают, а занимается только препод. Статьи о машинном обучении делятся на два типа: это либо трёхтомники с формулами и теоремами, которые я ни разу не смог дочитать даже до середины, либо сказки об искусственном интеллекте, профессиях будущего и волшебных дата-саентистах.

Эта статья — большое введение для тех, кто хочет наконец разобраться в машинном обучении — простым языком, без формул-теорем, зато с примерами реальных задач и их решений.

Читать: https://vas3k.ru/blog/machine_learning/
Всем вечера пятницы! Немного обработки естественного языка в ленту. Ребята пытались натренировать бота на сообщениях с двача, получилось очень весело, но тут, как говорится, лучше один раз увидеть, чем сто раз услышать:

https://www.youtube.com/watch?v=1LcdA0Y7IEk
#книгадня

Neural Networks and Deep Learning — онлайн-книга, как вы уже догадались, о нейронных сетях и глубоком обучении. Основная задача книги — познакомить вас с ключевыми идеями, заложенными в работе нейронных сетей. Книга ориентирована на практику, предполагая что у вас уже есть некоторый опыт в программировании на Python. Можем ли мы любую математическую функцию аппроксимировать нейросетями? Как выбрать гиперпараметры для нейросетей?

Узнать ответы на эти вопросы и многое другое: https://neuralnetworksanddeeplearning.com/
​​#алгоритмдня

Метод k-средних

Всеми любимый неконтролируемый алгоритм кластеризации. Учитывая набор данных в виде векторов, мы можем создавать кластеры точек на основе расстояний между ними. Это один из алгоритмов машинного обучения, который последовательно перемещает центры кластеров, а затем группирует точки с каждым центром кластера. Входные данные – количество кластеров, которые должны быть созданы, и количество итераций.

Документация на scikit по K-Means
Видео по кластеризации
Введение в кластеризацию
Kaggle является самой популярной платформой для соревнований в сфере анализа данных. Освоившись там, вы сможете получать предложения о работе в крупных западных фирмах с солидными окладами. 5 дельных советов о том, как добиться успехов на этой платформе в выступлении одного из самых успешных участников этой платформы:

https://www.youtube.com/watch?v=fXnzjJMbujc
Для тех, кто хочет быстро освежить знания в математике, применяемой в машинном обучении, мы нашли шпаргалку:

https://gwthomas.github.io/docs/math4ml.pdf
Очень хороший курс по глубоким нейросетям в Python!

В лекциях изложены теоретические основы работы глубоких нейронных сетей и особенности их обучения, описаны популярные в настоящее время типы глубоких нейронных сетей (сверточные сети, сети долго-краткосрочной памяти (LSTM)), библиотеки для языка Python, реализующие глубокие нейронные сети (Keras, TensorFlow, Theano), а также методы использования глубоких нейронных сетей для анализа изображений и текстов.

Практические работы содержат задания для самостоятельного выполнения на анализ открытых наборов данных (MNIST, CIFAR-10 и IMDB Movie Review Dataset) с использованием глубоких нейронных сетей и примеры программ, которые можно использовать в качества образца.

Смотреть курс: https://www.youtube.com/playlist?list=PLtPJ9lKvJ4oiz9aaL_xcZd-x0qd8G0VN_
Русскоязычный курс по глубокому обучению от МФТИ. Рекомендуем!

https://deepmipt.github.io/dlschl/