Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.8K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Всем вечера пятницы! Немного обработки естественного языка в ленту. Ребята пытались натренировать бота на сообщениях с двача, получилось очень весело, но тут, как говорится, лучше один раз увидеть, чем сто раз услышать:

https://www.youtube.com/watch?v=1LcdA0Y7IEk
#книгадня

Neural Networks and Deep Learning — онлайн-книга, как вы уже догадались, о нейронных сетях и глубоком обучении. Основная задача книги — познакомить вас с ключевыми идеями, заложенными в работе нейронных сетей. Книга ориентирована на практику, предполагая что у вас уже есть некоторый опыт в программировании на Python. Можем ли мы любую математическую функцию аппроксимировать нейросетями? Как выбрать гиперпараметры для нейросетей?

Узнать ответы на эти вопросы и многое другое: https://neuralnetworksanddeeplearning.com/
​​#алгоритмдня

Метод k-средних

Всеми любимый неконтролируемый алгоритм кластеризации. Учитывая набор данных в виде векторов, мы можем создавать кластеры точек на основе расстояний между ними. Это один из алгоритмов машинного обучения, который последовательно перемещает центры кластеров, а затем группирует точки с каждым центром кластера. Входные данные – количество кластеров, которые должны быть созданы, и количество итераций.

Документация на scikit по K-Means
Видео по кластеризации
Введение в кластеризацию
Kaggle является самой популярной платформой для соревнований в сфере анализа данных. Освоившись там, вы сможете получать предложения о работе в крупных западных фирмах с солидными окладами. 5 дельных советов о том, как добиться успехов на этой платформе в выступлении одного из самых успешных участников этой платформы:

https://www.youtube.com/watch?v=fXnzjJMbujc
Для тех, кто хочет быстро освежить знания в математике, применяемой в машинном обучении, мы нашли шпаргалку:

https://gwthomas.github.io/docs/math4ml.pdf
Очень хороший курс по глубоким нейросетям в Python!

В лекциях изложены теоретические основы работы глубоких нейронных сетей и особенности их обучения, описаны популярные в настоящее время типы глубоких нейронных сетей (сверточные сети, сети долго-краткосрочной памяти (LSTM)), библиотеки для языка Python, реализующие глубокие нейронные сети (Keras, TensorFlow, Theano), а также методы использования глубоких нейронных сетей для анализа изображений и текстов.

Практические работы содержат задания для самостоятельного выполнения на анализ открытых наборов данных (MNIST, CIFAR-10 и IMDB Movie Review Dataset) с использованием глубоких нейронных сетей и примеры программ, которые можно использовать в качества образца.

Смотреть курс: https://www.youtube.com/playlist?list=PLtPJ9lKvJ4oiz9aaL_xcZd-x0qd8G0VN_
Русскоязычный курс по глубокому обучению от МФТИ. Рекомендуем!

https://deepmipt.github.io/dlschl/
Математика больших данных

Как можно хранить и обрабатывать многомерные массивы в линейных по памяти структурах? Что дает обучение нейронных сетей из триллионов триллионов нейронов и как можно осуществить его без переобучения? Можно ли обрабатывать информацию "на лету", не сохраняя поступающие последовательно данные? Как оптимизировать функцию за время меньшее чем уходит на ее вычисление в одной точке? Что дает обучение по слаборазмеченным данным? И почему для решения всех перечисленных выше задач надо хорошо знать математику? Ответы на эти вопросы будут рассмотрены в докладе.

Доклад доступен по ссылке: https://youtu.be/lkh7bLUc30g
Нейронные сети за 30 минут: от теории до практики.

Автор видео расскажет что такое нейронные сети, и как они используются. За 30 минут вы узнаете минимально необходимую теорию, а так же сможете написать свою первую многослойную нейронную сеть самостоятельно (она займет не более 50 строк кода!).

https://www.youtube.com/watch?v=AZG0j0pNY-4
История искусственного интеллекта

1. Рождение теории 1936-1956
2. Золотой век 1956-1976
3. Кризис нейронных сетей 1969-1980
4. Первая зима 1975-1980
5. Краткое возвращение 1980-1984
6. Вторая зима 1984-1993
7. Новая эра 1993-н.в.

Плейлист с видео доступен по ссылке: https://www.youtube.com/watch?v=UlVoZVakmYs&list=PLDCR37g8W9nHI3LDgZ6xRexrCHgUzBnvz
Интенсивный курс по нейронным сетям от MailRu

1. Темы первой лекции:
— Нейронные сети прямого распространения;
— backpropagation;
— обучение глубоких нейронных сетей;
— сверочные сети.
2. Генеративные сети.
3. Детекция и сегментация.
4. Face Recognition.
5. DSSM-like модели. Нейронные сети для работы с текстами.
6. RNN. Нейронные сети для работы с текстами.

Ссылка на плейлист: https://vk.com/wall-54530371_211891
Подборка докладов со SmartData 2017

1. CatBoost — следующее поколение градиентного бустинга
Speaker: Анна Вероника Дорогуш

2. Нет данных? Нет проблем! Deep Learning на CGI
Speaker: Иван Дрокин

3. Deep Learning: Распознавание сцен и достопримечательностей на изображениях
Speaker: Андрей Бояров

4. Краудсорсинг: как приручить толпу?
Speaker: Артём Григорьев

5. Neurona: зачем мы научили нейросеть писать стихи в стиле Курта Кобейна?
Speaker: Иван Ямщиков

6. Глубокие свёрточные сети для обнаружения объектов и сегментации изображений
Speaker: Сергей Николенко

7. Распределённое ML на больших данных: опыт построения рекомендательной системы в ivi
Speaker: Борис Шминке

8. Имя — это фича
Speaker: Виталий Худобахшов



Ссылка на канал с докладами:
https://www.youtube.com/channel/UCfCOJWNC_ipu34-LVvPUeCg
Machine Learning and Deep Learning Cheatsheets

Машинное обучение и нейронные сети сложны для начинающих как в плане понимания происходящих процессов, так и в использовании соответствующих библиотек.

Поэтому если вы интересуетесь данной темой, то скорее всего вам понравится новый репозиторий с шпаргалками на данную тему.

Ссылка на репозиторий: https://github.com/kailashahirwar/cheatsheets-ai
Разбор лучших решений
(тренировки по Machine Learning)

Подобрали несколько интересных задач с подробным анализом их решения, которые были предложены участникам различных Хакатонов.

1. Kaggle Camera Model Identification
Speaker: Artur Fattakhov, Ilya Kibardin, Dmitriy Abulkhanov

2. Хакатон Whatever Hack, задача «Не смешно»
Speaker: Степан Драпак

3. Kaggle Recruit: прогнозирование количества посетителей ресторанов
Speaker: Никита Чуркин, Глеб Филатов

4. Data Science Game 2017: задача прогнозирования спроса
Speaker: Николай Попов, Никита Шаповалов

5. Home Credit Bank: Прогнозирование вероятности невозврата кредита
Speaker: Анзор Березгов

6. Boosters: предсказание кликов на шоу из поисковой выдачи сайта Ticketland
Speaker: Максим Келаскин

7. Kaggle Corporación Favorita Grocery: предсказание продаж сети супермаркетов
Speaker: Андрей Филимонов

8. Sberbank Holdem Challenge: хакатон по написанию покерных ботов
Speaker: Евгений Иванов

Ссылка на youtube канал с роликами: https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w