Давно хотели разобраться, как стать аналитиком данных, изучить data science, но не знали с чего начать? Тогда эта статья для вас:
https://proglib.io/p/learn-data/
https://proglib.io/p/learn-data/
Библиотека программиста
Как научиться data science?
Давно хотели разобраться, как стать аналитиком данных, изучить data science, но не знали с чего начать? Тогда эта статья для вас.
#youtubeдня
mathematicalmonk – канал, специализирующийся на теории вероятностей, машинном обучении и теории информации. Большая часть видео достаточно полно покрывает тему, обычно длиной до 15 минут.
https://www.youtube.com/user/mathematicalmonk
mathematicalmonk – канал, специализирующийся на теории вероятностей, машинном обучении и теории информации. Большая часть видео достаточно полно покрывает тему, обычно длиной до 15 минут.
https://www.youtube.com/user/mathematicalmonk
YouTube
mathematicalmonk
Videos about math, at the graduate level or upper-level undergraduate.
Tools I use to produce these videos:
- Wacom Bamboo Fun tablet - medium size (~$150 pen tablet)
- SmoothDraw 3.2.7 (free drawing program)
- HyperCam 2 (free screen capture program)…
Tools I use to produce these videos:
- Wacom Bamboo Fun tablet - medium size (~$150 pen tablet)
- SmoothDraw 3.2.7 (free drawing program)
- HyperCam 2 (free screen capture program)…
#алгоритмдня
Метод главных компонент(PCA) / SVD
это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.
Учебное пособие по основному анализу компонентов
Документация по использованию PCA с помощью SciPy
Документация по использованию SVD с помощью SciPy
Метод главных компонент(PCA) / SVD
это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.
Учебное пособие по основному анализу компонентов
Документация по использованию PCA с помощью SciPy
Документация по использованию SVD с помощью SciPy
#ссылкадня
Думаете, что знаете все, что связано с машинным обучением?
Google подготовили глоссарий по машинному обучению:
https://developers.google.com/machine-learning/glossary/
Думаете, что знаете все, что связано с машинным обучением?
Google подготовили глоссарий по машинному обучению:
https://developers.google.com/machine-learning/glossary/
Google for Developers
Machine Learning Glossary | Google for Developers
#книгадня
«Deep Learning» под авторством таких знаменитых в Data Science людей, как
Ian Goodfellow, Yoshua Bengio и Aaron Courville. Книга подробно рассказывает о различных глубоких нейросетевых архитектурах, погружая во всю математику, которая за ними стоит. В начале книги покрываются математические основы, используемые в нейросетях.
Читать: https://www.deeplearningbook.org
«Deep Learning» под авторством таких знаменитых в Data Science людей, как
Ian Goodfellow, Yoshua Bengio и Aaron Courville. Книга подробно рассказывает о различных глубоких нейросетевых архитектурах, погружая во всю математику, которая за ними стоит. В начале книги покрываются математические основы, используемые в нейросетях.
Читать: https://www.deeplearningbook.org
#алгоритмдня
Метод наименьших квадратов — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, а также для аппроксимации точечных значений некоторой функции.
Используйте этот алгоритм, чтобы соответствовать простым кривым/регрессии.
Полезные ссылки
Документация по numpy.linalg.lstsq
Документация по модулю numpy
Документация по модулю по numpy.polyfit
Вводный гайд по линейным регрессия от Стенфорда
Метод наименьших квадратов — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, а также для аппроксимации точечных значений некоторой функции.
Используйте этот алгоритм, чтобы соответствовать простым кривым/регрессии.
Полезные ссылки
Документация по numpy.linalg.lstsq
Документация по модулю numpy
Документация по модулю по numpy.polyfit
Вводный гайд по линейным регрессия от Стенфорда
jupyter notebook быстро стали популярными в data science сообществе и де-факто являются индустриальным стандартом в быстром прототипировании и исследовательском анализе. Ребята из Нетфликса пошли дальше и решили переосмыслить то, чем мог быть notebook, кто его может использовать, что они могут с ним делать.
Подробности в статье: https://medium.com/netflix-techblog/notebook-innovation-591ee3221233
Подробности в статье: https://medium.com/netflix-techblog/notebook-innovation-591ee3221233
Medium
Beyond Interactive: Notebook Innovation at Netflix
by Michelle Ufford, M Pacer, Matthew Seal, and Kyle Kelley
В интернете множество датасетов, но порой приходится выгружать данные из интернета. Большая подборка уроков по парсингу с помощью популярных инструментов языка программирования Python в нашей статье:
https://proglib.io/p/parsing-course/
https://proglib.io/p/parsing-course/
Библиотека программиста
Парсинг сайтов на Python: подробный видеокурс и программный код
В видеокурсе из семи уроков описывается парсинг сайтов с различной структурой при помощи Python третьей версии, библиотек requests и BeautifulSoup.
Больше шпаргалок богу шпаргалок! Команда курса CS 229 Стенфордского университета приготовила шпаргалки на все случаи жизни:
Глубокое обучение — https://stanford.io/2BsQ91Q
Обучение с учителем — https://stanford.io/2nRlxxp
и без учителя — https://stanford.io/2MmP6FN
Трюки и советы — https://stanford.io/2MEHwFM
Глубокое обучение — https://stanford.io/2BsQ91Q
Обучение с учителем — https://stanford.io/2nRlxxp
и без учителя — https://stanford.io/2MmP6FN
Трюки и советы — https://stanford.io/2MEHwFM
stanford.edu
CS 229 - Deep Learning Cheatsheet
Teaching page of Shervine Amidi, Graduate Student at Stanford University.
⚡1👍1
Команда NVIDIA выложила модели нейросетей, применяемых в компьютерном зрении, NLP, рекомендательных системах, генеративно-состязательных сетях, а также их реализация с открытым кодом.
Используйте данные примеры для понимания принципов построения и обучения со своими собственными данными либо интегрируйте их в свои программные продукты.
https://developer.nvidia.com/deep-learning-examples
Используйте данные примеры для понимания принципов построения и обучения со своими собственными данными либо интегрируйте их в свои программные продукты.
https://developer.nvidia.com/deep-learning-examples
NVIDIA Developer
Deep Learning Examples
#советдня
Если вы используете модель из глубокого обучения, используйте малые скорости обучения для предобученных моделей.
Заранее настроенные веса – это не то же самое, что инициализированные случайным образом. Изменяйте их значения более деликатно. Выбор скорости зависит от модели обучения и того, насколько хорошо прошло предобучение.
Если вы используете модель из глубокого обучения, используйте малые скорости обучения для предобученных моделей.
Заранее настроенные веса – это не то же самое, что инициализированные случайным образом. Изменяйте их значения более деликатно. Выбор скорости зависит от модели обучения и того, насколько хорошо прошло предобучение.
#алгоритмдня
Ограниченная линейная регрессия
Метод наименьших квадратов может смутить выбросами, ложными полями и т. д. Нужны ограничения, чтобы уменьшить дисперсию линии, которую мы помещаем в набор данных. Правильное решение состоит в том, чтобы соответствовать модели линейной регрессии, которая гарантирует, что веса не будут вести себя “плохо”.
Модели могут иметь норму L1 (LASSO) или L2 (Ridge Regression) или обе (elastic regression).
Используйте этот алгоритм для соответствия линиям регрессии с ограничениями, избегая переопределения.
Полезные ссылки
Документация по обобщенным линейным моделям в sklearn
Ридж-регрессия
LASSO регрессия
Ограниченная линейная регрессия
Метод наименьших квадратов может смутить выбросами, ложными полями и т. д. Нужны ограничения, чтобы уменьшить дисперсию линии, которую мы помещаем в набор данных. Правильное решение состоит в том, чтобы соответствовать модели линейной регрессии, которая гарантирует, что веса не будут вести себя “плохо”.
Модели могут иметь норму L1 (LASSO) или L2 (Ridge Regression) или обе (elastic regression).
Используйте этот алгоритм для соответствия линиям регрессии с ограничениями, избегая переопределения.
Полезные ссылки
Документация по обобщенным линейным моделям в sklearn
Ридж-регрессия
LASSO регрессия
YouTube
Ridge Regression
My Patreon : https://www.patreon.com/user?u=49277905
Машинное обучение — как секс в старших классах. Все говорят о нем по углам, единицы понимают, а занимается только препод. Статьи о машинном обучении делятся на два типа: это либо трёхтомники с формулами и теоремами, которые я ни разу не смог дочитать даже до середины, либо сказки об искусственном интеллекте, профессиях будущего и волшебных дата-саентистах.
Эта статья — большое введение для тех, кто хочет наконец разобраться в машинном обучении — простым языком, без формул-теорем, зато с примерами реальных задач и их решений.
Читать: https://vas3k.ru/blog/machine_learning/
Эта статья — большое введение для тех, кто хочет наконец разобраться в машинном обучении — простым языком, без формул-теорем, зато с примерами реальных задач и их решений.
Читать: https://vas3k.ru/blog/machine_learning/
vas3k.blog
Машинное обучение для людей
None
Всем вечера пятницы! Немного обработки естественного языка в ленту. Ребята пытались натренировать бота на сообщениях с двача, получилось очень весело, но тут, как говорится, лучше один раз увидеть, чем сто раз услышать:
https://www.youtube.com/watch?v=1LcdA0Y7IEk
https://www.youtube.com/watch?v=1LcdA0Y7IEk
YouTube
028. Deep2ch: чатботы в естественной среде обитания — М. Свешников, А. Киселев, С.Королев
#книгадня
Neural Networks and Deep Learning — онлайн-книга, как вы уже догадались, о нейронных сетях и глубоком обучении. Основная задача книги — познакомить вас с ключевыми идеями, заложенными в работе нейронных сетей. Книга ориентирована на практику, предполагая что у вас уже есть некоторый опыт в программировании на Python. Можем ли мы любую математическую функцию аппроксимировать нейросетями? Как выбрать гиперпараметры для нейросетей?
Узнать ответы на эти вопросы и многое другое: https://neuralnetworksanddeeplearning.com/
Neural Networks and Deep Learning — онлайн-книга, как вы уже догадались, о нейронных сетях и глубоком обучении. Основная задача книги — познакомить вас с ключевыми идеями, заложенными в работе нейронных сетей. Книга ориентирована на практику, предполагая что у вас уже есть некоторый опыт в программировании на Python. Можем ли мы любую математическую функцию аппроксимировать нейросетями? Как выбрать гиперпараметры для нейросетей?
Узнать ответы на эти вопросы и многое другое: https://neuralnetworksanddeeplearning.com/
Все наслышаны про Jupyter Notebook, однако существует еще более мощное решение на базе jupyter — Jupyter Lab — среда разработки для задач Data Science и смежных областей, о чем и будет рассказано в данной статье:
https://proglib.io/p/jupyter/
https://proglib.io/p/jupyter/
Библиотека программиста
JupyterLab и Jupyter Notebook — мощные инструменты Data Science
Подробно рассказываем об инструментах семейства Jupyter – эффективных средствах разработки для задач Data Science и смежных областей.