Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Jupyter Notebook: галерея лучших блокнотов
Jupyter Notebook — это один из самых удобных инструментов для совместной работы над проектами и изучения новых концепций. Ниже представлены блокноты Jupyter, которые будут наиболее полезны специалистам по анализу данных. Ниже представлены блокноты Jupyter, которые будут наиболее полезны обучающимся новичкам.

Вводные курсы в Jupyter Notebook
Учебник по Python
Пособие по Matplotlib
Пошаговый туториал для новичков
Руководство для начинающих

Библиотека программиста

JupyterLab и Jupyter Notebook — мощные инструменты Data Science

Подробно рассказываем об инструментах семейства Jupyter – эффективных средствах разработки для задач Data Science и смежных областей.

5.79K views18:45

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Генеративное моделирование со Sparse Transformer
"Мы разработали Sparse Transformer, глубокую нейронную сеть, которая устанавливает новые рекорды в предсказании того, что будет дальше в последовательности — будь то текст, изображения или звук. Он использует алгоритмическое улучшение механизма внимания для извлечения паттернов из последовательностей в 30 раз длиннее, чем это было возможно ранее" — сообщили OpenAi, работой которых является открытие и принятие пути к безопасному искусственному общему интеллекту.

Одной из существующих проблем в исследованиях ИИ является моделирование больших, тонких взаимозависимостей в сложных данных, таких как изображения, видео или звуки. Разреженный трансформатор включает в себя O(N√N) переформулировку O(N^2) механизма самовосприятия трансформера, а также ряд других улучшений, применяемых непосредственно к этим богатым типам данных. Ранее модели, использованные на этих данных, специально создавались для одного домена или были сложны для масштабирования до последовательностей длиной более нескольких тысяч элементов. Напротив, данный экземпляр может моделировать последовательности с десятками тысяч элементов с использованием сотен слоев, достигая современного уровня производительности в нескольких областях. В OpenAI его используют, чтобы создать системы искусственного интеллекта, которые обладают большей способностью понимать мир.

Openai

Generative modeling with sparse transformers

We’ve developed the Sparse Transformer, a deep neural network which sets new records at predicting what comes next in a sequence—whether text, images, or sound. It uses an algorithmic improvement of the attention mechanism to extract patterns from sequences…

4.93K views10:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Польза big data для медицины: случай в Лурдском медицинском центре Богоматери в Нью-Джерси.

В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем: фибрилляция предсердий.

Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Как еще специалисты используют большие данные?
Запишись в SkillFactory на полный курс по Data science. Здесь для обучения уже подготовили много-много практических заданий по Python, Math&Stat, Machine Learning, менеджменту ー спустя всего год ты будешь готов к старту успешной карьеры в Data science!
📍Присоединяйся: https://clc.to/iRQLAw

4.32K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Изучение нюха: глубокое обучение для предсказания обонятельных свойств молекул
Изучение обоняния, а также отображение их в непрерывных пространствах — действительно захватывающие исследования Алекса Вильчко и команды в Google.

Обоняние — это чувство, разделяемое невероятным количеством живых организмов, и оно играет важную роль в том, как они анализируют и реагируют на мир. Для людей наше обоняние связано с нашей способностью наслаждаться едой и может также вызвать яркие воспоминания. Тем не менее, несмотря на свою важность, запахи не получили такого же внимания со стороны исследователей машинного обучения, как зрение и слух.

Восприятие запаха у людей является результатом активации 400 различных типов обонятельных рецепторов (OR), выраженных в 1 млн. обонятельных сенсорных нейронов (OSNs) в небольшом участке ткани, называемом обонятельным эпителием. Эти OSNs посылают сигналы в обонятельную луковицу, а затем в другие структуры мозга. Основываясь на аналогичных достижениях в области глубокого обучения зрению и звуку, должна быть возможность напрямую предсказать конечный сенсорный результат входной молекулы, даже не зная запутанных деталей всех задействованных систем. Решение проблемы прогнозирования запаха поможет в обнаружении новых синтетических отдушек, тем самым уменьшая экологическое воздействие сбора натуральных продуктов. Проверка полученных обонятельных моделей может даже привести к новому пониманию биологии обоняния.

research.google

Learning to Smell: Using Deep Learning to Predict the Olfactory Properties of Mo

Posted by Alexander B Wiltschko, Senior Research Scientist, Google Research Smell is a sense shared by an incredible range of living organisms, a...

4.51K views10:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

4 Python библиотеки для интерпретируемого машинного обучения

Yellowbrick
Эта Python библиотека и расширение пакета scikit-learn. Предоставляет некоторые полезные и симпатичные визуализации для моделей машинного обучения. Объекты визуализатора, основной интерфейс — оценки scikit-learn, поэтому если привыкли работать с scikit-learn, рабочий процесс покажется знакомым.

ELI5
Ещё одна библиотека визуализации, которая пригодится для отладки моделей машинного обучения и объяснения сделанных прогнозов. Работает с самыми распространёнными инструментами машинного обучения на Python, включая scikit-learn, XGBoost и Keras.

LIME
Расшифровывается как локальные интерпретируемые, независимые от модели объяснения. Интерпретирует предсказания, сделанные алгоритмами машинного обучения. Lime поддерживает объяснение единичных прогнозов из диапазона классификаторов, а также взаимодействует с scikit-learn «из коробки».

MLxtend
В этой библиотеке найдёте массу вспомогательных функций для машинного обучения. Она охватывает классификаторы стекинга и голосования, оценку модели, выделение признаков, а также проектирование и построение графиков.

GitHub

GitHub - marcotcr/lime: Lime: Explaining the predictions of any machine learning classifier

Lime: Explaining the predictions of any machine learning classifier - marcotcr/lime

6.38K views15:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как работает фреймворк Apache Spark?
Spark — фреймворк для кластерных вычислений и крупномасштабной обработки данных. Spark предлагает набор библиотек на 3 языках (Java, Scala, Python) для унифицированного вычислительного движка. Что на самом деле это означает?

Унифицированный: в Spark нет необходимости собирать приложение из нескольких API или систем. Spark предоставляет встроенные API для выполнения работы.

Вычислительный движок: Spark поддерживает загрузку данных из различных файловых систем и выполняет в них вычисления, но сам не хранит никаких данных постоянно. Spark работает исключительно в памяти, что даёт беспрецедентную производительность и скорость.

Библиотеки: фреймворк Spark состоит из ряда библиотек, которые созданы для решения задач Data Science. Spark включает библиотеки для SQL (SparkSQL), машинного обучения (MLlib), обработки потоковых данных (Spark Streaming и Structured Streaming) и обработки графов (GraphX).

Приложение Spark
Каждое Spark-приложение состоит из управляющего процесса — драйвера (Driver) — и набора распределённых рабочих процессов — исполнителей (Executors). Spark Driver запускает метод main() нашего приложения. Spark Executors — распределённый процесс, который отвечает за выполнение задач. У каждого приложения Spark собственный набор исполнителей.

В этой статье вы можете узнать, что прячется под капотом этого инструмента для кластерных вычислений.

Библиотека программиста

Фреймворк Spark: высокоуровневый обзор проекта Apache

Как работает фреймворк Apache Spark? В статье рассмотрим, что прячется под капотом этого инструмента для кластерных вычислений.

5.46K views18:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

DeepFake-туториал: создаем собственный дипфейк в DeepFaceLab
Рассказываем о технологии DeepFake и шаг за шагом учимся делать дипфейки в DeepFaceLab — нейросетевой программе, меняющей лица в видеороликах.

😎👇
https://proglib.io/sh/Tt87Ckp9sI

Библиотека программиста

DeepFake-туториал: создаем собственный дипфейк в DeepFaceLab

Рассказываем о технологии DeepFake и шаг за шагом учимся делать дипфейки в DeepFaceLab – нейросетевой программе, меняющей лица в видеороликах.

5.76K views10:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

RepDistiller: репозиторий по дистилляции знаний
Хороший репозиторий по "дистилляции знаний" RepDistiller. Тема "темных знаний" остается одной из забавнейших результатов изучения головного мозга в нейронных сетях.

Джефф Хинтон и его команда утверждают, что при извлечении знаний из данных нам не нужно беспокоиться о тестовых вычислениях. Оказывается, не сложно передать большую часть знаний в меньшую модель, которую легче использовать. Эти знания и называются «темными знаниями». Немного жуткое название, но достоинства подхода от этого не страдают.

GitHub

GitHub - HobbitLong/RepDistiller: [ICLR 2020] Contrastive Representation Distillation (CRD), and benchmark of recent knowledge…

[ICLR 2020] Contrastive Representation Distillation (CRD), and benchmark of recent knowledge distillation methods - HobbitLong/RepDistiller

5.32K views12:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

М-теория — это многообещающая модель, которая объединяет квантовую механику и гравитацию, но ее трудно решить аналитически. Эта работа демонстрирует, как можно найти решения для этой модели с помощью новых приложений TensorFlow.
Недавние исследования в области машинного обучения (ML) привели к разработке инструментов, полезных для исследовательских задач, выходящих далеко за рамки, для которых они были разработаны. Ценность этих инструментов применительно к темам, начиная от обучения роботов метанию до предсказания обонятельных свойств молекул, теперь начинает осознаваться. Вдохновленные такими достижениями, авторы работы взяли на себя задачу применения TensorFlow, вычислительной платформы, обычно используемой для ML, для улучшения понимания фундаментальной физики.

Googleblog

New Solutions for Quantum Gravity with TensorFlow

5.27K views10:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

"Новейший гигантский языковой искусственный интеллект Facebook достиг вычислительного барьера на 500 графических процессорах Nvidia", — хорошая статья о последнем прорыве в исследованиях ИИ Facebook в области понимания естественных языков, называемый XLM-R, выполняет кросс-языковые задачи на 100 различных языках, включая суахили и урду, но он также идет вразрез с существующими вычислительными возможностями.

ZDNET

Facebook’s latest giant language AI hits computing wall at 500 Nvidia GPUs

Facebook AI research's latest breakthrough in natural language understanding, called XLM-R, performs cross-language tasks with 100 different languages including Swahili and Urdu, but it's also running up against the limits of existing computing power.

4.36K views10:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Многие платят за образование, но после выпуска работают за зарплату ниже рынка, только чтобы получить опыт работы. МТС и Сколково создали образовательную программу для выпускников бакалавриата и магистратуры(возраст - 19-24 года), которая поможет подтянуть навыки и скиллы и, что самое главное, получить реальный опыт работы над проектом.

Программа платная, но у тебя есть возможность выиграть 100% грант на обучение. Узнай о программе, перейдя по ссылке https://prglb.ru/2j56p со своего ПК, найди все подсказки, информацию об обучении и сразу же стартуй с одного из этапов квеста.

4.28K views14:30

Узнать о программе

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как машинное обучение может помочь открыть мир древней Японии
Богатая история человечества оставила после себя огромное количество исторических документов и артефактов. Тем не менее, практически ни один из этих документов, содержащих истории и записанный опыт, необходимый для нашего культурного наследия, не может быть понят специалистами из-за языковых и письменных изменений с течением времени.

Например, археолог раскопал десятки тысяч глиняных табличек из древнего Вавилона, однако только несколько сотен специально подготовленных ученых могут перевести их. Подавляющее большинство этих документов никогда не читалось, даже если они были обнаружены в 1800-х годах. Чтобы дать дополнительную иллюстрацию проблемы, создаваемой этой шкалой, в экспедиции в 1851 году была собрана табличка из «Сказки о Гильгамеше», но ее значение не было раскрыто до 1872 года. Эта табличка содержит предбиблейское повествование о потопе, которое имеет огромное культурное значение как предшественник повествования о Ноевом Ковчеге.

Это глобальная проблема, но один из самых ярких примеров — это случай Японии. С 800 по 1900 год в Японии использовалась система письма Kuzushiji, которая была исключена из учебной программы в 1900 году, когда началось реформирование начального школьного образования. В настоящее время подавляющее большинство говорящих на японском языке не могут читать тексты, которым более 150 лет. Объем этих текстов — более трех миллионов книг в хранилище, но может быть прочитан лишь несколькими специально подготовленными учеными — ошеломляет. Одна только библиотека оцифровала 20 миллионов страниц таких документов. Общее количество документов, включая, помимо прочего, письма и личные дневники, оценивается в более одного миллиарда. Учитывая, что очень немногие люди могут понять эти тексты, в основном те, которые имеют докторскую степень в классической японской литературе и истории Японии, ученым было бы очень дорого и требовательно финансировать перевод этих документов на современный японский язык. Это мотивировало использование машинного обучения для автоматического понимания этих текстов.

Это сложная задача. Кудзусиджи написан сценарием, который существенно отличается от современного японского языка, что затрудняет даже базовое признание для современного японца. Тем не менее, после того, как Kuzushiji был преобразован в современный сценарий, большинство людей свободно говорит по-японски. Несмотря на это, некоторые трудности остаются из-за изменений в грамматике и лексике.

Учитывая его важность для японской культуры, проблема использования компьютеров для распознавания Кудзусиджи была тщательно изучена за счет использования различных методов глубокого обучения и компьютерного зрения. Тем не менее, эти модели не смогли добиться сильных результатов по признанию Kuzushiji. Это было связано с недостаточным пониманием японской исторической литературы в сообществе оптического распознавания символов (OCR) и отсутствием высококачественных стандартизированных наборов данных.

Для решения этой проблемы Национальный институт японской литературы (NIJL) создал и выпустил набор данных Kuzushiji, курируемый Центром открытых данных в гуманитарных науках (CODH). Набор данных в настоящее время содержит более 4000 классов символов и миллион изображений символов. Перед выпуском этого набора данных Kuzushiji исследователи OCR пытались создать наборы данных самостоятельно. Тем не менее, количество символов было очень ограничено, что приводило к тому, что их модели работали плохо при оценке по всему диапазону данных. NIJL-CODH решил эту проблему, предоставив большой и всеобъемлющий набор данных Kuzushiji для исследователей, для обучения и оценки.

The Gradient

How Machine Learning Can Help Unlock the World of Ancient Japan

Humanity’s rich history has left behind an enormous number of historical documents and artifacts. However, virtually none of these documents, containing stories and recorded experiences essential to our cultural heritage, can be understood by non-experts…

4.84K viewsedited 17:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

6 крупных open source проектов в сфере Data Science
6 проектов с открытым исходным кодом из различных областей Data Science для внедрения в ваши аналитические решения или украшения портфолио.

👌👇
https://proglib.io/sh/nMZdi0XxUY

Библиотека программиста

6 крупных open source проектов в сфере Data Science

6 проектов с открытым исходным кодом из различных областей Data Science для внедрения в ваши аналитические решения или украшения портфолио.

5.07K views10:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Чёрная Пятница — обман или нет? «Это как посмотреть», — ответит человек, склонный всё считать и анализировать, а потом делать выводы.

И для таких ребят Чёрная Пятница в Нетологии точно состоится. С 20 по 30 ноября на все курсы по Data Science и аналитике действуют скидки до 50%. Чтобы получить скидку, просто оплатите курс на сайте до 3 декабря.

Вложитесь в востребованную профессию ↓
https://netolo.gy/e8H

4.61K views15:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Few-Shot vid2vid от NVIDIA — эффективная концепция синтеза видео в видео (vid2vid). vid2vid по существу преобразует семантическое входное видео в ультра-реалистичное выходное видео. Эта идея прошла долгий путь с момента появления.

В настоящее время есть два основных ограничения с этими моделями vid2vid:
- Они требуют огромного количества обучающих данных.
- Эти модели борются за обобщение данных обучения.
Вот тут-то и появляется фреймворк NVIDIA Few-Shot viv2vid.

Вы можете ознакомиться с полной исследовательской работой здесь.

Вот видео, предоставленное разработчиками, демонстрирующее Few-Shot vid2vid в действии:

Вот отличная статья, чтобы начать изучение того, как вы можете создать свою собственную модель классификации видео.

GitHub

GitHub - NVlabs/few-shot-vid2vid: Pytorch implementation for few-shot photorealistic video-to-video translation.

Pytorch implementation for few-shot photorealistic video-to-video translation. - NVlabs/few-shot-vid2vid

4.5K views07:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Обучение продакт-менеджменту с трудоустройством

Онлайн-университет от Mail ru Group с гарантированным трудоустройством снизил цены на 30 тысяч на обучение продакт-менеджменту, интернет-маркетингу и другим востребованным специальностям. Учитесь у экспертов, работающих в Mail ru, Delivery Club, ФРИИ, МТС, Теле2 и других крупных компаниях. Обучаться можно из любого города. Для начала занятий специальной подготовки не требуется.

Подробности по ссылке: https://bit.ly/2KBjQQs

4.32K views14:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Gaussian YOLOv3: точный и быстрый детектор объектов для автономного вождения
Прогресс автономного вождения достаточно медленный из-за множества причин (архитектура, государственная политика и т.д.). Поэтому всегда приятно видеть какие-либо фреймворки или алгоритмы, которые обещают лучшее будущее данной отросли.

Алгоритмы обнаружения объектов лежат в основе автономных транспортных средств. А обнаружение объектов с высокой точностью и высокой скоростью вывода жизненно важно для обеспечения безопасности. Все это существует уже несколько лет, так что же отличает этот проект?

Гауссова архитектура YOLOv3 повышает точность обнаружения системы и поддерживает работу в режиме реального времени (критический аспект). По сравнению с обычным YOLOv3, Gaussian YOLOv3 улучшает среднюю точность (mAP) на 3,09 и 3,5 для наборов данных KITTI и Berkeley Deep Drive (BDD), соответственно.

Ниже представлены три подробных, исчерпывающих и полезных статьи, которые помогут вам начать работу с обнаружением объектов и структурой YOLO в компьютерном зрении.
Пошаговое введение в основные алгоритмы обнаружения объектов.
Практическое руководство по обнаружению объектов с использованием популярной платформы YOLO (на Python).
Дружественное введение в обнаружение объектов в реальном времени с помощью мощного фреймворка SlimYOLOv3.

Analytics Vidhya

A Step-by-Step Introduction to the Basic Object Detection Algorithms (Part 1)

Learn about the latest object detection algorithms and their applications with our comprehensive online resource. Visit now .

5.13K views17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

RoughViz: Практичная библиотека визуализации данных в JavaScript
RoughViz — одна из библиотек JavaScript для создания нарисованных от руки эскизов или визуализаций. Она основана на D3v5, rawjs и, это удобно.

Вы можете установить roughViz на свой компьютер, используя следующую команду:

npm install rough-viz

Этот репозиторий GitHub содержит подробные примеры и код о том, как использовать roughViz. Вот различные диаграммы, которые вы можете сгенерировать:
Гистограмма
Кольцевая диаграмма
Линейный график
Круговая диаграмма
Точечная диаграмма

Хотите понять, как JavaScript работает в области науки о данных? Вот интуитивно понятная статья, которая поможет вам в этом: "Создайте модель машинного обучения в вашем браузере, используя TensorFlow.js и Python".

6.07K views10:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

TensorTrade: практичная и эффективная торговля на Python
TensorTrade — это среда Python с открытым исходным кодом для создания, обучения, оценки и развертывания надежных торговых алгоритмов с использованием обучения с подкреплением. Фреймворк ориентирован на высокую степень компоновки и расширяемости, что позволяет системе масштабироваться от простых торговых стратегий на одном CPU до сложных инвестиционных стратегий, работающих на распределении компьютеров HPC.

GitHub

GitHub - tensortrade-org/tensortrade: An open source reinforcement learning framework for training, evaluating, and deploying robust…

An open source reinforcement learning framework for training, evaluating, and deploying robust trading agents. - tensortrade-org/tensortrade

6.41K views10:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

GANs_in_Action_Deep_learning_with.epub

6.3 MB

Хотели разобраться в GAN-архитектуре?

Данная книга позволит ознакомиться с данной архитектурой, упростить освоение научных публикаций по GAN.

Репозиторий с книгой: https://github.com/GANs-in-Action/gans-in-action

5.55K views09:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как формируется лента ВКонтакте? Подробное выступление одного из главных разработчиков:

https://www.youtube.com/watch?v=eHWesCx_j-M

YouTube

Ранжирование ленты ВКонтакте: офлайн валидация моделей – Данила Савенков

Поговорим о ранжировании умной ленты ВКонтакте. Поговорим о постановке задаче, метриках и особенно подробно об офлайн валидации моделей.

Секция Fail/success story
Moscow Data Science Major 31.08.2019
https://datafest.ru/major/
Презентации – https://dri…

4.79K views12:17

About

Blog

Apps

Platform