Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.4K photos
119 videos
64 files
4.85K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
animation.gif
120.9 KB
Портреты воображаемых людей всего за 19 мазков кистью
SPIRAL — это агент RL (обучения с подкреплением), который генерирует изображения, взаимодействуя с готовым графическим программным обеспечением. Выпущено 9 агентов, обученных рисовать портреты воображаемых людей всего за 19 мазков кистью. Этот репозиторий содержит агентов и среды, описанные в документе ICML'18 «Синтезирующие программы для изображений с использованием усиленного состязательного обучения».
Масштабируемые методы для вычисления сходства состояний в детерминированных марковских процессах принятия решений
Теорема Байеса: Святой Грааль Data Science
Теорема Байеса — одно из важнейших правил теории вероятностей, применяемых в Data Science.

Теорема Байеса, названная в честь британского математика XVIII века Томаса Байеса, представляет собой математическую формулу для определения условных вероятностей. Эта теорема имеет огромное значение в области науки о данных. Например, одним из многих приложений теоремы Байеса является Байесовский вывод — особый подход к статистическому выводу.

Байесовский вывод — это метод, в котором теорема Байеса используется для обновления вероятности гипотезы по мере получения дополнительных подтверждений или иной информации. Байесовский вывод нашел применение в широком спектре видов деятельности, включая науку, инженерию, философию, медицину, спорт и право.

Так, в финансах теорема Байеса используется для оценки риска кредитования потенциальных заемщиков. В медицине теорема Байеса применяется для определения точности результатов медицинских тестов и вероятности, что у данного человека имеется потенциальное заболевание.
Jupyter Notebook: галерея лучших блокнотов
Jupyter Notebook — это один из самых удобных инструментов для совместной работы над проектами и изучения новых концепций. Ниже представлены блокноты Jupyter, которые будут наиболее полезны специалистам по анализу данных. Ниже представлены блокноты Jupyter, которые будут наиболее полезны обучающимся новичкам.

Вводные курсы в Jupyter Notebook
Учебник по Python
Пособие по Matplotlib
Пошаговый туториал для новичков
Руководство для начинающих
Генеративное моделирование со Sparse Transformer
"Мы разработали Sparse Transformer, глубокую нейронную сеть, которая устанавливает новые рекорды в предсказании того, что будет дальше в последовательности — будь то текст, изображения или звук. Он использует алгоритмическое улучшение механизма внимания для извлечения паттернов из последовательностей в 30 раз длиннее, чем это было возможно ранее" — сообщили OpenAi, работой которых является открытие и принятие пути к безопасному искусственному общему интеллекту.

Одной из существующих проблем в исследованиях ИИ является моделирование больших, тонких взаимозависимостей в сложных данных, таких как изображения, видео или звуки. Разреженный трансформатор включает в себя O(N√N) переформулировку O(N^2) механизма самовосприятия трансформера, а также ряд других улучшений, применяемых непосредственно к этим богатым типам данных. Ранее модели, использованные на этих данных, специально создавались для одного домена или были сложны для масштабирования до последовательностей длиной более нескольких тысяч элементов. Напротив, данный экземпляр может моделировать последовательности с десятками тысяч элементов с использованием сотен слоев, достигая современного уровня производительности в нескольких областях. В OpenAI его используют, чтобы создать системы искусственного интеллекта, которые обладают большей способностью понимать мир.
Польза big data для медицины: случай в Лурдском медицинском центре Богоматери в Нью-Джерси.

В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем: фибрилляция предсердий.

Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Как еще специалисты используют большие данные?
Запишись в SkillFactory на полный курс по Data science. Здесь для обучения уже подготовили много-много практических заданий по Python, Math&Stat, Machine Learning, менеджменту ー спустя всего год ты будешь готов к старту успешной карьеры в Data science!
📍Присоединяйся: https://clc.to/iRQLAw
Изучение нюха: глубокое обучение для предсказания обонятельных свойств молекул
Изучение обоняния, а также отображение их в непрерывных пространствах — действительно захватывающие исследования Алекса Вильчко и команды в Google.

Обоняние — это чувство, разделяемое невероятным количеством живых организмов, и оно играет важную роль в том, как они анализируют и реагируют на мир. Для людей наше обоняние связано с нашей способностью наслаждаться едой и может также вызвать яркие воспоминания. Тем не менее, несмотря на свою важность, запахи не получили такого же внимания со стороны исследователей машинного обучения, как зрение и слух.

Восприятие запаха у людей является результатом активации 400 различных типов обонятельных рецепторов (OR), выраженных в 1 млн. обонятельных сенсорных нейронов (OSNs) в небольшом участке ткани, называемом обонятельным эпителием. Эти OSNs посылают сигналы в обонятельную луковицу, а затем в другие структуры мозга. Основываясь на аналогичных достижениях в области глубокого обучения зрению и звуку, должна быть возможность напрямую предсказать конечный сенсорный результат входной молекулы, даже не зная запутанных деталей всех задействованных систем. Решение проблемы прогнозирования запаха поможет в обнаружении новых синтетических отдушек, тем самым уменьшая экологическое воздействие сбора натуральных продуктов. Проверка полученных обонятельных моделей может даже привести к новому пониманию биологии обоняния.
4 Python библиотеки для интерпретируемого машинного обучения

Yellowbrick
Эта Python библиотека и расширение пакета scikit-learn. Предоставляет некоторые полезные и симпатичные визуализации для моделей машинного обучения. Объекты визуализатора, основной интерфейс — оценки scikit-learn, поэтому если привыкли работать с scikit-learn, рабочий процесс покажется знакомым.

ELI5
Ещё одна библиотека визуализации, которая пригодится для отладки моделей машинного обучения и объяснения сделанных прогнозов. Работает с самыми распространёнными инструментами машинного обучения на Python, включая scikit-learn, XGBoost и Keras.

LIME
Расшифровывается как локальные интерпретируемые, независимые от модели объяснения. Интерпретирует предсказания, сделанные алгоритмами машинного обучения. Lime поддерживает объяснение единичных прогнозов из диапазона классификаторов, а также взаимодействует с scikit-learn «из коробки».

MLxtend
В этой библиотеке найдёте массу вспомогательных функций для машинного обучения. Она охватывает классификаторы стекинга и голосования, оценку модели, выделение признаков, а также проектирование и построение графиков.
Как работает фреймворк Apache Spark?
Spark — фреймворк для кластерных вычислений и крупномасштабной обработки данных. Spark предлагает набор библиотек на 3 языках (Java, Scala, Python) для унифицированного вычислительного движка. Что на самом деле это означает?

Унифицированный: в Spark нет необходимости собирать приложение из нескольких API или систем. Spark предоставляет встроенные API для выполнения работы.

Вычислительный движок: Spark поддерживает загрузку данных из различных файловых систем и выполняет в них вычисления, но сам не хранит никаких данных постоянно. Spark работает исключительно в памяти, что даёт беспрецедентную производительность и скорость.

Библиотеки: фреймворк Spark состоит из ряда библиотек, которые созданы для решения задач Data Science. Spark включает библиотеки для SQL (SparkSQL), машинного обучения (MLlib), обработки потоковых данных (Spark Streaming и Structured Streaming) и обработки графов (GraphX).

Приложение Spark
Каждое Spark-приложение состоит из управляющего процесса — драйвера (Driver) — и набора распределённых рабочих процессов — исполнителей (Executors). Spark Driver запускает метод main() нашего приложения. Spark Executors — распределённый процесс, который отвечает за выполнение задач. У каждого приложения Spark собственный набор исполнителей.

В этой статье вы можете узнать, что прячется под капотом этого инструмента для кластерных вычислений.
RepDistiller: репозиторий по дистилляции знаний
Хороший репозиторий по "дистилляции знаний" RepDistiller. Тема "темных знаний" остается одной из забавнейших результатов изучения головного мозга в нейронных сетях.

Джефф Хинтон и его команда утверждают, что при извлечении знаний из данных нам не нужно беспокоиться о тестовых вычислениях. Оказывается, не сложно передать большую часть знаний в меньшую модель, которую легче использовать. Эти знания и называются «темными знаниями». Немного жуткое название, но достоинства подхода от этого не страдают.