Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.4K photos
119 videos
64 files
4.85K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Многие платят за образование, но после выпуска работают за зарплату ниже рынка, только чтобы получить опыт работы. МТС и Сколково создали образовательную программу для выпускников бакалавриата и магистратуры(возраст - 19-24 года), которая поможет подтянуть навыки и скиллы и, что самое главное, получить реальный опыт работы над проектом.

Программа платная, но у тебя есть возможность выиграть 100% грант на обучение. Узнай о программе, перейдя по ссылке https://prglb.ru/2j56p со своего ПК, найди все подсказки, информацию об обучении и сразу же стартуй с одного из этапов квеста.
Как машинное обучение может помочь открыть мир древней Японии
Богатая история человечества оставила после себя огромное количество исторических документов и артефактов. Тем не менее, практически ни один из этих документов, содержащих истории и записанный опыт, необходимый для нашего культурного наследия, не может быть понят специалистами из-за языковых и письменных изменений с течением времени.

Например, археолог раскопал десятки тысяч глиняных табличек из древнего Вавилона, однако только несколько сотен специально подготовленных ученых могут перевести их. Подавляющее большинство этих документов никогда не читалось, даже если они были обнаружены в 1800-х годах. Чтобы дать дополнительную иллюстрацию проблемы, создаваемой этой шкалой, в экспедиции в 1851 году была собрана табличка из «Сказки о Гильгамеше», но ее значение не было раскрыто до 1872 года. Эта табличка содержит предбиблейское повествование о потопе, которое имеет огромное культурное значение как предшественник повествования о Ноевом Ковчеге.

Это глобальная проблема, но один из самых ярких примеров — это случай Японии. С 800 по 1900 год в Японии использовалась система письма Kuzushiji, которая была исключена из учебной программы в 1900 году, когда началось реформирование начального школьного образования. В настоящее время подавляющее большинство говорящих на японском языке не могут читать тексты, которым более 150 лет. Объем этих текстов — более трех миллионов книг в хранилище, но может быть прочитан лишь несколькими специально подготовленными учеными — ошеломляет. Одна только библиотека оцифровала 20 миллионов страниц таких документов. Общее количество документов, включая, помимо прочего, письма и личные дневники, оценивается в более одного миллиарда. Учитывая, что очень немногие люди могут понять эти тексты, в основном те, которые имеют докторскую степень в классической японской литературе и истории Японии, ученым было бы очень дорого и требовательно финансировать перевод этих документов на современный японский язык. Это мотивировало использование машинного обучения для автоматического понимания этих текстов.

Это сложная задача. Кудзусиджи написан сценарием, который существенно отличается от современного японского языка, что затрудняет даже базовое признание для современного японца. Тем не менее, после того, как Kuzushiji был преобразован в современный сценарий, большинство людей свободно говорит по-японски. Несмотря на это, некоторые трудности остаются из-за изменений в грамматике и лексике.

Учитывая его важность для японской культуры, проблема использования компьютеров для распознавания Кудзусиджи была тщательно изучена за счет использования различных методов глубокого обучения и компьютерного зрения. Тем не менее, эти модели не смогли добиться сильных результатов по признанию Kuzushiji. Это было связано с недостаточным пониманием японской исторической литературы в сообществе оптического распознавания символов (OCR) и отсутствием высококачественных стандартизированных наборов данных.

Для решения этой проблемы Национальный институт японской литературы (NIJL) создал и выпустил набор данных Kuzushiji, курируемый Центром открытых данных в гуманитарных науках (CODH). Набор данных в настоящее время содержит более 4000 классов символов и миллион изображений символов. Перед выпуском этого набора данных Kuzushiji исследователи OCR пытались создать наборы данных самостоятельно. Тем не менее, количество символов было очень ограничено, что приводило к тому, что их модели работали плохо при оценке по всему диапазону данных. NIJL-CODH решил эту проблему, предоставив большой и всеобъемлющий набор данных Kuzushiji для исследователей, для обучения и оценки.
Чёрная Пятница — обман или нет? «Это как посмотреть», — ответит человек, склонный всё считать и анализировать, а потом делать выводы.

И для таких ребят Чёрная Пятница в Нетологии точно состоится. С 20 по 30 ноября на все курсы по Data Science и аналитике действуют скидки до 50%. Чтобы получить скидку, просто оплатите курс на сайте до 3 декабря.

Вложитесь в востребованную профессию ↓
https://netolo.gy/e8H
Few-Shot vid2vid от NVIDIA — эффективная концепция синтеза видео в видео (vid2vid). vid2vid по существу преобразует семантическое входное видео в ультра-реалистичное выходное видео. Эта идея прошла долгий путь с момента появления.

В настоящее время есть два основных ограничения с этими моделями vid2vid:
- Они требуют огромного количества обучающих данных.
- Эти модели борются за обобщение данных обучения.
Вот тут-то и появляется фреймворк NVIDIA Few-Shot viv2vid.

Вы можете ознакомиться с полной исследовательской работой здесь.

Вот видео, предоставленное разработчиками, демонстрирующее Few-Shot vid2vid в действии:

Вот отличная статья, чтобы начать изучение того, как вы можете создать свою собственную модель классификации видео.
Обучение продакт-менеджменту с трудоустройством

Онлайн-университет от Mail ru Group с гарантированным трудоустройством снизил цены на 30 тысяч на обучение продакт-менеджменту, интернет-маркетингу и другим востребованным специальностям. Учитесь у экспертов, работающих в Mail ru, Delivery Club, ФРИИ, МТС, Теле2 и других крупных компаниях. Обучаться можно из любого города. Для начала занятий специальной подготовки не требуется.

Подробности по ссылке: https://bit.ly/2KBjQQs
Gaussian YOLOv3: точный и быстрый детектор объектов для автономного вождения
Прогресс автономного вождения достаточно медленный из-за множества причин (архитектура, государственная политика и т.д.). Поэтому всегда приятно видеть какие-либо фреймворки или алгоритмы, которые обещают лучшее будущее данной отросли.

Алгоритмы обнаружения объектов лежат в основе автономных транспортных средств. А обнаружение объектов с высокой точностью и высокой скоростью вывода жизненно важно для обеспечения безопасности. Все это существует уже несколько лет, так что же отличает этот проект?

Гауссова архитектура YOLOv3 повышает точность обнаружения системы и поддерживает работу в режиме реального времени (критический аспект). По сравнению с обычным YOLOv3, Gaussian YOLOv3 улучшает среднюю точность (mAP) на 3,09 и 3,5 для наборов данных KITTI и Berkeley Deep Drive (BDD), соответственно.

Ниже представлены три подробных, исчерпывающих и полезных статьи, которые помогут вам начать работу с обнаружением объектов и структурой YOLO в компьютерном зрении.
Пошаговое введение в основные алгоритмы обнаружения объектов.
Практическое руководство по обнаружению объектов с использованием популярной платформы YOLO (на Python).
Дружественное введение в обнаружение объектов в реальном времени с помощью мощного фреймворка SlimYOLOv3.
This media is not supported in your browser
VIEW IN TELEGRAM
RoughViz: Практичная библиотека визуализации данных в JavaScript
RoughViz — одна из библиотек JavaScript для создания нарисованных от руки эскизов или визуализаций. Она основана на D3v5, rawjs и, это удобно.

Вы можете установить roughViz на свой компьютер, используя следующую команду:
npm install rough-viz

Этот репозиторий GitHub содержит подробные примеры и код о том, как использовать roughViz. Вот различные диаграммы, которые вы можете сгенерировать:
Гистограмма
Кольцевая диаграмма
Линейный график
Круговая диаграмма
Точечная диаграмма

Хотите понять, как JavaScript работает в области науки о данных? Вот интуитивно понятная статья, которая поможет вам в этом: "Создайте модель машинного обучения в вашем браузере, используя TensorFlow.js и Python".
TensorTrade: практичная и эффективная торговля на Python
TensorTrade — это среда Python с открытым исходным кодом для создания, обучения, оценки и развертывания надежных торговых алгоритмов с использованием обучения с подкреплением. Фреймворк ориентирован на высокую степень компоновки и расширяемости, что позволяет системе масштабироваться от простых торговых стратегий на одном CPU до сложных инвестиционных стратегий, работающих на распределении компьютеров HPC.
GANs_in_Action_Deep_learning_with.epub
6.3 MB
Хотели разобраться в GAN-архитектуре?

Данная книга позволит ознакомиться с данной архитектурой, упростить освоение научных публикаций по GAN.

Репозиторий с книгой: https://github.com/GANs-in-Action/gans-in-action
Хочешь освоить профессию будущего? Создай свою первую модель машинного обучения всего за три вечера! Присоединяйся к бесплатному интенсиву!

Ссылка для регистрации: 🔜 https://clc.to/b2i2aA.


На интенсиве ты:
⚙️ познакомишься с основами программирования на Python;
⚙️ получишь базовые знания по Machine Learning;
⚙️ узнаешь, как оценивать качество модели машинного обучения;
⚙️ научишься работать с данными;
⚙️ создашь проект для своего портфолио.


Максимум теории, практики и советов эксперта!

🎁 Создатели трёх лучших проектов выиграют грант на 30 000 рублей для обучения в Skillbox!
Интересуешься Deep Learning или NLP? Хочешь больше узнать о том, как организовать обучение и деплой моделей?
Тогда тебе будет интересно взглянуть на авторский канал Neural Networks Engineering.
Это не обычные обзоры хайповых статей, а уникальный контент с практическими советами, личными проектами и экспериментами.
Материал не для новичков, на английском языке.

@neural_network_engineering
Последние достижения в машинном обучении, множество разделов с лидерами, статьями, кодом и датасетами

Смотреть: https://paperswithcode.com/sota
​​Очередная история о том, какие же классные Data Scientist'ы.
Как оказалось, многие летят в ОАЭ исключительно ради шоппинга... Но, ладно, сейчас не об этом. Туристы так увлекаются в процессе, что опаздывают на обратные рейсы. Объявления в аэропорту делаются на арабском и на английском языке, и, конечно, далеко не все приезжие ими владеют. Руководство аэропорта внедрило систему сканирования посадочных талонов на входе в каждый магазин в зоне duty free, и пассажиры стали получать уведомления о времени вылета, как пройти к выходу, сколько времени это займёт. Опоздавших и расстроенных стало меньше ;)

Не самое типичное использование больших данных, правда? Тем не менее, приносящее пользу.
Чем больше обнаруживается сфер применения big data, тем больше требуется специалистов. В SkillFactory это понимают, поэтому был создан курс Data Science, который подходит аналитикам, маркетологам и другим специалистам из IT: здесь вы освоите блок по Python, пройдете модуль математики и статистики для Data Science, изучитат Machine Learning, Deep Learning, Data Engineering и познакомитесь с нейронными сетями.

🎯Мы всегда за практику. И учиться нужно, практикуя;) Реализуйте свой потенциал: https://clc.to/qDpxkw
15 книг по Data Science, которые вы должны прочитать

Список действительно полезных книг по Data Science, которые помогут погрузиться в сферу и решить многие возникающие проблемы.

#статьядня

https://prglb.ru/35u17